Common Voice

Common Voice是由Mozilla基金会所发起的群众参与项目,旨在为语音辨识软件创建自由数据库。这项项目受到志工们的协助,以麦克风来进行录音及分类他人所录制的声音。收集的句子及语音都将收录至以CC0授权发布至公有领域的数据库当中。这项授权许可让程序员们能不受限制或成本地将数据库使用于语音辨识的应用程序当中。

Common Voice
开发者Mozilla基金会
首次发布2017年6月19日2017-06-19
源代码库https://github.com/mozilla/voice-web
语言多语言(语言列表
许可协议CC0
网站commonvoice.mozilla.org
使用Firefox打开的Common Voice繁体中文首页

宗旨

Common Voice旨在提供多样化的语音样本。根据Mozilla的首席创新官Katharina Borchert所说,当今有许多类似的项目都是从公众媒体来取得数据集,但这些收录内容以训练有素的专业人士或是男性居多,并无法完全代表女性,或是说话带有明显口音的人。[1]

语音数据库

第一个公开的数据集于2017年11月发布。全球共超过2万名用户录制了500个小时的英文句子。 [2]

2019年2月,第一批语言对外公开发布。包括了18种语言:英语法语德语普通话,但也包括不太流行的语言,如威尔斯语卡拜尔语。整体包括了4.2万多名贡献者近1400小时的录音数据。 [3]

截至2020年7月,该数据库已经收集了54种语言共7226小时的录音,其中5591小时已经经过志工们的验证[4]。其中英文、德文、法文、意大利文和西班牙文,就有超过5000位的语音贡献者。[5]

2021年5月,在完成添加卢旺达语的工作后,获得了比尔及梅琳达·盖兹基金会德国国际合作机构英国外交、国协及发展事务部针对史瓦希利语语音收集的捐助,并希望以此能够带动更多东非语系的加入。 [6]

2022年9月宣布,加纳契维语是第100种被添加进Mozilla Common Voice数据库的语言。[7][8]

参见

参考

  1. . The Guardian. 11 January 2020 [19 April 2020]. (原始内容存档于2022-12-19).
  2. . blog mozilla.org. November 29, 2017 [2022-12-19]. (原始内容存档于2017-11-29).
  3. . VentureBeat. February 28, 2019 [2022-12-19]. (原始内容存档于2019-03-04).
  4. . VentureBeat. 1 July 2020 [1 April 2021]. (原始内容存档于March 10, 2021).
  5. . iThome. July 6, 2020 [2022-12-19]. (原始内容存档于December 3, 2022).
  6. . Mozilla Foundation. 2021-05-25 [2021-06-03]. (原始内容存档于2022-12-19) (英语).
  7. Onukwue, Alexander. . Quartz. 23 September 2022 [3 October 2022]. (原始内容存档于2022-12-02) (美国英语).
  8. . commonvoice.mozilla.org. [4 October 2022]. (原始内容存档于2022-12-24) (英语).
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.