Meta推出MassivelyMultilingualSpe

今天,Meta公司宣布推出Massively Multilingual Speech,该 AI 技术能为超过1100种语言提供语音转文本以及文本转语音的功能。更令人惊讶的是,语言转文本的错误率仅为Whisper的一半,而为4000多种语言训练的语言识别模型仅有6.1%的错误率。这项研究的关键在于使用了宗教语言数据集。

巧妙使用宗教语言数据集

目前最大的语音数据集只涵盖100种语言。但是圣经等宗教文本由于已经被翻译,可以提供公开的录音。因此,Meta创建了一个包含1100多种语言的圣经新约数据集,每种语言32小时的数据。在纳入其他基督教读物的无标签录音后,这个数据集的可用语言数量增加到了4000多种。

值得一提的是,这些录音以男性为主,但是模型的男女性声音表现同样出色。同时,录音是宗教内容,但模型并没有过度偏向宗教语言,尽管还存在一些偏差。

使用CTC技术

为了训练这个Massively Multilingual Speech技术,Meta使用了一种名为连接时序分类(CTC)的技术。这种技术可以使模型更加准确地进行语音和文本转换,而避免了传统的LLMs技术所存在的一些缺陷。

CTC技术的优势在于,它不需要预先对文本进行对齐或者分割,即可进行语音和文本的匹配。除此之外,CTC技术还具有很好的可扩展性,在处理更大规模、更复杂的数据集时仍能保持高度的准确性和效率。

公布模型和代码

据官方介绍,这个Massively Multilingual Speech技术已经公布了相关模型和代码,对于研究者和开发者来说,都是一个非常重要的资源。有了这个技术,人们可以更加方便地进行跨语言沟通和交流,特别是对于那些面临语言障碍的人来说,将更加便利。

保留濒临灭绝的语言

在全球范围内,有许多语言正处于濒危状态,这意味着只有极少数的人能够说这些语言。在这种情况下,只要保留一份圣经读本的录音,就能够永久保留这些语言。此外,对于那些日益减少使用的方言来说,也可以通过从圣经文本中提取录音,将其留存下来并加以使用。

结语

总之,Massively Multilingual Speech技术的推出为全球范围内的跨语言沟通和交流提供了极大的便利,特别是对于那些面临语言障碍的人来说。同时,这项技术也为保留濒危语言提供了新的手段,让这些语言能够永久留存下来。