在元宇宙听不懂外语怎么办?Meta:新技术可翻译 128 种语言
As#元宇宙#Facebook是其最坚定的支持者之一,上个月宣布将更名为meta。从那时起,它采取了许多新举措。首先,它推出了一款触觉手套,试图让人们体验VR世界中的触觉变化
触摸之后,meta专注于语言。它希望人们在虚拟世界中无障碍地交流。即使双方使用不同的语言,当你说英语时你可以理解对方,当我说汉语时我可以理解对方,这就是xls-这是meta最近发布的AI语言处理模型。它最多可以识别128种语言。到目前为止,它已经发布了一个网络体验版本
▲ XLS公司-R web体验版本仅支持语音输入𞓜 体验版的功能有些缺失。它只支持将22种语言翻译成16种语言。我尝试了最常见的英语翻译,一篇7秒的英语演讲,xls-R仍然可以相对准确地识别。中文翻译和英文识别基本正确。两者都需要大约1.4秒,这并不短
▲XLS公司-R识别同一演讲的英文和中文翻译结果𞓜 与市场上常见的语音翻译应用相比,速度和翻译性能实际上是有规律的,并且都对口语清晰度有要求。一旦速度快一点,就很难理解,翻译就会出错
XLS-R的潜力反映在多语言通用AI模型中。据meta介绍,该技术基于wac2vec 2.0预训练模型,可以将语音分割成25μm的基本单元进行分析,利用上下文转换语音内容,提高识别精度
后来,meta多次调整wac2vec 2.0技术,尝试处理多种语言,转换精度得到很大提高。经过436000
小时的公开录音培训,今天的XLS可用-R.
▲XLS公司-R较低的单词识别错误率𞓜 xls公司-R仅用语言模型就可以转换128种语言,这不同于在特定领域使用特殊模型的常见做法,极大地提高了通用性。meta在官方博客中表示,他们的目标是使用单一模型识别全球7000多种语言,以改进转换算法
这是一个新的开始。要真正成为meta设想的虚拟世界的一个基本部分仍然很困难,这不仅与技术有关,而且还受到设备计算能力的限制
谷歌在自然语言识别领域也有大量的技术储备,实际上比meta更早地支持消费设备上的多语言翻译。Pixel 6系列支持live
translate功能,可在聊天软件中进行翻译,与外语朋友无障碍交流
然而,实时翻译功能支持的语言并不多,主要是英语、德语和日语之间的翻译。就AI性能而言,即使是像素6中使用的张量芯片也是世界上最好的,达到了小龙888+三次
只有在线实时翻译功能可以支持48种语言,而使用云计算技术的谷歌翻译只支持108种语言,远远超过7000种语言
元宇宙离我们还有很长的路要走,但xls-作为元虚拟世界的基础设施之一,R等技术可能在其他领域发挥作用。现在它已经发布了xls-R
预培训模型的微调教程使内部人员能够基于它进行微调,以便将其应用于具体工作
也许在不久的将来,我们将看到越来越多的应用程序支持更多语言的语音翻译。