Meta发布AI翻译套件"Seamless Communication":支持近百种语言输入、同声延迟仅2秒
Meta最近发布了一款名为“Seamless Communication”的AI翻译套件,该套件由四款AI模型组成。据Meta称,这个AI套件能够“精准再现说话者情绪”,并具备延迟仅2秒的同声传译能力和支持近百种语言输入。
据悉,Seamless Communication是Meta庆祝自家AI研究机构“Fundamental AI Research”成立10周年所发表的研究成果。
Meta介绍了该套件包含的四个模型:用于加速翻译的“第二代SeamlessM4T模型”、口译模型“Seamless Expressive”、同声翻译模型“Seamless Streaming”和综合模型“Seamless”。
以下是相关信息:
- SeamlessM4T模型:号称能够在翻译时基于用户说话内容自动联想可能的后文,以加速翻译。
- Seamless Expressive是一种口译模型,它解决了传统AI翻译无法准确捕捉用户语调、停顿和读词重轻度的问题。它能够在保持翻译质量的同时,保留用户的情绪、风格、语速、停顿和节奏,从而为翻译内容带来更多的情感信息。
- Seamless Streaming是一款同声翻译模型,主打2秒延迟的语音和文字翻译,支持口译(speech-to-speech translation)、听写翻译(speech-to-text translation,S2TT)和自动语音识别功能(Automatic speech recognition,ASR)。
- 综合模型Seamless整合了上述三种语言模型,适用于通用场景。
目前,Meta已经在GitHub和HuggingFace网站上发布了示例视频,感兴趣的用户可以点击查看。
本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/product/2020.html