百度创新性提出全球首个上下文感知的机器同传模型,AI同传媲美人类

热点专题 浏览(1008)

?

近日,百度翻译团队在机器同声传译领域取得突破,创新性地提出了世界上第一台情境感知机同声传译模型,并在此基础上发布了最新的语音到语音机同步传输系统:杜通川同时,世界首个汉英语音场景语音翻译数据集(BSTC)发布。经过实际测试,AI同声传译效果可与人工翻译相媲美!

说白了,“同声传译”就像是你周围的虚拟翻译。您只需携带耳机即可听到以您的母语播放的演讲,并获得身临其境的体验。该“虚拟翻译器”可以基于演示的上下文实时地播放一致且准确的翻译结果。与以前的翻译系统不同,无论上下文如何,“发送这句话,忘记了最后一句话”。此外,由于系统以小程序的形式提供服务,因此只能收听一部手机,从而消除了租用同步红外设备的成本。

推动世界上第一个上下文感知机器同步模型,第一个语音翻译数据集(BSTC)

与传统的机器同步传输技术不同,“同声传译”采用了新开发的感知上下文的机器同步模型。百度翻译团队创新地提出了信息单元(IU)的概念,它将实时语音流分成IU并将其用作翻译单元。这种灵感来自人类的翻译。翻译过程中听到的内容以语义块为单位进行翻译,不仅保证了翻译质量,还保证了实时性。

以下面的句子为例。如果你等到句子结束然后翻译,时间延迟将非常大。对于实时语音流,IU检测模块将确定语音段是否表达完整的含义。例如,“她说我错了”被认为是IU。此时,翻译完成,完全传达了原文的意思。与扬声器的节奏同步。

img_pic_1565947406_0.jpg

图1:“相同的同时工作流程”

百度提出了一种基于动态上下文的IU检测模型,该模型将IU检测视为一种分类问题。例如,在下面的例子中,当模型不能确定单词“ji”是否是IU的结束位置(左)时,它将继续读取更多单词以帮助做出判断(右)。

img_pic_1565947406_1.jpg

图2:语义信息单元检测模型

为了提高翻译的流畅性和一致性,百度提出了两种解码算法:部分解码和上下文感知解码,它们可以组合上下文信息以生成全局平滑的目标翻译。然而,传统方法仅翻译当前句子,并且不组合上下文信息,并且翻译不平滑。

img_pic_1565947406_2.jpg

图3:“类似解释”模型框架

在产品形式方面,与传统字幕相比,语音到语音的同声传译使用户能够获得类似于手动同步传输的沉浸式体验,更多地关注语音。而言语本身的内容。此外,由于百度开发的最新技术,该系统具有高质量,高流畅性,低延迟的特点。该系统成功应用于2019年百度AI开发者大会,演讲内容实时翻译给观众,并获得好评如潮。

百度翻译团队还发布了世界上第一个汉英语音场景语音翻译数据集(BSTC)。该数据集包含超过50小时的语音演讲和相应的成绩单文本,时间表,翻译文本和其他数据资源,涵盖IT,经济,文化,生物,艺术和其他主题。该数据集填补了机器同声传译研究的空白,没有真实的数据集,在推动相关研究方面发挥了重要作用。

img_pic_1565947406_3.jpg

表1:BSTC数据集的详细统计数据

(转录文本基于字符统计,翻译文本基于单词统计,语音音频基于每小时统计数据)

现实生活和机器同声传译“同一领域”AI是美丽的人类

为了评估当前机器同步传输技术的进展,百度翻译团队邀请了三名不同工作年限(3 - 7年)的口译人员模拟真实的同声传译场景,并对BSTC中的同一语音进行同声传译。最终结果表明,传统的BLEU自动评价指标和人工翻译的人工评价方法均表明同声传译具有极具竞争力的翻译水平。

值得注意的是,评估中使用的BLEU和手动评估是基于转移后的翻译文本。 BLEU指标基于n-gram严格匹配计算得分,而人工评估侧重于翻译的完整性和流畅性,类似于使用翻译的标准评估解释。从表3可以看出,机器翻译在可接受性方面与人类翻译相当(可接受性,综合评价准确性,流畅性和较高分数)(73.91%对73.04%),以及错过翻译率(泄露翻译的单词数占总翻译的百分比显着低于人工翻译(20%对47%)。当错过的翻译率很高时,人类翻译仍然保持高度的可接受性。这表明,在具有高实时要求和强烈的脑力工作强度的同时情景下,人工翻译将被灵活和适当地省略,以突出重要信息的传递。该机器的优点在于它不倦,并且具有低的错过翻译率,在同一场景中显示出巨大的潜力。从表中还可以看出,传统的基于文本的评估方法有其局限性。研究合同契约现场的评价标准和指标是一个迫切的问题,也是一个非常有价值的方向。

img_pic_1565947406_4.jpg

表2:同声传译和人工同时传输的自动评估结果(S,A,B)

img_pic_1565947406_5.jpg

表3:人工评估的同声传译和同声传译结果

注:手工评估标准分为3个等级,可接受性是OK和GOOD的总和。

坏:翻译准确,流利性差,不可接受

好的:翻译是可以理解的,但允许一些错误(不影响理解)

好的:翻译准确,流畅地传达了原始内容

在2019年的百度AI开发者大会上,中英文同声传译结果表明,机器同时传输在手动接受度方面达到了较高水平。汉英同声传播的可接受性为85.71%,英汉同声传播的可接受性为86.36%。根据现场体验,合成目标语音仅在发言者语音的3秒内,为观众提供高质量,低延迟的沉浸式同声传译体验。

img_pic_1565947406_6.jpg

表4:手动评估结果

在这个阶段,许多国际会议都出现了机器同声传译。它的优势在于它能够依靠强大的AI技术和数据库作为后盾。它可以拥有比人工翻译更好的记忆,掌握和获取更多信息和专业知识。对该领域的了解。未来,百度将继续改进其机器技术,打破语言障碍,搭建世界通信的桥梁。