通信技术的进步对各种行业都产生了重大影响,但也许没有比教育更大的影响了。现在,来自世界各地的任何人都可以现场收听诺贝尔奖获得者的演讲,也可以通过互联网访问最知名的大学而获得学分。但是,如果听众听不懂讲师的语言,将从在线观看和收听中获得的可能的信息丢失。为了解决这个问题,日本奈良科学技术学院(NAIST)的科学家在日本信息处理学会(IPSJ SIG-)的自然语言处理特别兴趣小组第240次会议上提出了一种新的机器学习解决方案。 NL)。
机器翻译系统使某人以以前从未听说过的语言向酒店询问路线变得非常简单。有时,系统可能会犯出有趣和无辜的错误,但总体上实现了连贯的交流,至少对于短时间的交流(通常只有一两个句子)。如果演示文稿可能持续一个小时以上,例如学术讲座,那么它们的鲁棒性就差很多。
主持这项研究的NAIST教授中村聪解释说:“ NAIST有20%的外国学生,尽管英语课程的数量在增加,但这些学生的选择受到他们日语能力的限制。”
Nakamura的研究小组从NAIST获得了46.5个小时的存档演讲视频及其转录和英语翻译,并开发了基于深度学习的系统来转录日语演讲语音并将其翻译成英语。在观看视频时,用户会看到与讲师的口语相匹配的日语和英语字幕。
有人可能希望理想的输出是可以通过现场演示进行的同步翻译。但是,实时翻译会限制处理时间,从而限制准确性。
他说:“由于我们将带字幕的视频保存在档案中,因此,通过创建处理时间更长的字幕,我们发现了更好的翻译。”
用于评估的存档素材包括机器人技术,语音处理和软件工程的演讲。有趣的是,语音识别中的单词错误率与讲师语音中的不愉快程度相关。错误率不同的另一个因素是不停顿说话的时间长度。用于训练的语料仍然不足,应进一步发展以进一步改进。
他继续说:“日本希望增加其国际学生,而NAIST则有很大的机会成为这项工作的领导者。我们的项目不仅将改善机器翻译,还将为日本带来光明的头脑。”