麻省理工学院的研究人员创建了一个新系统,该系统使用机器学习来帮助语言学家破译已被时间遗忘的语言。研究表明,大多数曾经存在过的语言都不再使用了,有几十种已死的语言被认为是无法破译的。语言学家对语法、词汇和句法了解不够,无法理解这些遗失语言中留下的文本。
语言学家面临的挑战很多,包括许多这些丢失的语言都没有可以与之相比的经过充分研究的相关语言。有些还缺少分隔符,如空格和标点符号。麻省理工学院计算机科学与人工智能实验室最近在破译丢失的语言方面取得了突破。
研究人员创建了一个新系统,该系统能够自动破译丢失的语言,而无需了解其与其他语言的关系。该系统可以确定语言之间的关系,最近,它被用来暗示伊比利亚语与巴斯克语无关,正如一些语言学家所认为的那样。该项目的科学家的最终目标是能够仅使用几千个单词就能破译那些让语言学家感到困惑的语言。
项目负责人 Regina Barzilay 表示,该系统依赖于基于历史语言学见解的七项原则。这些原则认为语言通常只会以可预测的方式发展。语言很少添加或删除整个声音,并且很可能会发生声音替换。例如,在母语中带有“P”的单词在后代语言中可以变成“B”,但由于发音差距,不太可能变成“K”。
使用这些语言限制,麻省理工学院的研究人员开发了一种破译算法,能够处理可能的转换的巨大空间。该算法学习将语言声音嵌入到多维空间中,其中发音差异反映在对应向量之间的距离上。该模型旨在对古代语言中的单词进行分割,并将它们映射到相关语言中的对应词。