深度学习人工智能正在帮助解决现代世界中的许多问题。但它也可以在帮助解决一些古老问题方面发挥作用,例如协助翻译来自波斯阿契美尼德帝国(Achaemenid Empire)的2500年历史的黏土平板文件。
这些药片于1933年在现代伊朗被发现,已经被学者研究了数十年。但是,他们发现平板电脑的翻译过程非常麻烦,并且容易出错,该翻译过程数以万计。人工智能技术可以提供帮助。
芝加哥大学计算机科学系助理教授Sanjay Krishnan告诉“数字趋势”:“我们进行了应用机器学习的初步实验,以识别平板电脑图像中存在哪些楔形文字符号。”“机器学习通过从人类标记的示例中推断模式来进行工作,这使我们将来能够自动执行注释。我们认为,这是对这些平板电脑的分析和研究实现重大自动化的一步。”
在这种情况下,带有人标签的示例是波斯波利斯要塞存档(PFA)的在线文化和历史研究环境(OCHRE)数据集中的带注释的平板电脑。在DeepScribe中,芝加哥大学东方学院的研究人员与计算机科学系合作,他们使用了6,000多个带批注图像的训练集,建立了一个神经网络,能够读取馆藏中未经分析的药片。当该算法在其他平板电脑上进行测试时,它能够以大约80%的准确度翻译楔形文字。希望将来可以提高此基准。即使没有发生,该系统也可以用于翻译大量药片,使人类学者可以将精力集中在真正困难的地方。
“楔形文字是自公元前三千年以来使用的一种脚本,用于编写包括Sumerian,Akkadian和Elamite在内的多种语言,”Assyriology副教授Susanne Paulus对《数字趋势》表示。
楔形文字对机器翻译提出了一系列特殊的挑战。首先,它是通过将芦苇笔打入湿粘土中来编写的。这使楔形文字成为极少数的三维脚本系统之一。其次,楔形文字是使用数百个符号的复杂脚本系统。每个符号根据其上下文具有不同的含义。第三,楔形文字片是古老的人工制品。它们经常被打碎并且难以解读,这意味着阅读一台平板电脑可能需要几天的时间。
克里希南说:“到目前为止,我们有一个初步的原型,表明这种技术在受控环境中非常有效。”“考虑到单个符号的清晰图像,[我们可以]确定该符号是什么。我们的下一步是开发考虑上下文和数据质量的更强大的模型。”