在不久的将来,我们将使用机器阅读研究论文并建立人类尚未建立的联系。发表在科学杂志《自然》上的一篇论文概述了古老的科学研究论文中包含的“潜在知识”是如何被我们这些可怜的人类充分利用的。正如一个名为 Word2vec 的系统所证明的那样,连接是存在的,并且它们将继续通过机器学习以大的方式建立!
我们今天做什么
今天我们遇到了一个问题——个人收集知识与传播知识之间存在某种脱节。以埃及金字塔为例。在某个时候,有人知道关于这些金字塔的一切——必须以某种方式知道才能建造它们。
随着时间的推移,知识流失了。无论是缺乏了解的欲望,还是缺乏经得起时间考验的知识保存方法,信息都丢失了。我们作为人类的集体记忆并没有保留所有关于埃及金字塔的知识。
今天,我们拥有保留知识的方法,子孙后代可以依靠这些方法来立足和扩展。问题在于,每次我们学习新知识时,我们都会从自己独特的角度解释和/或传播所述知识。即使我们处理看似客观的主题,细节也可能会在此过程中丢失。
甘道夫
这种情况的另一个流行文化参考是指环王中的甘道夫。“曾经的很多东西都丢了,”精灵领主加拉德瑞尔说,“因为现在没有人记得它了。”
在米那斯提力斯的图书馆里,甘道夫从各个时代寻找信息,但几乎都忘记了。在搜索图书馆和一堆乱七八糟的论文时,甘道夫在已经发表的论文中发现了一些发现。
甘道夫重新发现了力量之戒和一戒发生了什么,以及基本上所有使《指环王》的故事从那时开始向前发展的东西。当然,这些信息是写下来的,但我们需要一个甘道夫去寻找它,阅读它,并将重要的部分传达给世界,这样我们今天就可以在这里使用这些知识。
更好地标记
研究人员 Vahe Tshitoyan 等人写道:“出版物包含有关作者解释的数据项之间的联系和关系的宝贵知识,为了提高对这些知识的识别和使用,一些研究侧重于从科学文献中检索信息使用有监督的自然语言处理。”
这个过程需要手工处理数据集,并且它们通常与手工标记的数据集一起使用。同样,在标记过程中可能会遗漏细节。Tshitoyan 的新研究中提出的过程提出了一种新方法。
这种新方法使用来自已发表研究的材料科学知识,编码为“没有人工标记或监督的信息密集词嵌入(词的向量表示)”。计算机解释信息并将其全部存储在一个地方。
会发生什么?
一旦机器开始捕获信息,它就会立即开始解释所述信息。然后,该机器可能会“在发现材料前几年推荐用于功能性应用的材料”。
根据 Tshitoyan 的说法,该团队的研究结果表明,已经发表的研究包含“关于未来发现的潜在知识”,这些知识将被机器发现。这台机器可能比人类早几年做出发现——并且可能会发现人类根本无法建立的联系!
“在每个研究领域都有 100 年的过去研究文献,每周都有数十项研究出来,”研究合著者 Gerbrand Ceder 说。“研究人员只能访问其中的一小部分。我们认为,机器学习能否在不需要人类研究人员指导的情况下,以无人监督的方式利用所有这些集体知识?”