新闻:用于总结科学文献的新AI模型现在可以帮助研究人员涉猎并确定他们想阅读的最新前沿论文。11月16日,艾伦人工智能研究所(AI2)将模型推广到其旗舰产品Semantic Scholar,这是一种由AI驱动的科学论文搜索引擎。当用户使用搜索功能或进入作者页面时,它在每篇计算机科学论文(目前)下提供一句tl; dr(太长;没有阅读)摘要。这项工作也被本周的“自然语言处理的经验方法”会议接受。
背景:在信息过载的时代,使用AI来总结文本一直是一个流行的自然语言处理(NLP)问题。有两种一般方法可以完成此任务。一个被称为“抽取式”,它试图从逐字记录中找到一个句子或一组句子,以抓住其本质。另一个被称为“抽象的”,涉及生成新的句子。尽管由于NLP系统的局限性,提取技术曾经更加流行,但是近年来自然语言生成的进步使抽象技术变得更好了。
他们是如何做到的: AI2的抽象模型使用了所谓的变压器-一种神经网络架构,于2017年首次发明,此后推动了NLP的所有重大飞跃,包括OpenAI的GPT-3。研究人员首先在通用的语料库上训练了转换器,以建立对英语的基本熟悉程度。此过程称为“预训练”,是使变压器如此强大的部分原因。然后,他们针对汇总的特定任务微调了模型(换句话说,对其进行了进一步的培训)。
微调数据:研究人员首先创建了一个名为SciTldr的数据集,其中包含大约5400对科学论文和相应的单句摘要。为了找到这些高质量的摘要,他们首先在OpenReview上寻找了它们,OpenReview是一个公开的会议论文提交平台,研究人员通常在该平台上发表自己的论文一句摘要。这提供了两千对。然后,研究人员雇用了注释者,通过阅读和进一步浓缩同行评审员已经撰写的摘要来总结更多论文。