人工智能研究需要负责任的出版规范

经过将近一年的悬念和争议，现在，OpenAI的人工智能(AI)研究人员团队将有一天发布GPT-2的完整和最终版本，该语言模型可以“生成连贯的段落并进行基本的阅读理解，机器翻译，问题解答和摘要-所有这些都无需特定任务的培训。”当OpenAI在2月份首次发布该程序时，它具有令人赞叹的壮举：例如，关于安第斯山脉独角兽的两句提示，该程序制作了一条连贯的九段新闻文章。当时，技术成就是有新闻价值，但它是如何OpenAI选择了释放，真正引起了轩然大波新技术。

机器学习研究社区中存在一种普遍的开放性规范，该领域的开放者是该领域的早期巨头有意识地创建的：期望可以共享进步，以便可以对其进行评估，从而使整个领域都在进步。但是，在2月份，由于担心该程序可能被用来产生误导性的新闻报道，OpenAI选择了更有限的发布;在网上模拟人;或自动制作可恶，伪造或垃圾内容。因此，该公司共享了一个小的117M版本以及采样代码，但宣布将不共享数据集的关键元素，培训代码或模型权重。

尽管一些观察者赞赏OpenAI的谨慎，但许多人感到失望。一组评论员指责该组织散布恐惧，并夸大了该技术引起人们注意的危险;其他人则建议该公司背叛其核心使命，应将自己重命名为“ClosedAI”。5月份，OpenAI发布了该模型的较大版本3.45亿，并宣布将与也正在努力的有限合作伙伴共享762M和1.5B版本。制定针对恶意使用的对策。再次有人鼓掌。其他人则不为所动。

不管GPT-2是否足够危险以至于无法保留，OpenAI的出版策略都引发了关于确定原则和策略的跨学科对话，以决定何时适当限制对AI研究的访问。在过去的八个月中，OpenAI作为规范企业家的努力已经影响了其他人：AI合作伙伴关系组织了一次活动，讨论开放研究与预防性关注之间的紧张关系。Hugging Face公司限量发行社交聊天机器人的文章，描述了如何滥用该系统，并提出了识别他人误导性聊天机器人的方法。华盛顿大学和艾伦人工智能研究所的研究人员揭示了GROVER(一种GPT-2风格的语言模型)时，他们决定不发布该模型的大型版本-这一决定部分基于OpenAI的论点。同样，人工智能初创公司AI21 Labs发布了其神经文本生成器的345M版本，理由是“它的大小相当于Grover和GPT-2的公开发布版本。”“好奇的黑客” Connor Leahy独立复制了OpenAI的未发布1.5 B GPT-2，并计划公开发布它-但随后决定不这样做，帮助制定负责任的发布规范。

GPT-2案引发了AI界内部关于OpenAI是否做出正确选择的激烈辩论。现在，任务是从GPT-2案例研究中推断出来，并就负责任的AI发布规范达成共识。