经过将近一年的悬念和争议,现在,OpenAI的人工智能(AI)研究人员团队将有一天发布GPT-2的完整和最终版本,该语言模型可以“生成连贯的段落并进行基本的阅读理解,机器翻译,问题解答和摘要-所有这些都无需特定任务的培训。”当OpenAI在2月份首次发布该程序时,它具有令人赞叹的壮举:例如,关于安第斯山脉独角兽的两句提示,该程序制作了一条连贯的九段新闻文章。当时,技术成就是有新闻价值,但它是如何OpenAI选择了释放,真正引起了轩然大波新技术。
机器学习研究社区中存在一种普遍的开放性规范,该领域的开放者是该领域的早期巨头有意识地创建的:期望可以共享进步,以便可以对其进行评估,从而使整个领域都在进步。但是,在2月份,由于担心该程序可能被用来产生误导性的新闻报道,OpenAI选择了更有限的发布;在网上模拟人;或自动制作可恶,伪造或垃圾内容。因此,该公司共享了一个小的117M版本以及采样代码,但宣布将不共享数据集的关键元素,培训代码或模型权重。
尽管一些观察者赞赏OpenAI的谨慎,但许多人感到失望。一组评论员指责该组织散布恐惧,并夸大了该技术引起人们注意的危险;其他人则建议该公司背叛其核心使命,应将自己重命名为“ClosedAI”。5月份,OpenAI发布了该模型的较大版本3.45亿,并宣布将与也正在努力的有限合作伙伴共享762M和1.5B版本。制定针对恶意使用的对策。再次有人鼓掌。其他人则不为所动。
不管GPT-2是否足够危险以至于无法保留,OpenAI的出版策略都引发了关于确定原则和策略的跨学科对话,以决定何时适当限制对AI研究的访问。在过去的八个月中,OpenAI作为规范企业家的努力已经影响了其他人:AI合作伙伴关系组织了一次活动,讨论开放研究与预防性关注之间的紧张关系。Hugging Face公司限量发行社交聊天机器人的文章,描述了如何滥用该系统,并提出了识别他人误导性聊天机器人的方法。华盛顿大学和艾伦人工智能研究所的研究人员揭示了GROVER(一种GPT-2风格的语言模型)时,他们决定不发布该模型的大型版本-这一决定部分基于OpenAI的论点。同样,人工智能初创公司AI21 Labs发布了其神经文本生成器的345M版本,理由是“它的大小相当于Grover和GPT-2的公开发布版本。”“好奇的黑客” Connor Leahy独立复制了OpenAI的未发布1.5 B GPT-2,并计划公开发布它-但随后决定不这样做,帮助制定负责任的发布规范。
GPT-2案引发了AI界内部关于OpenAI是否做出正确选择的激烈辩论。现在,任务是从GPT-2案例研究中推断出来,并就负责任的AI发布规范达成共识。