在AI和机器学习系统中,通常通过训练小模型(学生)来模仿大而笨重的模型(老师)来积累知识。这个想法是通过使用其输出作为标签来压缩老师的知识以优化学生的知识,但是并不能保证当老师很大时知识会转移给学生。
这就是为什么一个亚马逊研究人员小组在最近的一项研究中开发了一种将大型模型的内部表示提炼为简化版本的技术。他们声称,在实验中,从表示中添加知识蒸馏往往比仅使用标记蒸馏更为稳定。
所提出的方法允许上述学生通过转移其语言特性在内部扮演教师的角色。通过教师输出中的标签对学生进行优化,并通过匹配其内部表示来获取隐藏在教师中的抽象。
在典型的AI模型中,神经元(数学函数)排列在相互连接的层中,这些层传输来自输入数据的“信号”并缓慢调整每个连接的突触强度(权重)。在上述技术中,对学生的各层进行了优化以使其与教师的各层相匹配,以便从最低层(最靠近输入)的知识先于高层被提取。这使学生能够系统地学习和压缩教师各层中的抽象。
研究人员在通用语言理解评估(GLUE)基准的四个数据集上进行了涉及GoogleBERT的实验,该数据集是用于训练,评估和分析自然语言处理算法的资源集合。即使在模型每隔两层老师跳过一层的情况下,他们也报告说学生能够复制老师教的行为。此外,在学生模型中复制了教师的泛化能力,这意味着学生可能会犯错教师。它证明了基准数据集的性能提高了5-10%,其中包括团队组装的大型新Reddit数据集。
“不同于标准的[知识蒸馏]方法,即学生仅从教师的输出概率中学习,我们通过揭示教师的内部表示来教我们较小的模型。研究人员在描述他们工作的论文中写道:“除了保持类似的表现,我们的方法还可以有效地将教师的内部行为压缩到学生中。”“这在标准的[知识蒸馏]方法中不能得到保证,这可能会影响最初打算从教师那里转移过来的泛化能力。”