苹果公司的Siri等个人助理通过自然语言命令来完成任务。但是,它们的基础组件通常依赖于监督的机器学习算法,这些算法需要大量的手工注释训练数据。为了减少收集数据的时间和精力,Apple的研究人员开发了一个框架,该框架利用用户参与信号自动创建数据增强标签。他们报告说,当使用诸如多任务学习和外部知识库验证之类的策略进行合并时,带注释的数据将大大提高生产深度学习系统的准确性。
“我们相信这是首次使用用户参与信号来帮助大规模生成序列标记任务的训练数据,并且可以在实际设置中应用,以在几乎没有人工注释数据的情况下加快新功能的部署,”研究人员在预印本上写道。“此外...用户参与信号可以通过从自身的错误中学习来帮助我们确定数字助理需要改进的地方。”
研究人员使用了一系列启发式方法来识别表明积极参与或消极参与的行为。其中一些功能包括轻按内容以使其进一步参与(肯定响应),长时间听歌(另一个肯定响应)或打断智能助手提供的内容并手动选择其他内容(否定响应)。这些信号以“保留隐私的方式”被有选择地收集,以自动产生地面真相注释,随后将它们与人类注释者提供的粗粒度标签组合在一起。
为了将粗粒度标签和推断的细粒度标签合并到AI模型中,论文的合著者设计了一个多任务学习框架,该框架将粗粒度和细粒度实体标签视为两个任务。此外,他们并入了一个由实体及其关系组成的外部知识库验证器。给定“某事”作为音乐标题,并将“甲壳虫”作为音乐艺术家,对查询“由披头士演奏某事”进行查询,验证器将查找顶部标签替代项并将其发送到一个组件,该组件将对预测进行排名,并返回最佳选择。