达特茅斯学院的研究人员已经建立了一个人工智能模型,用于使用 Reddit 上的对话检测精神障碍,这是新兴的筛查工具浪潮的一部分,这些工具使用计算机分析社交媒体帖子并深入了解人们的精神状态。
新模型的不同之处在于关注情绪,而不是分析的社交媒体文本的具体内容。在 第20 届 Web 智能和智能代理技术国际会议 (PDF) 上发表的一篇论文中 ,研究人员表明,无论帖子中讨论的主题如何,这种方法都会随着时间的推移表现得更好。
人们不为精神疾病寻求帮助的原因有很多——污名、高成本和缺乏服务是一些常见的障碍。该论文的合著者、Guarini '24 的郭晓波说,还有一种趋势是尽量减少精神障碍的迹象或将其与压力混为一谈。他说,他们可能会在一些提示下寻求帮助,而这正是数字筛选工具可以发挥作用的地方。
“社交媒体提供了一种了解人们行为的简便方法,”郭说。他说,这些数据是自愿和公开的,发布给其他人阅读。
Reddit 提供庞大的用户论坛网络,是他们选择的平台,因为它拥有近十亿活跃用户,他们讨论广泛的话题。这些帖子和评论是公开的,研究人员可以收集可追溯到 2011 年的数据。
在他们的研究中,研究人员专注于他们所谓的情绪障碍——重度抑郁症、焦虑症和双相情感障碍——以不同的情绪模式为特征。他们查看了来自自我报告患有其中一种疾病的用户和没有任何已知精神疾病的用户的数据。
他们训练他们的模型来标记用户帖子中表达的情绪并绘制不同帖子之间的情绪转换,因此可以将帖子标记为“快乐”、“愤怒”、“悲伤”、“恐惧”、“没有情绪”或这些的组合。该地图是一个矩阵,可以显示用户从任何一种状态到另一种状态的可能性有多大,例如从愤怒到没有情绪的中性状态。
不同的情绪障碍有自己的情绪转变特征模式。通过为用户创建情绪“指纹”并将其与情绪障碍的既定特征进行比较,该模型可以检测到它们。为了验证他们的结果,他们在训练期间未使用的帖子上对其进行了测试,并表明该模型准确地预测了哪些用户可能患有或不患有这些疾病之一。
计算机科学助理教授、另一位合著者Soroush Vosoughi说,这种方法回避了典型筛选工具遇到的一个称为“信息泄漏”的重要问题 。他说,其他模型是围绕审查和依赖文本内容而建立的,虽然这些模型显示出高性能,但它们也可能具有误导性。
例如,如果一个模型学会将“COVID”与“悲伤”或“焦虑”联系起来,Vosoughi 解释说,它自然会假设一位研究和发布(相当冷静)关于 的科学家患有抑郁症或焦虑症。另一方面,新模型只关注情绪,对帖子中描述的特定主题或事件一无所知。
虽然研究人员不关注干预策略,但他们希望这项工作能够为预防指明方向。在他们的论文中,他们有力地证明了基于社交媒体数据对模型进行更深思熟虑的审查。“拥有表现良好的模型非常重要,”Vosoughi 说,“但也要真正了解它们的工作原理、偏见和局限性。”