使用生成式人工智能的治疗机器人的首次临床试验表明,对于患有抑郁症、焦虑症或有饮食失调风险的患者,它与人类疗法一样有效。即便如此,它也没有批准数十家在监管灰色地带运营的同时大肆宣传此类技术的公司。
达特茅斯学院盖泽尔医学院的精神病学研究人员和心理学家领导的团队开发了一款名为 Therabot 的工具,研究结果于 3 月 27 日 发表在《新英格兰医学杂志》 的期刊 《NEJM AI》 上。许多科技公司都开发了用于治疗的人工智能工具,承诺人们可以比与训练有素的治疗师更频繁、更便宜地与机器人交谈,而且这种方法安全有效。
许多心理学家和精神病学家都认同这一观点,他们指出,只有不到一半 的精神障碍患者接受治疗,而接受治疗的人每周可能只有 45 分钟。研究人员试图开发技术,让更多人能够接受治疗,但他们受到两件事的阻碍。
第一,说错话的治疗机器人可能会造成真正的伤害。这就是为什么许多研究人员使用显式编程来构建机器人的原因:软件从有限的已批准响应库中提取数据(就像 20 世纪 60 年代开发的模拟心理治疗师计算机程序 Eliza 一样)。但这会使聊天变得不那么吸引人,人们会失去兴趣。第二个问题是,良好的治疗关系的标志——共同的目标和合作——很难在软件中复制。
2019 年,随着 OpenAI 的 GPT 等早期大型语言模型逐渐成型,达特茅斯的研究人员认为生成式人工智能可能有助于克服这些障碍。他们着手构建一个经过训练的人工智能模型,以提供基于证据的响应。他们首先尝试从互联网论坛中提取的一般心理健康对话来构建它。然后,他们转向了数千小时的心理治疗师真实会谈记录。
“我们听到了很多‘嗯嗯’、‘继续’,然后是‘你的问题源于你和你母亲的关系’,”达特茅斯生物医学数据科学和精神病学副教授、这项研究的资深作者尼克·雅各布森在接受采访时说。“这其实是对心理治疗的比喻,而不是我们真正想要的。”
他们不满意,于是开始根据循证实践组装自己的自定义数据集,最终将其纳入模型。相比之下,市场上的许多人工智能治疗机器人可能只是 Meta 的 Llama 等基础模型的细微变种,主要接受互联网对话训练。这带来了问题,尤其是对于饮食失调等主题。
雅各布森说:“如果你说你想减肥,它们会很乐意支持你,即使你一开始的体重通常很轻。” 人类治疗师不会这样做。
为了测试该机器人,研究人员对 210 名患有抑郁症或广泛性焦虑症症状或饮食失调风险较高的参与者进行了为期八周的临床试验。大约一半的人可以使用 Therabot,而对照组则没有。参与者响应人工智能的提示并发起对话,平均每天发送约 10 条消息。
抑郁症患者的症状减少了 51%,这是研究中最好的结果。焦虑症患者的症状减少了 31%,有饮食失调风险的患者对身体形象和体重的担忧减少了 19%。这些测量是基于通过调查进行的自我报告,这种方法并不完美,但仍然是研究人员拥有的最佳工具之一。