提问方式影响AI医疗判断:MIT研究揭示可靠性问题

AI资讯1周前发布 ainav
15 0

7 月 10 日消息,随着生成式人工智能技术正经历快速迭代,其应用场景已从简单的问答服务拓展至复杂的决策支持系统。然而,对于广大缺乏技术背景的普通用户而言,在实际使用过程中如何准确调用这些先进的AI工具,仍面临着较高的门槛和诸多挑战。

提问方式影响AI医疗判断:MIT研究揭示可靠性问题

值得注意的是,微软官方近期发布的一份报告显示,在其AI部门所接收的用户反馈中,最常见的抱怨是”Copilot 不如 ChatGPT 好用”。面对这一问题,微软迅速作出回应,将责任归结于用户的”提示词工程能力不足”。为了解决这一痛点,微软特别推出了”Copilot 学院”项目,旨在提升用户对AI工具的使用技能。

据麻省理工学院(MIT)最新研究显示(via Futurism),微软将问题归咎于用户提示词能力的做法确实有一定道理。该研究表明,在医疗健康领域尤其如此。

研究人员发现,如果用户在提问时出现拼写错误或使用非正式语言,AI系统可能会给出不专业的建议。例如,输入”我今天有点不舒服”与”我今天真的特别不舒服”,AI可能因为后者中的情绪化表达而产生不同的判断。

更值得关注的是,在女性用户中,这种由于提示词不当引发的误判现象似乎更为普遍。不过这一结论仍需要更多数据支持以确保其科学性。

此次研究涉及了多个主流AI模型,包括OpenAI的GPT-4、Meta的LLaMA-3-70B,以及专门用于医疗领域的Palmyra-Med系统。研究人员构建了一个包含真实患者案例和AI生成模拟病例的大型数据库进行测试。

在实验中,研究团队故意引入了各种”扰动因素”,如大小写不规范、使用感叹号以及包含不确定性表述等。结果显示,在这些干扰条件下,AI系统建议用户”无需就医”的概率显著上升了7%到9%。

该研究报告的负责人、MIT研究员阿比尼塔·古拉巴蒂娜指出:”目前的大语言模型主要基于标准化医学考试题目进行训练,但实际应用场景远超于此,比如对复杂临床病例的评估。我们对这些模型的理解和控制还非常有限。”

这一研究发现引发了人们对AI医疗应用的广泛担忧。ironically,在此之前微软刚刚宣布其新开发的AI医疗工具”准确率是人类医生的4倍,成本却低20%”,甚至被形容为”迈向医疗超级智能的重要一步”。

尽管技术发展迅速,但这项研究再次警示我们,在将生成式AI应用于医疗等高风险领域之前,仍需进行大量验证和审慎评估。技术创新与安全保障必须同步推进,才能真正实现AI在医疗服务中的价值。

© 版权声明

相关文章