MIT 研究揭示提问方式影响 AI 医疗判断可靠性

随着生成式人工智能(AI)技术不断发展,其应用已扩展至复杂任务,但对非专业用户而言,如何高效准确使用这些工具仍具挑战。

一份独立报告显示,微软 AI 部门收到的用户投诉中,最常见的是“Copilot 不如 ChatGPT 好用”。微软将问题归因于用户提示词工程能力不足,并推出“Copilot 学院”以提升用户体验。

麻省理工学院(MIT)的一项最新研究指出,过度依赖 AI 工具获取医疗建议可能带来风险。研究显示,提问时出现拼写错误、多余空格、花哨语言或俚语可能导致 AI 给出错误判断,例如建议用户无需就医。

女性用户相较男性更容易受到此类错误建议影响,尽管该结论尚待进一步验证。研究测试了 GPT-4、LLaMA-3-70B 及 Palmyra-Med 等多个 AI 工具,模拟了数千个健康案例,数据来源于真实患者投诉、Reddit 帖子及 AI 生成病例。

研究人员在数据中加入扰动因素,包括大小写不一致、感叹号、情绪化语言等不确定表达,结果导致 AI 建议用户“无需就医”的概率上升 7% 至 9%。

MIT 研究负责人阿比尼塔・古拉巴蒂娜表示,这些模型通常基于医学考试训练,但在实际临床评估中表现仍有差距,人类对其理解仍有限。

这一发现引发对 AI 在医疗领域应用的担忧。此前微软宣布其新 AI 医疗工具“准确率是医生 4 倍”,并称其为“迈向医疗超级智能的一步”。

然而,研究再次提醒,在高度复杂的医疗领域,生成式 AI 远未达到完全可靠水平,需更多验证与审慎评估方可投入使用。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1