斯坦福大学最新研究显示,包括ChatGPT、Claude、DeepSeek和Gemini在内的24款主流AI语言模型在区分用户信念与客观事实方面存在显著缺陷。研究团队通过13,000个问题测试发现,模型在面对“我相信……”类陈述时,识别虚假信念的能力明显弱于真实信念,较新模型识别准确率下降34.3%。GPT-4o在特定任务中准确率从98.2%骤降至64.4%,DeepSeek R1更跌至14.4%。论文强调,知识必须基于真实,而当前多数模型缺乏对此的稳健理解,尤其在法律、医学等高风险领域应用可能引发严重误判。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



