研究揭示大模型多轮对话可靠性骤降

2026年2月20日,微软研究院与Salesforce联合研究证实,当前顶尖大语言模型在多轮对话中可靠性显著下降。研究涵盖GPT-4.1、Gemini 2.5 Pro等15款模型,分析超20万次模拟对话。结果显示:单轮任务成功率约90%,拆分为多轮后降至约65%;核心能力仅降15%,但不可靠性飙升112%。主因包括‘过早生成’错误假设及‘答案膨胀’引入幻觉。现有单轮基准测试无法反映真实交互场景,开发者宜优先采用完整单提示策略以提升稳定性。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1