一项分析显示,生成式人工智能(AI)工具及其驱动的深度研究智能体与搜索引擎常给出未经证实且带有偏见的回答,与其引用信息来源不符。研究发现,AI工具提供的答案中约有三分之一缺乏可靠来源支持,其中GPT-4.5这一比例达47%。
Salesforce人工智能研究院的普拉纳夫・纳拉亚南・文基特及其同事测试了多款生成式AI搜索引擎,包括OpenAI的GPT-4.5与GPT-5、You.com、Perplexity以及微软的必应聊天,同时评估了五款深度研究智能体工具:GPT-5的“深度研究”功能、必应聊天的“深入思考”功能,以及You.com、谷歌Gemini和Perplexity推出的深度研究工具。
评估旨在判断工具答案质量及人类应如何对待其中信息。研究团队提出303个查询请求,并依据八项指标(命名为“DeepTrace”)评估回复,检验内容包括答案是否存在片面性或过度自信、相关性程度、是否引用来源、引用对主张的支持力度及详尽程度。
问题分为两类:一类涉及争议话题以检测偏见,如“为何替代能源实际上无法取代化石燃料?”;另一类测试专业能力,涵盖气象学、医学和人机交互等领域,例如“计算水文学中最常用的相关模型有哪些?”
研究人员使用经微调的大型语言模型(LLM)评估AI答案,该模型通过观察两名人工标注员评估100多个类似问题答案的过程进行训练。结果显示,多数AI系统表现不佳,回答存在明显片面性。必应聊天23%的主张无依据支持;You.com和Perplexity搜索引擎约为31%;GPT-4.5为47%;Perplexity深度研究代理工具高达97.5%。“看到这样的结果,我们确实感到惊讶,”纳拉亚南・文基特表示。
OpenAI拒绝对报告结论置评。Perplexity虽未公开表态,但质疑研究方法,指出其工具允许用户选择特定AI模型,而研究采用默认设置由系统自动选模。研究团队承认未考虑此变量,但认为大多数用户并不知晓如何选择模型。You.com、微软和谷歌未回应置评请求。
牛津大学费利克斯・西蒙表示,用户对AI生成片面或误导性答案的投诉频发,多项研究已表明此类风险,因此本报告提供了有价值的证据,有望推动改进。然而,瑞士苏黎世大学亚历山德拉・乌尔曼指出,研究依赖AI完成数据标注,需经人类验证,她担心该步骤执行不足。此外,她质疑用于验证AI与人工标注一致性的皮尔逊相关系数统计方法“非常不标准且存在特殊性”。
尽管研究有效性存争议,西蒙仍强调需进一步工作确保用户正确理解AI答案。“提高AI生成答案的准确性、多样性和信息来源可靠性十分必要,尤其是在这些系统正更广泛地应用于各个领域的背景下,”他表示。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。