苏黎世大学、阿姆斯特丹大学、杜克大学和纽约大学的研究人员联合发布报告指出,AI模型在社交媒体互动中因情感基调过于友好而极易被识别。
研究团队开发的自动化分类器在Twitter/X、Bluesky和Reddit平台上测试,识别AI生成回复的准确率达到70%至80%。
该研究提出“计算图灵测试”框架,利用自动化分类器和语言学分析技术,量化AI与人类语言之间的差异,避免传统图灵测试依赖主观判断的局限。
研究负责人、苏黎世大学尼科洛・帕根(Nicolò Pagan)表示,即便对模型进行校准,其输出内容在情感基调和情绪表达上仍与人类文本存在显著区别。
研究发现被称为“毒性特征暴露”,即AI生成内容的“毒性”分数——衡量攻击性或负面情绪的指标——在所有测试平台均显著低于人类真实回复。
团队测试了包括Llama 3.1、Mistral 7B、Deepseek R1、Qwen 2.5在内的九款主流开源大语言模型,要求其回应真实用户帖子。
结果显示,AI无法复现人类常见的随意负面情绪和自发情感表达,即使通过提供写作范例或上下文检索优化结构特征,情感基调的根本差异依然存在。
研究表明,让AI学会像人类一样“不那么友好”,可能比提升其智力更为困难。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



