最新研究表明,尽管人工智能(AI)在编码等任务中表现出色,但在应对高级历史考试时却显得力不从心。奥地利复杂科学研究所(CSH)团队主导的研究测试了三大顶尖大型语言模型(LLMs)——OpenAI的GPT-4、Meta的Llama和谷歌的Gemini,在历史问题上的表现。研究团队开发了名为“Hist-LLM”的基准测试工具,基于Seshat全球历史数据库评估答案的正确性。
结果显示,即使是表现最佳的GPT-4 Turbo模型,其准确率也仅为46%,几乎与随机猜测无异。伦敦大学学院计算机科学副教授Maria del Rio-Chanona指出,尽管LLMs令人印象深刻,但它们仍缺乏对高级历史知识的深度理解,尤其在处理复杂的历史研究时表现不佳。
例如,GPT-4 Turbo错误地认为古埃及某一特定时期存在鳞甲,而实际上这种技术是在1500年后才出现的。此外,LLMs在撒哈拉以南非洲等地区的表现更差,表明其训练数据可能存在偏见。尽管如此,研究人员对LLMs在未来辅助历史研究的前景仍持乐观态度,并致力于改进基准测试工具,纳入更多代表性不足地区的数据。
免责声明:本文内容由开放的智能模型自动生成,仅供参考,不构成任何专业建议或决策依据。用户应自行核实信息的准确性和可靠性,本站对用户因使用或依赖本文内容而产生的任何风险或损失不承担任何责任。如有疑问或发现内容有误,请联系本站进行处理。