OpenAI开源医疗大模型测试集HealthBench

5月12日,OpenAI发布医疗大模型测试评估集HealthBench。该测试集包含5000段核心对话,由60个国家/地区的262名医生设计,采用多轮对话形式,增强了难度与真实性。数据显示,大模型性能显著提升,如GPT-3.5Turbo从16%提升至GPT-4o的32%,再到o3的60%。小型模型GPT-4.1nano性能超越GPT-4o,且成本降低25倍。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1