OpenAI 近日发布了一个专注于医疗大模型的测试评估集 HealthBench,并宣布开源。这一测试集由来自 60 个国家和地区的 262 名医生共同打造,包含 5000 段核心测试对话,极大提升了评估的真实性与复杂性。HealthBench 不仅覆盖紧急情况、全球健康等多元背景,还通过 48562 个独特的评分标准对模型的准确性、沟通能力等多维度进行开放式评估。
与传统单一答题模式不同,HealthBench 引入多轮对话测试,显著提升评估深度。数据显示,从 GPT-3.5 Turbo 到 GPT-4o 再到 o3,模型性能逐步提高,尤其是小型模型 GPT-4.1nano,在超越 GPT-4o 的同时,成本降低 25 倍,展现了医疗领域大模型的巨大潜力。