OpenAI推出AI健康系统评估标准HealthBench,用于评测大模型的医疗表现。
HealthBench与262名来自60个国家的执业医生合作建立,包含5000个真实健康对话,每个对话配有医生制定的评分标准,总计48562个独特评分标准。
通过该体系,OpenAI对多款大模型进行了评测,包括O3、Gemini 2.5 Pro和Claude 3.7 Sonnet。结果显示,OpenAI自家的o3模型得分最高,排名第一,Grok 3和Gemini 2.5 Pro分别位列第二和第三。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。