百川发布新一代医疗增强大模型 M4：让 AI 像真人医生一样主动问诊- DoNews

DoNews6月22日消息，据百川智能公众号透露，近日，百川智能与清华大学研究团队联合发布新一代医疗增强大模型 Baichuan-M4——它在 HealthBench 及其 Hard、Professional 三个榜单上同时位列世界第一，全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro，幻觉率低至 3.3%。

从 M1 到 M4，百川始终在做同一件事：让模型跨过“会答题”与“会看病”之间那道最难的坎。

HealthBench 全球第一

在 OpenAI 提出的权威医疗评测 HealthBench 上，M4 综合得分 68.6，位列世界第一，领先第二名 GPT-5.5 超过 10 分；在最考验复杂临床决策的 Hard 子集上，领先达 15.9 分。

事实性幻觉率降至 3.3%，为全行业最低——同口径下，GPT-5.5 为 3.8%、Claude Opus 4.7 为 6.9%、DeepSeek-V4-Pro 高达 9.8%。这些分数指向的不是考试能力，而是四项贴着临床走的核心能力：问诊、记忆、循证、调度。

深度问诊：像临床医生一样主动追问

问诊是看病的第一步。一名好医生的功力，往往就体现在问诊上——他能用一连串恰到好处的追问，引导患者把零散、模糊、甚至自己都没在意的细节，一点点说成一条完整的病程。

这恰恰是通用模型的弱项：它们多依靠"你是一位经验丰富的医生"这类提示来激活角色扮演，问上几句就急于给出结论。而真实诊疗里，病人一句"胸口闷、偶尔心慌"的背后，可能是焦虑，也可能是心梗的前兆，全靠一层层追问才能分辨。

M4 会主动追问症状的性质与诱因，优先识别和排查危急重症，而不是被动等待用户提供完整信息，更不会为了尽快给出答案而跳过该问的关键病史。

一位用户深夜脚痛，打开产品后配合完成了十轮问询：哪个脚趾、疼了多久、有无外伤、近期是否饮酒、既往血尿酸是否偏高。M4 逐步缩小范围，怀疑为急性痛风，建议其前往医院风湿免疫科就诊，并将病史与症状整理成一张问诊卡。到院后，他将卡片出示给医生，经二次问询和检查，确诊为痛风。

百川借鉴医学教育中长期使用的 OSCE（客观结构化临床考试）方法，联合 150 多位一线医生，构建了动态问诊评测体系 SCAN-bench。它不考查静态记忆，而是以真实临床经验为评分标准，通过多轮、动态的方式完整模拟医生从接诊到确诊的全过程。在这套评测中，M4 初诊 79.0、复诊 74.7，均明显领先 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。

全病程记忆

真实的诊疗，很少在一次问诊里就结束。一次化验结果、一次用药后的反应、一个新冒出来的症状，都会随病情推进不断改写医生的判断——这意味着，谁能记住一个人完整的病史，谁才谈得上连续地看病。通用大模型虽然也讲"记忆"，但它记住的多是最近几轮对话的上下文，一旦跨越较长时间，早期的检查结果、用过的药、出现过的反应往往就被遗忘。它记得住一次对话，却记不住一个人完整的病程。

M4 这一代推出的「全病程记忆」，正是针对这一点。它打通历史病历、多轮问诊、化验趋势与用药反馈，让模型在多次对话中始终掌握患者是谁、既往有过哪些疾病、各项指标如何变化，而不必每次从零开始。在长上下文临床记忆评测中，M4 取得 86.9 分，为同类最高，较上一代 M3 提升 21.1 分。而记得住只是基础——当模型真正掌握了一个人的完整病史与身体状况，它给出的判断便不再是套用一份通用答案，而是因人而异、贴合其自身情况，这正是精准医疗的前提。

一位用户与父母分居两地，在一次家庭对话中，老人随口提到"最近走一圈就喘"。M4 结合老人的长期健康记录与既往病史，判断其可能存在早期心功能不全的风险，建议及时就医，后续的医院检查证实了这一判断。

证据锚定

在循证医学体系里，医生信任一条结论，靠的从来不是它说得像不像医生，而是结论背后的证据是否权威、是否准确、是否可追溯。比起语言是否流畅，临床真正在意的是：这一句，到底出自哪篇论文、哪条指南、哪一段原文。

如今无论通用大模型还是医疗模型，大多已经会在结论后附上文献来源。但医生在实际使用中常常发现，点开引文，仍然判断不了这句结论究竟来自哪段证据。问题通常是两类：一类是引用编号在、文献却对不上；另一类是文献本身没错，但被引用的那一段，跟结论根本不是一回事。

针对这一点，百川首创的"证据锚定"要求模型生成的每一句医学结论，都精确对应到原始论文或指南中的具体段落，而不只是标注引自哪篇文献。依托六源循证范式，模型只在权威医学来源中检索，不从开放网络抓取资料。M4 在此之上，把权威指南、专家共识与真实诊疗流程，进一步拆解为标准化、可复用的临床路径单元，目前已超过 1000 个、覆盖 200 余种疾病，每一条都由资深临床专家定义和校验。

在百川构建的循证医学评测 Baichuan-EBM 上，M4 的循证引用精度达到 90.0，GPT-5.5 为 54.7，OpenEvidence 为 55.9。

Agent 架构

问诊、记忆、循证彼此割裂，单项再强，也拼不成一个能用的医疗系统。常见的做法是把多个能力按固定顺序人工调用，但患者并不会判断自己此刻该问诊、查指南还是复盘病史，衔接一旦错位，整套就卡在那里。这一步的编排，必须由模型自己完成。

承担这层编排的，是百川面向医疗场景构建的 Baichuan-Harness。如果说 M 系列模型是医疗 Agent 的大脑，它就是调度这个大脑的中枢神经：何时追问、何时检索证据、何时调出既往病史，均由模型自主决定，无需人工逐步指令。面对文献检索、长病史梳理这类繁重任务，它会拆分成子任务并行处理，让模型专注于整体诊疗路径的判断；而每一步动作，都在实时的安全约束下完成——违规的工具调用、越权的数据访问、不合临床规范的操作，都会被当场拦下。

更重要的是，这套系统不是一次成型，而是在真实诊疗中持续迭代：线上的疑难案例、用户的追问、医生的纠偏，经脱敏与归因后回流，成为模型继续改进的依据。问诊、记忆、循证由此被编排成一个完整的整体，M4 也从一个最强的医疗大脑，成为能独立完成连续诊疗的医疗智能体。

Baichuan-Harness 医疗智能体架构图

从OpenAI的ChatGPT Health到Anthropic的Claude for Healthcare，全球顶尖大模型公司都已把目光投向医疗，这场竞速已进入深水区。而在最挑战模型能力的严肃医疗场景里，百川用 M4 给出了目前最好的答卷——三项 HealthBench 第一、最低的幻觉率、断层领先的循证精度和持续多轮的问诊能力。从 M1 到 M4，百川始终只做一件事：让 AI 真正能看病。

这件事最难，但也最值得，它正在把原本只能满足少数人的优质诊疗资源，带到每一个普通人身边。