UniPat AI开源UniScientist：30B参数模型实现自主科研闭环- DoNews

UniPat AI开源UniScientist，一个参数量为30B的大型语言模型，旨在实现端到端自主科学研究能力。该模型被设计用于完成假设提出、证据收集、可复现推导、迭代验证及成果结构化输出的完整科研闭环，区别于仅能生成“看起来像”研究文本的多数大模型。

UniScientist在FrontierScience-Research榜单上取得28.3分，在成果聚合模式下达33.3分，超越Claude Opus 4.5（17.5）、Gemini 3 Pro（12.4）、GPT-5.2 xhigh completion mode（25.2）及工具调用模式下的DeepSeek V3.2与Seed 2.0 Pro（均为26.7）。在FrontierScience-Olympiad中启用工具时得分为71.0，与Claude Opus 4.5持平；在DeepResearch Bench、DeepResearch Bench II和ResearchRubrics等分布外基准上，表现与多个顶级闭源系统相当。

模型能力提升并非单纯依赖工具调用——无工具评测条件下性能仍显著提升，表明其内在研究推理能力经训练得到实质性增强。模型将检索、推导、验证与写作整合为连贯工作流，而非仅优化单一环节。

UniScientist的数据引擎基于人类专家与大模型的协同分工：模型大规模生成候选研究问题与解法草案，人类专家进行高精度验证与学科把关。该机制兼顾专业覆盖面与验证可靠性，已构建含超4,700个研究级实例的数据集，每个实例附带20余条评测Rubric项，覆盖50余个学科、400余个研究方向，专家平均标注耗时每条1–2小时。

科研过程被形式化为动态系统，核心是持续演化的“证据状态”，其中证据分为两类：Evidence-Grounded（来自外部权威或经明确验证的内部产出）与Formally-Derivable（通过符号推导、数值计算或仿真实验可复现获得）。系统循环执行三项操作：产生假说、获取外部或推导证据、基于当前证据状态进行溯因更新，直至证据充分稳定，再将全过程沉淀为结构化科学成果。

评测体系采用Evolving Polymathic Synthesis（进化式多学科合成），将开放式科研问题分解为原子化、客观、可证据落地或可形式化推导的Rubric检查项，强调一致性、区分度与原子性。每条Rubric仅校验一个知识点，确保评估聚焦于科学发现是否达成，而非文风或格式等表面质量。

模型引入成果聚合训练目标：给定同一问题的N份候选科研成果，学习融合各家优势，产出更完整稳健的最终成果。该能力通过Rubric阈值的拒绝采样筛选高质量参考答案，并与科研生成能力同步训练，使模型具备比较、取舍、整合与自我进化的群体智慧特征。

UniScientist集成代码解释器，支持将假设实例化为可执行计算实验，实现“测试-修正”循环，推动科研从叙事式推理升级为可复现仿真计算。当前能力集中于可复现推理与仿真范围，尚未扩展至对真实世界实验资源（如大规模GPU任务调度、湿实验流程协调）的受控编排与执行。

UniPat AI此前发布BabyVision多模态评测基准，已被多个近期重磅模型纳入评测体系。UniScientist为其新阶段技术路径，聚焦将全链条科研能力内化至模型架构与训练范式，使模型具备自主推进科学研究的能力。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。