UniPat AI开源UniScientist,一个参数量为30B的大型语言模型,旨在实现端到端自主科学研究能力。该模型被设计用于完成假设提出、证据收集、可复现推导、迭代验证及成果结构化输出的完整科研闭环,区别于仅能生成“看起来像”研究文本的多数大模型。
UniScientist在FrontierScience-Research榜单上取得28.3分,在成果聚合模式下达33.3分,超越Claude Opus 4.5(17.5)、Gemini 3 Pro(12.4)、GPT-5.2 xhigh completion mode(25.2)及工具调用模式下的DeepSeek V3.2与Seed 2.0 Pro(均为26.7)。在FrontierScience-Olympiad中启用工具时得分为71.0,与Claude Opus 4.5持平;在DeepResearch Bench、DeepResearch Bench II和ResearchRubrics等分布外基准上,表现与多个顶级闭源系统相当。
模型能力提升并非单纯依赖工具调用——无工具评测条件下性能仍显著提升,表明其内在研究推理能力经训练得到实质性增强。模型将检索、推导、验证与写作整合为连贯工作流,而非仅优化单一环节。
UniScientist的数据引擎基于人类专家与大模型的协同分工:模型大规模生成候选研究问题与解法草案,人类专家进行高精度验证与学科把关。该机制兼顾专业覆盖面与验证可靠性,已构建含超4,700个研究级实例的数据集,每个实例附带20余条评测Rubric项,覆盖50余个学科、400余个研究方向,专家平均标注耗时每条1–2小时。
科研过程被形式化为动态系统,核心是持续演化的“证据状态”,其中证据分为两类:Evidence-Grounded(来自外部权威或经明确验证的内部产出)与Formally-Derivable(通过符号推导、数值计算或仿真实验可复现获得)。系统循环执行三项操作:产生假说、获取外部或推导证据、基于当前证据状态进行溯因更新,直至证据充分稳定,再将全过程沉淀为结构化科学成果。
评测体系采用Evolving Polymathic Synthesis(进化式多学科合成),将开放式科研问题分解为原子化、客观、可证据落地或可形式化推导的Rubric检查项,强调一致性、区分度与原子性。每条Rubric仅校验一个知识点,确保评估聚焦于科学发现是否达成,而非文风或格式等表面质量。
模型引入成果聚合训练目标:给定同一问题的N份候选科研成果,学习融合各家优势,产出更完整稳健的最终成果。该能力通过Rubric阈值的拒绝采样筛选高质量参考答案,并与科研生成能力同步训练,使模型具备比较、取舍、整合与自我进化的群体智慧特征。
UniScientist集成代码解释器,支持将假设实例化为可执行计算实验,实现“测试-修正”循环,推动科研从叙事式推理升级为可复现仿真计算。当前能力集中于可复现推理与仿真范围,尚未扩展至对真实世界实验资源(如大规模GPU任务调度、湿实验流程协调)的受控编排与执行。
UniPat AI此前发布BabyVision多模态评测基准,已被多个近期重磅模型纳入评测体系。UniScientist为其新阶段技术路径,聚焦将全链条科研能力内化至模型架构与训练范式,使模型具备自主推进科学研究的能力。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



