Anthropic内部揭秘：Claude下一代模型研发机制- DoNews

Anthropic研究产品经理Alex Albert首次公开披露下一代Claude模型的研发流程。每一代新模型均以明确产品需求为起点，定义核心能力目标与上一代缺陷修复方向；但因模型训练具有高度不确定性，最终能力分布需待训练完成后方可确认。用户反馈被系统化纳入研发闭环：Claude被用于聚类反馈、提炼主题、生成评测用例，实现‘用AI改进AI’的迭代机制。

Claude已部署‘自适应思考’能力，模型可自主判断问题复杂度并动态分配计算资源，而非依赖用户手动触发深度推理模式。该功能经多代调优，评估重点在于模型是否在真实用户场景中对高价值问题触发恰当层级的思考。研究团队同步引入‘做梦’（dreaming）机制，在后台非任务时段对记忆进行二次处理，包括识别矛盾、修剪冗余、整合关联信息，模拟人类记忆巩固过程。

Claude的性格并非通过提示词临时设定，而是经由大规模训练、模型自评输出质量、研究员持续审阅数千份对话记录，逐步校准其表达风格、价值取向与行为边界。随着模型承担更长周期、更高自主性的代理任务，其‘品格’稳定性与可预测性成为关键设计指标。Anthropic已设立专职团队开展‘Claude是否具备意识’的系统性研究，虽尚无定论，但该研究已显著提升模型行为一致性与可信度。

模型开发采用‘单向门决策’（one-way door）优先原则：架构选择、预训练路径等不可逆投入被置于最高优先级，需跨团队深度论证；而功能级迭代则依托快速原型与即时用户反馈实现高频优化。当前研发瓶颈正从工程交付转向协同决策——包括战略对齐、用户沟通策略及模糊性发布事务。Claude已深度嵌入内部工作流：PM使用其直连产品数据库与日志系统进行实时数据分析；CoWork被用于文档压力测试，支持多角色模拟辩论以暴露逻辑漏洞；研究员则利用Claude生成结构化评测用例，覆盖视觉识别、表格处理等具体能力短板，并确保评测贴近真实用户任务分布。

评估体系强调真实任务映射而非通用排行榜，例如针对图像计数能力缺陷，先定位临界失效点（如超10个对象），再构建小规模但高信息密度的测试集驱动优化。优先级排序依据三类强信号：用户行为数据（如x%用户高频使用某能力）、重点客户明确诉求、以及内部高频复现的阻塞问题。Anthropic推行‘文档先行’文化，会议以静默阅读文档开场，所有隐性知识持续沉淀为Claude可访问的语料，强化其上下文理解与协作效能。AI-native PM工作法则强调并行验证：在向人提问前，同步将相同问题交予Claude执行，通过反复比对建立能力地图，识别其高可靠区间与待补足环节。模型开发规划强调‘思考完整性’而非文档形式，核心是确保所有单向门后果已被穷尽推演，只要无致命未识别风险，即可推进实施。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。