月之暗面发布Kimi K2.6：支持300个Agent并行4000步，强化长周期编码与网页生成- DoNews

4月20日，月之暗面正式发布大模型Kimi K2.6，并同步开源。本次更新聚焦三大能力：长周期编程、网页设计生成及大规模Agent Swarm调度。官方强调，K2.6的演进方向已从单模型性能提升，转向构建具备任务接管、流程编排与多Agent协同能力的系统级架构，目标定位为Agent的操作系统（OS）。

K2.6在内部基准Kimi Code Bench上较K2.5显著提升，覆盖Rust、Go、Python等多语言，以及前端开发、DevOps与性能优化等场景。官方演示案例显示：其使用Zig语言在Mac平台持续优化Qwen3.5-0.8B本地推理，运行12小时、完成4000余次工具调用，推理吞吐量由15 tokens/s提升至193 tokens/s；另一案例为自主重构开源金融撮合引擎exchange-core，耗时13小时、执行1000余次工具调用，中值吞吐提升185%，峰值吞吐提升133%。两项测试均验证模型在冷门语言、接近性能极限的存量项目中维持长周期稳定执行的能力。据CodeBuddy内测数据，工具调用成功率达96.60%；factory.ai独立评估指出，K2.6整体较K2.5提升约15%。

Kimi Design Bench为内部建立的网页设计评估基准，涵盖视觉输入理解、落地页生成、全栈应用构建与创意编程四维度。K2.6在该基准中表现优于Google AI Studio。具体能力包括：依据单条prompt生成带动效的前端界面；调用图像与视频生成工具输出视觉素材；支持登录模块、数据库连接等基础全栈功能。该能力延续K2.5被评测为“中国首个在前端设计和视觉理解上与Gemini 2.5 Pro形成真实竞争的模型”的定位。

Agent Swarm规模由K2.5的100个子agent、1500步扩展至300个子agent、4000步并行执行，K2.6负责全局调度与任务失败后的自动重分配。官方演示包括100个子agent同步生成100份定制简历，以及为30家无官网零售店批量生成落地页。月之暗面内容团队已采用Claw Groups系统运行发布流程，其中Demo制作、基准测试、社媒发布等环节均由专属agent分工执行。Claw Groups设计不绑定Kimi自有模型，支持接入任意第三方agent，体现开放性架构特征。

在公开基准测试中，K2.6在agent搜索与工程编码方向表现突出：DeepSearchQA f1-score达92.5，领先GPT-5.4（78.6）13.9分；SWE-Bench Pro得分58.6，位居参测四家模型首位。但在工具调用类测试中存在差距：Toolathlon得分为50.0，低于GPT-5.4的54.6；MCPMark得分为55.9，低于GPT-5.4的62.5。Coding方向整体处于第一梯队，但未全面领先：Terminal-Bench 2.0落后于Gemini；SWE-Bench Verified三家模型得分接近。推理与数学能力为相对短板：HLE-Full（无工具）得34.7，较Gemini低近10分；AIME 2026与GPQA-Diamond得分均落后2—4分。视觉理解能力与Gemini基本持平，但整体落后于GPT-4.5。

实测方面，在4月14日K2.6 Preview上线后，测试者将其接入Claude Code环境开展社区官网项目开发，历时6天、分6个独立会话完成。K2.6在长周期可靠性上表现稳定：各次新会话均未额外交代项目背景，仍能延续首日确定的技术选型、设计规范与代码风格；在指令遵循方面，对简单指令“优化CMS UI”能主动回溯设计约束、拆解执行计划并推进，过程中极少追问；处理业务约束时亦具上下文意识，如迁移脚本自动保留原始URL并在README中标注潜在风险。

网页编程能力测试包含两项：其一为根据文字prompt为AI写作工具PW设计科技感落地页，要求含hero区块、功能介绍区与用户评价区，并实现滚动入场动画、视差效果与按钮hover动效。K2.6生成代码采用oklch色彩空间、clamp()响应式缩放、系统化设计token，动效实现包含鼠标+滚动双驱动视差、GSAP stagger错序入场、跟手光效等细节，但内容层图标与头像呈现模板化倾向；其二为基于lusion.co网站交互录屏视频生成网页，K2.6在仅观看17帧后初版效果有限，经第二轮对话补充帧信息后，基本还原网页结构与宇航员滑动特效，表明其视频理解能力依赖抽帧质量与harness设计完善度。

Agent集群能力在Kimi官网实测，任务为分析K2.6自身能力。流程分三阶段：首阶段由K2.6单模型完成任务解析与初步规划，识别模型为2025年发布（未联网导致误判）；第二阶段加载技能并拆解研究维度；第三阶段按维度派发子agent并行执行，如“陆研究员”负责推理能力、“陈研究员”负责长文本能力，各agent可独立调用技能、联网搜索并以plan模式推进；汇总阶段由Kimi进行交叉验证，修正前述发布时间错误；报告撰写阶段亦由多个撰写员agent并行完成。该流程将交叉验证内嵌于架构中，通过并行冗余与结果比对消化单agent幻觉，全程透明可追溯。

K2.6的发布未聚焦单一参数或榜单排名，而是将调度能力、协作机制、验证逻辑与端到端交付置于核心。其技术路径表明：未来高价值AI产品形态或将从“更强的单一大脑”，转向“一群Agent加一个指挥中枢”的系统级构造。该方向尚处验证阶段，但已实质性拓展大模型竞争的维度边界。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。