4月20日,月之暗面正式发布大模型Kimi K2.6,并同步开源。本次更新聚焦三大能力:长周期编程、网页设计生成及大规模Agent Swarm调度。官方强调,K2.6的演进方向已从单模型性能提升,转向构建具备任务接管、流程编排与多Agent协同能力的系统级架构,目标定位为Agent的操作系统(OS)。
K2.6在内部基准Kimi Code Bench上较K2.5显著提升,覆盖Rust、Go、Python等多语言,以及前端开发、DevOps与性能优化等场景。官方演示案例显示:其使用Zig语言在Mac平台持续优化Qwen3.5-0.8B本地推理,运行12小时、完成4000余次工具调用,推理吞吐量由15 tokens/s提升至193 tokens/s;另一案例为自主重构开源金融撮合引擎exchange-core,耗时13小时、执行1000余次工具调用,中值吞吐提升185%,峰值吞吐提升133%。两项测试均验证模型在冷门语言、接近性能极限的存量项目中维持长周期稳定执行的能力。据CodeBuddy内测数据,工具调用成功率达96.60%;factory.ai独立评估指出,K2.6整体较K2.5提升约15%。
Kimi Design Bench为内部建立的网页设计评估基准,涵盖视觉输入理解、落地页生成、全栈应用构建与创意编程四维度。K2.6在该基准中表现优于Google AI Studio。具体能力包括:依据单条prompt生成带动效的前端界面;调用图像与视频生成工具输出视觉素材;支持登录模块、数据库连接等基础全栈功能。该能力延续K2.5被评测为“中国首个在前端设计和视觉理解上与Gemini 2.5 Pro形成真实竞争的模型”的定位。
Agent Swarm规模由K2.5的100个子agent、1500步扩展至300个子agent、4000步并行执行,K2.6负责全局调度与任务失败后的自动重分配。官方演示包括100个子agent同步生成100份定制简历,以及为30家无官网零售店批量生成落地页。月之暗面内容团队已采用Claw Groups系统运行发布流程,其中Demo制作、基准测试、社媒发布等环节均由专属agent分工执行。Claw Groups设计不绑定Kimi自有模型,支持接入任意第三方agent,体现开放性架构特征。
在公开基准测试中,K2.6在agent搜索与工程编码方向表现突出:DeepSearchQA f1-score达92.5,领先GPT-5.4(78.6)13.9分;SWE-Bench Pro得分58.6,位居参测四家模型首位。但在工具调用类测试中存在差距:Toolathlon得分为50.0,低于GPT-5.4的54.6;MCPMark得分为55.9,低于GPT-5.4的62.5。Coding方向整体处于第一梯队,但未全面领先:Terminal-Bench 2.0落后于Gemini;SWE-Bench Verified三家模型得分接近。推理与数学能力为相对短板:HLE-Full(无工具)得34.7,较Gemini低近10分;AIME 2026与GPQA-Diamond得分均落后2—4分。视觉理解能力与Gemini基本持平,但整体落后于GPT-4.5。
实测方面,在4月14日K2.6 Preview上线后,测试者将其接入Claude Code环境开展社区官网项目开发,历时6天、分6个独立会话完成。K2.6在长周期可靠性上表现稳定:各次新会话均未额外交代项目背景,仍能延续首日确定的技术选型、设计规范与代码风格;在指令遵循方面,对简单指令“优化CMS UI”能主动回溯设计约束、拆解执行计划并推进,过程中极少追问;处理业务约束时亦具上下文意识,如迁移脚本自动保留原始URL并在README中标注潜在风险。
网页编程能力测试包含两项:其一为根据文字prompt为AI写作工具PW设计科技感落地页,要求含hero区块、功能介绍区与用户评价区,并实现滚动入场动画、视差效果与按钮hover动效。K2.6生成代码采用oklch色彩空间、clamp()响应式缩放、系统化设计token,动效实现包含鼠标+滚动双驱动视差、GSAP stagger错序入场、跟手光效等细节,但内容层图标与头像呈现模板化倾向;其二为基于lusion.co网站交互录屏视频生成网页,K2.6在仅观看17帧后初版效果有限,经第二轮对话补充帧信息后,基本还原网页结构与宇航员滑动特效,表明其视频理解能力依赖抽帧质量与harness设计完善度。
Agent集群能力在Kimi官网实测,任务为分析K2.6自身能力。流程分三阶段:首阶段由K2.6单模型完成任务解析与初步规划,识别模型为2025年发布(未联网导致误判);第二阶段加载技能并拆解研究维度;第三阶段按维度派发子agent并行执行,如“陆研究员”负责推理能力、“陈研究员”负责长文本能力,各agent可独立调用技能、联网搜索并以plan模式推进;汇总阶段由Kimi进行交叉验证,修正前述发布时间错误;报告撰写阶段亦由多个撰写员agent并行完成。该流程将交叉验证内嵌于架构中,通过并行冗余与结果比对消化单agent幻觉,全程透明可追溯。
K2.6的发布未聚焦单一参数或榜单排名,而是将调度能力、协作机制、验证逻辑与端到端交付置于核心。其技术路径表明:未来高价值AI产品形态或将从“更强的单一大脑”,转向“一群Agent加一个指挥中枢”的系统级构造。该方向尚处验证阶段,但已实质性拓展大模型竞争的维度边界。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



