字节跳动技术团队今日宣布开源 Godel-Rescheduler,这是一款针对云原生系统的全局最优重调度框架。该框架通过智能识别异常节点和任务,结合图算法生成迁移方案,显著提升集群资源利用率与稳定性。
Godel-Rescheduler 由 Policy Manager 和 Movement Manager 两大核心模块组成,分别负责决策生成与执行拆解,推动集群向全局最优状态演进。目前,该框架已应用于字节内部多个场景,包括合并部署、负载均衡及碎片整理等策略,成功将 GPU 集群碎片率降至 5% 以下,并控制热点节点比例在 0.1% 以内。