Forwarded from CoiTi
我又幻想了...女朋友给我搭建了全异步超大规模训练集群...数据管道用万亿token的语义分片策略+自回归重排+无损压缩预处理...并行框架集成了FSDP/DeepSpeed-ZeRO3/PTD三维并行,每个pod都有NVLink全互联拓扑...计算卡全是H100 96g版本,梯度同步走RoCEv2无损网络,全局AllReduce延迟小于心跳间隔...优化器用了混合精度AdamW+二阶矩分桶压缩,每step吞吐稳定在1.4 exaFLOPs...checkpoint系统是因果一致性快照,支持万亿参数秒级回滚...日志系统实时可视化MoE门控热力图,还能用强化学习自动调参专家路由...
🤣14👍4😴2
TSBattery CI Builds
Photo
话说回来,Ave Mujica 可能已经没有人类了,但是 B 站的评论区也并非人类。