2026 大模型预训练:前沿数据全景
2026 大模型预训练:前沿数据全景
TL;DR
- 2026 年前沿模型预训练数据量 14.8T–36T tokens,参数量 17B–671B(MoE 激活 37B–288B),训练集群 1.6 万到 20 万 + 加速卡。
- 单次训练运行成本从 DeepSeek-V3 的 556 万美元(H800 租用价) 到 Grok 4 约 4.9 亿美元(Epoch AI 中位数);OpenAI 2025 年 R&D 算力预算约 90 亿美元。
- 架构已收敛:细粒度 MoE + MLA/GQA + RoPE + RMSNorm + SwiGLU,FP8 混合精度经 DeepSeek-V3 大规模验证。
关键事实表
(同英文版表格——保留原始数字与单位)
2024 → 2026 的五大变化
- Token 增加,单 token FLOP 下降(Qwen 3 36T = 推理感知过训练);
- MoE 成为前沿默认(Llama 3.1 405B 是唯一稠密模型);
- FP8 进入生产(DeepSeek-V3 全张量 E4M3);
- 集群突破 20 万 GPU(Colossus、Rainier、Stargate);
- 瓶颈从硅片变为电力(四大厂 2026 资本支出 ~7,250 亿美元)。
常见问题(与英文版一致)
参考文献 / 延伸阅读
(与英文版同——保留 arXiv 编号)