2026 大模型预训练:前沿数据全景

2026 大模型预训练:前沿数据全景

· 263 words · 2 minutes reading time

2026 大模型预训练:前沿数据全景

TL;DR

  • 2026 年前沿模型预训练数据量 14.8T–36T tokens,参数量 17B–671B(MoE 激活 37B–288B),训练集群 1.6 万到 20 万 + 加速卡
  • 单次训练运行成本从 DeepSeek-V3 的 556 万美元(H800 租用价)Grok 4 约 4.9 亿美元(Epoch AI 中位数);OpenAI 2025 年 R&D 算力预算约 90 亿美元
  • 架构已收敛:细粒度 MoE + MLA/GQA + RoPE + RMSNorm + SwiGLUFP8 混合精度经 DeepSeek-V3 大规模验证。

关键事实表

(同英文版表格——保留原始数字与单位)

2024 → 2026 的五大变化

  1. Token 增加,单 token FLOP 下降(Qwen 3 36T = 推理感知过训练);
  2. MoE 成为前沿默认(Llama 3.1 405B 是唯一稠密模型);
  3. FP8 进入生产(DeepSeek-V3 全张量 E4M3);
  4. 集群突破 20 万 GPU(Colossus、Rainier、Stargate);
  5. 瓶颈从硅片变为电力(四大厂 2026 资本支出 ~7,250 亿美元)。

常见问题(与英文版一致)

参考文献 / 延伸阅读

(与英文版同——保留 arXiv 编号)

Series

LLM Pre-Training 2026

2026 大模型预训练:前沿数据全景