🤖 Stanford CS336: Language Modeling from Scratch

斯坦福大学 2026 年春季课程,由 Percy LiangTatsunori Hashimoto 主讲。从零开始构建语言模型:分词器、Transformer 架构、GPU 优化、分布式训练、 缩放定律、推理、数据处理、对齐(RLHF/DPO)和多模态。

📅 2026 春季 (Mar 30 – Jun 3) 🎓 斯坦福 NLP / CRFM 📝 19 讲 + 5 次作业 🎥 YouTube 播放列表 🌐 官网 💻 GitHub

🇨🇳 B站视频资源(中文字幕 · 已翻译)

以下 B站视频均已翻译/带中文字幕,方便国内学习。点击直达 B站观看。

🔥 2026 极致中配
中文配音版 · Claude Opus 4.8 翻译
BV11LEA6eEuj ▸ 20.5k播放 · UP: 常青藤名校课
⭐ 2026 中英合集
百万播放 · 中英字幕完整版
BV1FiUYBUE26 ▸ 101.4万播放 · UP: 大模型入门教程
📝 2026 精翻分集
逐讲精翻 · 中英双语字幕
楽園クマ 系列 ▸ L1-L4 已发布 · UP: 楽園クマ
🎙️ 2025 中文配音
中文配音+英文原声双版本
BV1APuUz7Erx ▸ 32.2k播放 · UP: 万物深译

📊 课程总览

19
讲座
5
编程作业
100+
推荐论文
2,136⭐
作业1 GitHub
3,311⭐
讲义 GitHub
0%
学习进度
0 / 0 项已完成

🎥 课程讲座 0/19

  • L1 — 课程概述 & Tokenization Slides ▸ YouTube ▸ B站中字 ▸ executable video
    3/30 · Percy
  • L2 — PyTorch (einops), 资源计算 (FLOPs/显存/运算强度) Slides ▸ YouTube ▸ B站中字 ▸ executable video
    4/1 · Percy
  • L3 — 架构与超参数 (Architectures, Hyperparameters) PDF ▸ YouTube ▸ B站中字 ▸ pdf video
    4/6 · Tatsu
  • L4 — Attention 替代方案 & Mixture of Experts (MoE) PDF ▸ B站中字 ▸ pdf video
    4/8 · Tatsu
  • L5 — GPU 与 TPU PDF ▸ pdf video
    4/13 · Tatsu
  • L6 — Kernels & Triton Slides ▸ B站中字 ▸ executable video
    4/15 · Percy
  • L7 — 并行化 I (Parallelism) Slides ▸ executable video
    4/20 · Percy
  • L8 — 并行化 II (Parallelism) PDF ▸ pdf video
    4/22 · Tatsu
  • L9 — 缩放定律 I (Scaling Laws) PDF ▸ pdf video
    4/27 · Tatsu
  • L10 — 推理部署 (Inference) Slides ▸ executable video
    4/29 · Percy
  • L11 — 缩放定律 II (Scaling Laws) PDF ▸ pdf video
    5/4 · Tatsu
  • L12 — 评估 (Evaluation) Slides ▸ B站中字 ▸ executable video
    5/6 · Percy
  • L13 — 数据:来源与数据集 Slides ▸ executable video
    5/11 · Percy
  • L14 — 数据:过滤、去重、混合、合成 Slides ▸ B站中字 ▸ executable video
    5/13 · Percy
  • L15 — 对齐:SFT/RLHF PDF ▸ pdf video
    5/18 · Tatsu
  • L16 — 对齐:RLVR PDF ▸ pdf video
    5/20 · Tatsu
  • L17 — 对齐 & 多模态 (Alignment – Multimodality) Slides ▸ executable video
    5/27 · Percy
  • L18 — 特邀讲座: Daniel Selsam video
    6/1 · Guest
  • L19 — 特邀讲座: Dan Fu YouTube ▸ B站中字 ▸ video
    6/3 · Guest

💻 编程作业 0/5

  • 作业 1: 基础实现 — 实现分词器、Transformer 架构、优化器,训练一个小型 LM GitHub ▸ 2,136 ⭐
    核心作业
  • 作业 2: 系统工程 — 性能分析/基准测试,Triton 实现 FlashAttention2,分布式训练 GitHub ▸ 256 ⭐
    系统优化
  • 作业 3: 缩放定律 — 分析 Transformer 各组件,拟合缩放定律 GitHub ▸ 75 ⭐
    理论分析
  • 作业 4: 数据处理 — 处理 CommonCrawl 数据,过滤、去重 GitHub ▸ 61 ⭐
    数据工程
  • 作业 5: 对齐 — SFT + RL 训练数学推理,可选安全 DPO GitHub ▸ 164 ⭐
    对齐训练

📄 基础论文 0/7

  • Shannon 1950 — Prediction and Entropy of Printed English PDF ▸ classic
    信息论奠基
  • Hochreiter & Schmidhuber 1997 — Long Short-Term Memory PDF ▸ classic
    LSTM
  • Bengio et al. 2003 — A Neural Probabilistic Language Model PDF ▸ classic
    神经语言模型
  • Vaswani et al. 2017 — Attention Is All You Need PDF ▸ must-read
    Transformer
  • Kingma & Ba 2014 — Adam: A Method for Stochastic Optimization PDF ▸ optimizer
    优化器
  • Loshchilov & Hutter 2017 — Decoupled Weight Decay (AdamW) PDF ▸ optimizer
    AdamW
  • Ba et al. 2016 — Layer Normalization PDF ▸ technique
    LayerNorm

📄 Transformer 架构改进 0/5

  • Shazeer et al. 2017 — Outrageously Large Neural Networks (MoE) PDF ▸ MoE
    Mixture of Experts
  • Su et al. 2021 — RoFormer: Rotary Position Embeddings (RoPE) PDF ▸ position
    RoPE
  • Ainslie et al. 2023 — GQA: Grouped-Query Attention PDF ▸ attention
    GQA
  • Dao et al. 2022 — FlashAttention: Fast and Memory-Efficient Exact Attention PDF ▸ efficient
    FlashAttention
  • Narayanan et al. 2021 — Megatron-LM: 3D Parallelism PDF ▸ parallelism
    分布式训练

📄 缩放定律 0/4

  • Kaplan et al. 2020 — Scaling Laws for Neural Language Models (OpenAI) PDF ▸ must-read
    原始缩放定律
  • Hoffmann et al. 2022 — Training Compute-Optimal LLMs (Chinchilla) PDF ▸ must-read
    Chinchilla 定律
  • Gadre et al. 2024 — Overtrained Scaling Laws PDF ▸ recent
    过度训练
  • Rajbhandari et al. 2019 — ZeRO: Memory Optimizations PDF ▸ systems
    显存优化

📄 里程碑语言模型 0/11

  • GPT-2 (2019, OpenAI) — Language Models are Unsupervised Multitask Learners PDF ▸
    1.5B
  • GPT-3 (2020, OpenAI) — Language Models are Few-Shot Learners PDF ▸
    175B
  • Gopher (2021, DeepMind) — Scaling Language Models PDF ▸
    280B
  • PaLM (2022, Google) — Scaling Language Modeling with Pathways PDF ▸
    540B
  • LLaMA (2023, Meta) — Open and Efficient Foundation Language Models PDF ▸
    7–65B
  • LLaMA 2 (2023, Meta) — Open Foundation and Fine-Tuned Chat Models PDF ▸
    7–70B
  • Mistral 7B (2023, Mistral AI) PDF ▸
    7B
  • LLaMA 3 (2024, Meta) — The Llama 3 Herd of Models PDF ▸
    8–405B
  • DeepSeek-V3 (2024) — Technical Report PDF ▸
    671B MoE
  • DeepSeek-R1 (2025) — Incentivizing Reasoning Capability PDF ▸
    推理模型
  • DeepSeek-V4 (2026) — Million-Token Context Intelligence PDF ▸
    百万 token

📄 对齐 & 后训练 0/4

  • Ouyang et al. 2022 — InstructGPT (RLHF) PDF ▸ must-read
    RLHF 奠基
  • Rafailov et al. 2023 — Direct Preference Optimization PDF ▸ must-read
    DPO
  • DeepSeek-Math 2024 — GRPO: Group Relative Policy Optimization PDF ▸
    GRPO
  • 了解 RLHF vs DPO vs GRPO 的区别和适用场景
    对比学习

🌍 社区资源 0/10

  • Andy Timm: CS336 Review — 详细的自学体验与建议 阅读 ▸ blog
    自学经验
  • Pinlin Xu: CS336 Review — 计算机毕业生视角的课程回顾 阅读 ▸ blog
    课程评价
  • Tuan Anh Bui: CS336 Series — 多篇系列博客深入讲解 CS336 概念 阅读 ▸ series
    深度讲解
  • Junyuan He: AI 学习地图 — 包含 CS336 的 AI 学习路线图 阅读 ▸ roadmap
    学习路线
  • "The Best Course to Catch Up on LLMs" — 推荐 CS336 为最佳入门课程 阅读 ▸ 推荐
    课程推荐
  • learn-cs336 — CS336 面试导向中文学习指南 GitHub ▸ 87 ⭐
    中文笔记
  • Spectual: CS336 Assignment 1 实现 GitHub ▸ 77 ⭐
    参考实现
  • wind-wing234: Assignment 1 实现 GitHub ▸ 45 ⭐
    参考实现
  • Korean Study Notes — CS336 Spring 2025 韩文学习笔记 GitHub ▸ 4 ⭐
    韩文资料
  • Yangliu20: Building Transformer LMs — 从零构建 Transformer LM GitHub ▸ 7 ⭐
    实践项目

🖥️ GPU 计算资源 0/5

  • Modal — $6.25/hr B200, $30/月免费额度 访问 ▸ 推荐
    有免费额度
  • Lambda Labs — $6.69/hr 访问 ▸ gpu
    按需付费
  • RunPod — $4.99/hr 访问 ▸ gpu
    性价比高
  • Nebius — $5.50/hr ($3.05/hr 抢占式) 访问 ▸ gpu
    支持抢占式
  • Together AI — $7.49/hr 访问 ▸ gpu
    推理优化

📚 补充学习 0/6

  • 浏览官方课程网站 — 完整的教学大纲、物流信息 访问 ▸
    官网
  • Stanford Online 课程页面 访问 ▸
    在线课程页
  • YouTube 完整播放列表 (19讲) 播放全部 ▸
    Stanford Online
  • 完整参考文献列表 — 100+ 篇论文 查看 ▸
    references.py
  • 2025 春季课程 (上一版) 访问 ▸ archived
    往年资料
  • 2024 春季课程 访问 ▸ archived
    往年资料
← 返回学习导航首页