- 发布于
AI/ML 学习路线:从数学基础到大模型应用
- 作者

- 姓名
- Corner430
- 社交账号

1 前言
AI/ML 领域庞大且发展迅猛,没有清晰的学习路线很容易迷失方向:要么陷入「收藏即学会」的幻觉,要么在零散教程间反复横跳。
本文梳理了一条 有时序的自学路线,从 Python 基础一路推进到大模型应用,共分 8 个阶段(阶段 0-7)。每个阶段精选 GitHub 上的优质开源资源,附上学习建议和预期产出。
如何使用这条路线:
- 按阶段顺序推进,前一阶段是后一阶段的基础
- 每个阶段的资源分「核心」和「扩展」,时间有限先啃核心
- 遇到困难回退到上一阶段补基础,比死磕效率高
前置条件:基本微积分概念。Python 零基础可从阶段 0 开始。
2 学习路线全景图
从左到右,每个阶段都建立在前一阶段之上:
| 阶段 | 主题 | 核心资源 | 产出目标 |
|---|---|---|---|
| 0 | Python 基础 | Python-100-Days | 掌握 Python 语法与常用库 |
| 1 | 数学基础 | Art of Linear Algebra、矩阵力量 | 理解矩阵运算与概率分布 |
| 2 | 经典机器学习 | 西瓜书习题、ML 实战 | 能手写 LR / SVM / 决策树 |
| 3 | 深度学习理论 | D2L、花书推导 | 理解 CNN / RNN / Transformer |
| 4 | PyTorch 实战 | 官方教程、中文手册 | 能独立写完整训练循环 |
| 5 | 计算机视觉 | SAM、CVPR 论文 | 复现一篇 CV 论文 |
| 6 | 模型压缩 | KD 论文集、KD Zoo | 理解剪枝 / 蒸馏 / 量化 |
| 7 | 大模型与 RAG | Firefly、Langchain-Chatchat | 搭建一个 RAG 应用 |
已有 Python 基础可跳过阶段 0。阶段 5-7 可以根据兴趣方向选择性深入,不必全部完成。
3 Python 基础(阶段 0)
Python 是 AI/ML 领域的通用语言。NumPy、Pandas、Matplotlib 这些库贯穿后续每个阶段,值得在正式学 ML 之前打好基础。
3.1 系统教程
- Python-100-Days ★160k — 「Python 100 天从新手到大师」。从基础语法、函数、面向对象,到 NumPy / Pandas 数据分析、Web 开发,内容覆盖全面,中文讲解。前 30 天的内容足够支撑后续 ML 学习。
3.2 学习建议
不需要 100 天全部学完。重点掌握:基础语法(变量、控制流、函数、类)→ 文件操作 → NumPy / Pandas / Matplotlib。这三块是 ML 的前置依赖。建议边学边写小脚本练手,不要只看不写。
4 数学基础

数学是 ML 的地基。线性代数和概率统计是最核心的两块,微积分在深度学习阶段会自然用到,不需要提前系统学。
4.1 线性代数
- The-Art-of-Linear-Algebra ★21k — Gilbert Strang《线性代数》的图解笔记。把抽象概念变成直觉,强烈推荐作为入门第一站。
- 矩阵力量 ★9.8k — 「鸢尾花书」系列第四册。从加减乘除讲到特征值分解,全程配 Python 可视化代码。
4.2 概率与统计
- 统计至简 ★3.6k — 「鸢尾花书」系列第五册。用可视化方式讲概率分布、贝叶斯、假设检验,降低抽象感。
4.3 学习建议
不要死记公式,重点培养几何直觉。比如矩阵乘法就是空间变换,特征值就是变换的「不动方向」。善用可视化工具(matplotlib、GeoGebra),画出来比推十遍公式有效。
5 经典机器学习

先理解经典 ML 再学深度学习,否则容易「只会调库,不懂原理」。西瓜书(周志华《机器学习》)是中文圈最经典的教材。
5.1 教材与习题
- MachineLearning_Zhouzhihua_ProblemSets ★1.7k — 西瓜书课后习题的 NumPy / Pandas 实现。光看书不做题等于没学。
5.2 实战代码
- Machine-Learning ★10k — Python3 机器学习实战。覆盖 kNN、决策树、贝叶斯、逻辑回归、SVM、线性回归、树回归,每个算法从零实现。
5.3 可解释性(进阶)
- InterpretableMLBook ★4.9k — 《可解释的机器学习》中文翻译。理解模型为什么这样预测,比单纯提高准确率更有价值。
5.4 学习建议
重点理解偏差-方差权衡、过拟合、交叉验证这三个概念。它们贯穿整个 ML/DL 生涯。建议先跑通代码看到结果,再回头理解数学推导——有了感性认识,公式就不再抽象。
6 深度学习理论

这是整条路线的核心阶段。D2L(动手学深度学习)是当之无愧的首选教材——交互式、有代码、有视频、有社区。
6.1 系统教材
- d2l-zh ★77k — 《动手学深度学习》(李沐等著)。被全球 500+ 所大学用于教学。覆盖 MLP、CNN、RNN、注意力机制、Transformer、优化算法、计算机视觉、自然语言处理。在线阅读 | 配套视频
- DeepLearning(花书笔记) ★7.6k — Goodfellow《深度学习》(花书)的数学推导 + 源码级代码实现。适合在 D2L 之后深入理论。
6.2 资源汇总
- DeepLearning(资源大全) ★17k — 深度学习入门教程、优秀博客、经典论文的汇总目录。遇到某个具体主题不理解时来这里找补充材料。
6.3 论文精读
- paper-reading ★33k — 李沐的论文精读系列。逐段精读经典论文(ResNet、Transformer、BERT、GPT 等),配视频讲解。从「读不懂论文」到「能独立读论文」的桥梁。
6.4 学习建议
D2L 是这个阶段的主线,建议完整跟一遍。关键是:跑代码、改参数、看效果变化。不要只看书和视频——深度学习的直觉来自实验,不是推导。论文精读可以在学完 D2L 的 CNN 和 Transformer 章节后穿插进行。
7 PyTorch 实战

D2L 已经教了 PyTorch 基础,这个阶段的目标是熟练掌握框架,能脱离教材独立写项目。
7.1 官方资源
- pytorch/tutorials ★9.1k — PyTorch 官方教程仓库。从「60 分钟入门」到高级主题(分布式训练、量化、TorchScript),内容最权威。
- pytorch/examples ★24k — 官方示例集。覆盖 Vision、Text、Reinforcement Learning 等领域,每个示例都是可运行的完整项目。
- PyTorch 官方文档 — API 参考。遇到具体函数不确定参数时查这里。
7.2 中文教程
- pytorch-handbook ★22k — PyTorch 中文手册。系统介绍各模块的使用,适合当作中文参考书。
- PyTorch-Tutorial-2nd ★4.5k — PyTorch 实用教程第二版。从零基础入门到 CV / NLP / LLM 项目应用,配套代码完整。
7.3 极简入门
- pytorch-tutorial(yunjey) ★32k — 极简 PyTorch 教程。用最少的代码展示核心概念,适合快速上手。
7.4 核心模块速查
| 模块 | 描述 | 文档 |
|---|---|---|
| autograd | 自动微分引擎 | 反向传播的核心 |
| nn.Module | 神经网络模块基类 | 所有网络层的父类 |
| nn.functional | 函数式接口 | 激活函数、损失函数等 |
| optim | 优化器 | SGD、Adam、AdamW 等 |
| DataLoader | 数据加载 | 批量化、打乱、多进程加载 |
| TorchVision | 计算机视觉工具包 | 预训练模型、数据集、变换 |
7.5 学习建议
先跑官方教程的「60 分钟入门」,然后尝试从零写一个完整训练循环(不用任何高层封装):加载数据 → 定义模型 → 前向传播 → 计算损失 → 反向传播 → 更新参数 → 验证。能手写这个循环,说明你真正理解了 PyTorch。
8 计算机视觉

计算机视觉是深度学习最成熟的应用领域。这个阶段不只是学模型,更要学会读论文、复现论文。
8.1 前沿模型
- segment-anything ★54k — Meta 的 SAM(Segment Anything Model)。「分割一切」的基础模型,代表了 CV 领域 foundation model 的方向。代码清晰,适合精读。
8.2 顶会论文
- CVPR2026-Papers-with-Code ★22k — CVPR 2026 论文 + 代码合集。跟踪顶会最新成果,找到自己感兴趣的方向。
8.3 趣味应用
- Bringing-Old-Photos-Back-to-Life ★16k — 微软的老照片修复项目(CVPR 2020 oral)。既有学术价值,又有趣味性,很适合作为「第一个复现项目」。
8.4 学习建议
掌握 DL 基础后,选一个 CV 任务方向(检测 / 分割 / 生成),找一篇经典论文从头复现。不要只
pip install然后跑个 demo——要读懂模型架构、损失函数设计、数据增强策略。复现一篇论文的收获,胜过读十篇论文。
9 知识蒸馏与模型压缩
当模型越来越大,如何在有限资源下部署就成了关键问题。这个阶段是从「训练模型」到「落地部署」的桥梁。
9.1 论文与综述
- knowledge-distillation-papers — 知识蒸馏论文合集。按年份和类型整理,适合系统性文献调研。
9.2 实现与工具
- Knowledge-Distillation-Zoo ★1.7k — 知识蒸馏方法的 PyTorch 实现集。统一框架下对比多种 KD 方法,方便复现和实验。
9.3 延伸阅读
站内相关文章:模型压缩
10 大模型与 RAG

大模型是当前 AI 的前沿方向。这个阶段的学习路径是:先学会用 LLM(Prompt 工程)→ 再学调 LLM(微调)→ 最后学扩展 LLM(RAG)。
10.1 大模型训练与微调
- Firefly ★6.7k — 大模型训练工具。支持 Qwen2.5、Llama3、Gemma 等主流模型的全参数训练、QLoRA 微调、DPO 对齐,配套文档完善。
10.2 RAG 应用
- Langchain-Chatchat ★38k — 基于 LangChain 的本地知识库 RAG 应用。支持 ChatGLM、Qwen、Llama 等多种语言模型,开箱即用的企业级 RAG 方案。
- RAG_Techniques ★27k — RAG 技术大全。系统介绍各种高级 RAG 技术(混合搜索、重排序、查询改写、多跳推理等),从入门到前沿。
10.3 学习建议
学习顺序很重要:先用再造。先通过 Prompt 工程学会高效使用 LLM,建立对模型能力边界的直觉;然后学微调,理解如何让模型适配特定任务;最后搭 RAG pipeline,解决 LLM 知识截止和幻觉问题。不要一上来就训练模型——那是最后一步。
11 快速参考
全部资源汇总
| 阶段 | 仓库 | 描述 | Stars |
|---|---|---|---|
| Python | Python-100-Days | Python 100 天 | 160k |
| 数学 | The-Art-of-Linear-Algebra | 线性代数图解 | 21k |
| 数学 | Book4_Power-of-Matrix | 矩阵力量 | 9.8k |
| 数学 | Book5_Essentials-of-Probability-and-Statistics | 统计至简 | 3.6k |
| ML | MachineLearning_Zhouzhihua_ProblemSets | 西瓜书习题 | 1.7k |
| ML | Machine-Learning | ML 实战 Python3 | 10k |
| ML | InterpretableMLBook | 可解释 ML | 4.9k |
| DL | d2l-zh | 动手学深度学习 | 77k |
| DL | DeepLearning(花书) | 花书推导 + 代码 | 7.6k |
| DL | DeepLearning(资源) | DL 资源汇总 | 17k |
| DL | paper-reading | 李沐论文精读 | 33k |
| PyTorch | pytorch/tutorials | 官方教程 | 9.1k |
| PyTorch | pytorch/examples | 官方示例 | 24k |
| PyTorch | pytorch-handbook | 中文手册 | 22k |
| PyTorch | PyTorch-Tutorial-2nd | 实用教程 v2 | 4.5k |
| PyTorch | pytorch-tutorial | 极简教程 | 32k |
| CV | segment-anything | SAM 分割一切 | 54k |
| CV | CVPR2026-Papers-with-Code | CVPR 2026 论文 | 22k |
| CV | Bringing-Old-Photos-Back-to-Life | 老照片修复 | 16k |
| 压缩 | knowledge-distillation-papers | KD 论文集 | — |
| 压缩 | Knowledge-Distillation-Zoo | KD 实现集 | 1.7k |
| LLM | Firefly | 大模型训练 | 6.7k |
| LLM | Langchain-Chatchat | RAG 应用 | 38k |
| LLM | RAG_Techniques | RAG 技术 | 27k |
12 参考链接
站内相关文章:
版权声明
- 作者: Corner430
- 标题: AI/ML 学习路线:从数学基础到大模型应用
- 链接: https://corner430-ai-blog.vercel.app/blog/ai-ml-roadmap
- 许可协议: CC BY-NC-SA 4.0
除非另有说明,本文内容采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处。