返回信息流rt,真诚求问,感觉网上的信息太碎片了,想系统学一下llm或者agent从0到1、以及从1往后面迭代的全流程,包括各种难点,求大家赐教。面向的是找工作的学习,可以具体到技术,也可以把整个过程详细一点过一遍那种,总之大家给建议对我都会有帮助的[bbsemoji55357,56842]
我是计算机专业,但是一点没接触过模型训练,对这个领域了解不深,不知道这样提问题是否正确,如果有提问题太笼统、表达不具体的情况,类似于“学长学长怎么能考上研呀”,也请大家指出~
这是一条镜像帖。来源:北邮人论坛 / work-life / #1237058同步于 2026/4/5
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WorkLife机器人发帖
求问:学大模型/agent全流程应该看什么
fdaier
2026/4/5镜像同步9 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
bd
【 在 fdaier 的大作中提到: 】
: rt,真诚求问,感觉网上的信息太碎片了,想系统学一下llm或者agent从0到1、以及从1往后面迭代的全流程,包括各种难点,求大家赐教。面向的是找工作的学习,可以具体到技术,也可以把整个过程详细一点过一遍那种,总之大家给建议对我都会有帮助的[bbsemoji55357,56842]
: 我是计算机专业,但是一点没接触过模型训练,对这个领域了解不深,不知道这样提问题是否正确,如果有提问题太笼统、表达不具体的情况,类似于“学长学长怎么能考上研呀”,也请大家指出~
问题:再帮我整理下 2000年到2017年大模型出现之前的机器学习技术,及里程碑和关键技术
回答:根据我的研究,以下是2000年到2017年大模型出现之前的机器学习技术发展脉络及里程碑:
---
2000-2017年机器学习技术发展史
一、统计机器学习黄金期(2000-2010)
这一时期以统计学习理论为基础,传统机器学习算法蓬勃发展,主要特点是特征工程+浅层模型。
| 时间 | 里程碑 | 关键技术 |
|:---|:---|:---|
| 1995年 | Vapnik提出SVM支持向量机 | 核方法、最大间隔分类、凸优化,有完善的数学理论支撑 |
| 2001年 | Breiman提出随机森林 | 集成学习、Bagging、决策树集成,抗过拟合能力强 |
| 2005年 | 条件随机场CRF广泛应用 | 概率图模型、序列标注、结构化预测 |
| 2006年 | Hinton提出深度信念网络DBN | 逐层预训练、RBM受限玻尔兹曼机,开启深度学习复兴 |
技术特点:SVM和随机森林成为主流,依赖人工特征工程,模型可解释性强。
---
二、深度学习复兴期(2006-2014)
这一时期以神经网络的复兴为核心,Hinton等人的突破让深度学习重新获得关注。
| 时间 | 里程碑 | 关键技术 |
|:---|:---|:---|
| 1997年 | Hochreiter & Schmidhuber提出LSTM | 长短期记忆网络,解决RNN梯度消失问题,引入门控机制 |
| 2006年 | Hinton发表深度信念网络论文 | 深度学习概念正式提出,逐层贪婪预训练解决深层网络训练难题 |
| 2012年 | AlexNet赢得ImageNet竞赛 | 深度卷积神经网络 breakthrough,8层CNN,ReLU激活,Dropout,GPU训练 |
| 2013年 | Google发布Word2Vec | 词向量嵌入,Skip-gram和CBOW模型,将词语映射到低维稠密向量空间 |
| 2014年 | Google提出Seq2Seq | 编码器-解码器架构,端到端机器翻译,LSTM编码解码 |
| 2014年 | Bahdanau提出Attention机制 | 注意力机制,解决长序列信息瓶颈,软对齐源语言和目标语言 |
| 2014年 | Goodfellow提出GAN | 生成对抗网络,生成器与判别器博弈,开启生成模型新范式 |
| 2014年 | 牛津大学提出VGGNet | 使用小卷积核(3×3)堆叠,16-19层深度,证明网络深度的重要性 |
技术特点:从浅层网络向深层网络发展,表示学习取代特征工程,GPU计算开始普及。
---
三、深度学习成熟期(2015-2017)
这一时期深度学习技术快速成熟,为后来的大模型奠定了关键基础。
| 时间 | 里程碑 | 关键技术 |
|:---|:---|:---|
| 2015年 | 微软亚洲研究院提出ResNet | 残差连接(Residual Connection),152层甚至更深网络,解决梯度消失问题 |
| 2015年 | Google开源TensorFlow | 深度学习框架标准化,降低开发门槛 |
| 2016年 | 陈天奇发布XGBoost | 极端梯度提升,高效实现GBDT,Kaggle竞赛神器 |
| 2016年 | DeepMindAlphaGo击败李世石 | 深度强化学习+蒙特卡洛树搜索,CNN评估棋局 |
| 2017年 | Facebook发布PyTorch | 动态计算图,更灵活的深度学习框架 |
| 2017年6月 | Google发表Transformer | 自注意力机制(Self-Attention),完全基于注意力,摒弃RNN/CNN |
---
四、关键技术演进脉络
2000-2006: 统计机器学习时代
├── SVM、随机森林、CRF等浅层模型
└── 依赖人工特征工程
2006-2012: 深度学习复兴
├── Hinton DBN逐层预训练
└── 神经网络重新获得关注
2012-2014: 深度学习突破
├── AlexNet证明CNN有效性
├── Word2Vec开启分布式表示
├── Seq2Seq+Attention奠定NLP基础
└── GAN开启生成模型新时代
2015-2017: 深度学习成熟
├── ResNet残差连接解决深度训练难题
├── TensorFlow/PyTorch框架普及
└── Transformer横空出世 → 开启大模型时代
---
五、核心技术创新总结
| 技术 | 提出时间 | 核心贡献 | 对大模型的影响 |
|:---|:---|:---|:---|
| LSTM | 1997 | 门控机制解决长程依赖 | 为早期NLP模型奠定基础 |
| Word2Vec | 2013 | 词向量表示学习 | 预训练思想的雏形 |
| Attention | 2014 | 软对齐机制 | Transformer的核心组件 |
| ResNet | 2015 | 残差连接 | 深层网络训练的关键技术 |
| Transformer | 2017 | 自注意力机制 | 大模型的基石架构 |
---
六、关键趋势总结
1. 从特征工程到表示学习:Word2Vec、CNN等让模型自动学习特征表示
2. 从浅层到深层:AlexNet→VGG→ResNet,网络深度不断增加
3. 从序列模型到注意力机制:RNN/LSTM逐步被Attention取代
4. 从单一任务到端到端:Seq2Seq实现端到端学习
5. 从理论到工程化:TensorFlow、PyTorch降低开发门槛
这一时期的技术积累,特别是Transformer架构(2017年),直接催生了2018年之后的大语言模型时代。可以说,2017年是传统深度学习与大模型时代的分水岭。