系列文章见: 《回忆AI时代-从图灵机到Agent》
什么是大模型
大模型(Large Model)通常指参数量非常庞大的人工智能模型,它就像一个经过海量知识训练的“数字大脑”,能够理解、推理、生成内容,并完成各种复杂任务。而LLM(Large Language Model,大语言模型) 是大模型中的一种。那大模型中什么叫“大”
- 参数量大
- 训练数据大
- 计算规模大
参数量
| 模型/阶段 | 参数量 |
|---|---|
| 早期神经网络 | 几万 ~ 几百万 |
| BERT | 3.4 亿(340M) |
| GPT-3 | 1750 亿(175B) |
| 现代大模型 | 数百亿 ~ 数万亿 |
训练数据大
大模型训练时会阅读海量数据,例如:
- 书籍
- 论文
- 网站
- 代码
- 新闻
- 对话数据
训练数据规模通常达到TB甚至PB级别。
计算规模大
训练一次先进大模型可能需要:
- 数千张 GPU
- 数周甚至数月训练时间
- 数百万美元成本
大模型是怎么工作的
目前主流大模型基本基于:Transformer 架构(2017年提出)
1 | 海量数据 |
大模型应用场景
大模型应用场景:
- 文本能力
- 推理能力
- 多模态能力
| 文本能力 | 推理能力 | 多模态能力 |
|---|---|---|
| * 写文章 * 写代码 * 翻译 * 总结 * 问答 |
* 鸡兔同笼 * 数学题 * 逻辑题 |
* 图片 * 语音 * 视频 |