什么是大模型?它是如何工作的,应用场景又是什么?

系列文章见: 《回忆AI时代-从图灵机到Agent》

什么是大模型

大模型(Large Model)通常指参数量非常庞大的人工智能模型,它就像一个经过海量知识训练的“数字大脑”,能够理解、推理、生成内容,并完成各种复杂任务。而LLM(Large Language Model,大语言模型) 是大模型中的一种。那大模型中什么叫“大”

  • 参数量大
  • 训练数据大
  • 计算规模大

参数量

模型/阶段 参数量
早期神经网络 几万 ~ 几百万
BERT 3.4 亿(340M)
GPT-3 1750 亿(175B)
现代大模型 数百亿 ~ 数万亿

训练数据大
大模型训练时会阅读海量数据,例如:

  • 书籍
  • 论文
  • 网站
  • 代码
  • 新闻
  • 对话数据

训练数据规模通常达到TB甚至PB级别。

计算规模大
训练一次先进大模型可能需要:

  • 数千张 GPU
  • 数周甚至数月训练时间
  • 数百万美元成本

大模型是怎么工作的

目前主流大模型基本基于:Transformer 架构(2017年提出)

1
2
3
4
5
6
7
8
9
10
11
12
13
海量数据

预训练(Pretraining)

获得语言能力

指令微调(SFT)

学会听懂人类指令

强化学习(RLHF)

更符合人类需求

大模型应用场景

大模型应用场景:

  • 文本能力
  • 推理能力
  • 多模态能力
文本能力 推理能力 多模态能力
* 写文章
* 写代码
* 翻译
* 总结
* 问答
* 鸡兔同笼
* 数学题
* 逻辑题
* 图片
* 语音
* 视频