什么是大模型？它是如何工作的，应用场景又是什么？

📚 本文 ( 字数： 388 阅读时间： 1 分钟 )

什么是大模型

大模型（Large Model）通常指参数量非常庞大的人工智能模型，它就像一个经过海量知识训练的“数字大脑”，能够理解、推理、生成内容，并完成各种复杂任务。而LLM（Large Language Model，大语言模型）是大模型中的一种。那大模型中什么叫“大”

参数量

训练数据大
大模型训练时会阅读海量数据，例如：

训练数据规模通常达到TB甚至PB级别。

计算规模大
训练一次先进大模型可能需要：

目前主流大模型基本基于：Transformer 架构（2017年提出）

海量数据
    ↓
预训练（Pretraining）
    ↓
获得语言能力
    ↓
指令微调（SFT）
    ↓
学会听懂人类指令
    ↓
强化学习（RLHF）
    ↓
更符合人类需求

大模型应用场景：

文本能力	推理能力	多模态能力
* 写文章 * 写代码 * 翻译 * 总结 * 问答	* 鸡兔同笼 * 数学题 * 逻辑题	* 图片 * 语音 * 视频