系列文章见: 《回忆AI时代》
什么是智能体
智能体(Agent,也常被称为 AI Agent)是指能够自主感知环境、进行推理和规划,并采取行动以实现特定目标的计算机系统。
| Agent 核心能力 | AI Agent 工作流程示例(找一台 5000 元以内的笔记本电脑) |
|---|---|
| 🎯 Goal(目标) ↓ 👀 Perception(感知) ↓ 🧠 Reasoning(推理) ↓ ⚡ Action(行动) ↓ 💾 Memory(记忆) ↓ 📄 Output(输出) |
用户提出需求 ↓ 分析预算与需求 ↓ 搜索电商网站与评测信息 ↓ 筛选符合条件的机型 ↓ 比较配置、价格与优缺点 ↓ 生成推荐报告 ↓ 输出最终结果 |
Agent与大模型区别
| 大模型(LLM) | Agent |
|---|---|
| 主要负责思考和生成文本 | 负责思考 + 行动 |
| 回答问题 | 完成任务 |
| 一次性响应 | 可连续执行多个步骤 |
| 通常不能主动使用工具 | 可以调用工具和 API |
| 像顾问 | 像员工/助理 |
Agent不同的架构模式
https://chatgpt.com/c/6a2d7d85-1128-83ec-961e-94fbd431fb7b
1 | Agent |
ReAct
ReAct来源于2022年发表的论文( https://react-lm.github.io/ ),它的构建思想思考 → 行动 → 观察 → 再思考, 以下为执行过程与案例。
| ReAct流程 | 案例 |
|---|---|
| Question ↓ Thought ↓ Action ↓ Observation ↓ Thought ↓ Answer |
用户:新加坡今天会下雨吗? ↓ 思考:需要查询天气信息 ↓ 行动:调用天气 API ↓ 观察:返回降雨概率 80% ↓ 思考:降雨概率较高,今天可能下雨 ↓ 回答:今天大概率有雨,建议带伞出门 |
但它有缺点:
- 长任务容易失控
- 不会提前规划
Plan & Excute
ReAct升级版Plan & Excute,发布与2023年。
| Plan & Excute流程 | 案例 |
|---|---|
| Goal ↓ Plan ↓ Task1 / Task2 / Task3 ↓ Execute |
* 写一篇Transformer教程 * Plan: 1. 收集资料 2. 整理结构 3. 编写内容 4. 审核 * Execute: 逐步完成 |
Multi-Agent
2023-2024,一个Agent不够,多个Agent协作方式,每个Agent专注一件事。Agent流程与案例:
| 流程 | 案例 |
|---|---|
| CEO Agent │ ├── Research Agent ├── Coding Agent │ └── Review Agent |
PM Agent ↓ Architect Agent ↓ Developer Agent ↓ Tester Agent |
AI Workflow
2024-至今,它不需要让Agent自由思考,而是把流程固定下来,以下流程与案例:
| 流程 | 案例 |
|---|---|
| Trigger ↓ Step1 ↓ Step2 ↓ Step3 ↓ Result |
用户提问 ↓ RAG检索 ↓ 知识库 ↓ LLM总结 ↓ 返回结果 |
相关论文、核心思想、作者
| 范式 | 核心思想 | 代表论文 | 作者 | 机构 |
|---|---|---|---|---|
| ReAct | 一个 Agent 思考 + 行动交替进行 | ReAct: Synergizing Reasoning and Acting in Language Models (2022) | Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao | Princeton University / Google Research |
| Plan & Execute | 先规划,再逐步执行 | Plan-and-Solve Prompting (2023) / Plan-and-Execute 系列 | Lei Wang, Jiacheng Liu, Xiang Ren(代表论文) | University of Southern California (USC) 等 |
| Multi-Agent | 多个 Agent 分工协作 | AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation Framework (2023) | Qingyun Wu, Chi Wang, et al. | Microsoft Research |
| Multi-Agent | 多 Agent 协作模拟组织结构 | MetaGPT: Meta Programming for Multi-Agent Collaborative Framework (2023) | Hongbo Zhang, et al. | Independent / Open-source community |
| Multi-Agent | 对话式智能体社会模拟 | CAMEL: Communicative Agents for “Mind” Exploration (2023) | Guohao Li, et al. | 多机构合作 |
| AI Workflow | 用流程编排 Agent,而非自由推理 | (工程范式,无单一论文)但基础来自 Tool Use / Agent Systems | —— | 工业界(LangChain / Dify / Microsoft / n8n) |
| AI Workflow(基础研究) | 工具调用与任务分解基础 | Toolformer (2023) | Timo Schick, et al. | Meta AI |
Agent框架
主流Agent框架对比
2026主流框架地图。
1 | Agent |
以下是一些开源的框架拿来就用。
| 框架 | 工作方式 | 项目地址 | Agent特点 | 适合场景 |
|---|---|---|---|---|
| LangChain | ReAct + Tool Calling + Chain 组合执行 | https://github.com/langchain-ai/langchain | 生态最大、组件最全、支持 Tool / Memory / RAG / Agent | 快速构建通用 AI Agent、原型开发、RAG + Agent 应用 |
| LlamaIndex | 数据索引 + RAG + Query Engine + Agent | https://github.com/run-llama/llama_index | 强数据层能力,文档/数据库连接能力极强 | 企业知识库问答、数据检索型 Agent |
| Haystack | Pipeline(流水线)+ Retrieval + QA + Agent扩展 | https://github.com/deepset-ai/haystack | 工程化强、搜索系统成熟、模块清晰 | 企业搜索、问答系统、生产级 NLP Pipeline |
| AutoGen | 多Agent对话协作(Role-based conversation) | https://github.com/microsoft/autogen | 支持多角色 Agent 自动协作、自动拆解任务 | 多智能体系统、自动编程、研究型任务 |
| CrewAI | Role-based Multi-Agent Workflow(角色驱动) | https://github.com/crewAIInc/crewAI | 简单易用、结构清晰(CEO/Writer/Analyst) | 内容生产、自动化任务流、业务流程 Agent |
当然也可以自己开发一个基于ReAct的框架,以下是整理资料时看到一个网友分享的手搓基于ReAct框架。
1 | https://github.com/MarkTechStation/VideoCode/tree/main/Agent%E7%9A%84%E6%A6%82%E5%BF%B5%E3%80%81%E5%8E%9F%E7%90%86%E4%B8%8E%E6%9E%84%E5%BB%BA%E6%A8%A1%E5%BC%8F |