勘误反馈
如果对本博客文章有任何问题(如探讨、建议、文字或逻辑错误等)都可以给我发邮件:
- 邮件标题:[wds博客问题反馈] - 希望在XXX文章增加一些细节的补充
- 邮件地址:8851970@qq.com
勘误反馈
如果对本博客文章有任何问题(如探讨、建议、文字或逻辑错误等)都可以给我发邮件:
马斯克常被总结的“五步工作法”(也有人叫“工程/效率五步法”)核心思想是:不断删减复杂度,把事情推到极简,然后再自动化。
1.质疑需求:不要一开始就接受“别人说必须这样做”。
2.删除:如果某个东西“不必要”,直接删掉。
3.简化:在已经简化的基础上再提速。
4.加速:在已经简化的基础上再提速。
5.自动化:马斯克非常反感“过早自动化”,因为:“如果流程还没稳定,自动化只会放大错误。”只有在:
才值得自动化。
系列文章见: 《回忆AI时代-从图灵机到人工智能》
1943年,神经生理学家 Warren McCulloch(沃伦・麦卡洛克)与天才数理逻辑学家 Walter Pitts(沃尔特・皮茨) 提出人类历史上第一个人工神经元数学模型,是一种模仿人脑神经元工作方式的计算模型简称M-P神经元模型,是现代所有神经网络、深度学习的理论源头。1958年,Frank Rosenblatt提出感知机,在M-P基础上增加权重自动学习规则,解决 “不能训练” 的核心缺陷。
人们观察到生物神经元。
1 | 生物神经元 |
对应抽象的数学公式。
1 | 输入 |
感知机本质不停调整一条“分界线”,把数据分成两类。它的数学公式y=step(w⋅x+b)
案例:用感知机推导AND逻辑。
| x1 | x2 | y |
|---|---|---|
| 0 | 0 | 0 |
| 0 | 1 | 0 |
| 1 | 0 | 0 |
| 1 | 1 | 1 |
Python代码:
1 | import numpy as np |
训练过程中:
最终会学到类似:
感知机只能解决线性问题,而神经网络(Neural Network)可以解决非线性问题。譬如我们来解决一个景点案例XOR(异或)问题。
XOR数据:
1 | import numpy as np |
感知机,它解决不了XOR问题。
1 | from sklearn.linear_model import Perceptron |
神经网络,可以解决。
1 | from sklearn.neural_network import MLPClassifier |
系列文章见: 《回忆AI时代-从图灵机到人工智能》
机器学习(Machine Learning, ML)本质就是让计算机“通过数据自己学规律”,而不是人手写规则。
举个例子:如下房价面积表格,人一眼就能看出来这里的规律是”面积 * 2 = 房价“,机器学习的目标就是,不告诉机器公式,让它自己从数据中学出来。
| 面积(㎡) | 房价(万) |
|---|---|
| 50 | 100 |
| 60 | 120 |
| 70 | 140 |
| 80 | 160 |
用一个Python程序来举例学习房价表格的规律:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30 # 训练数据
x = [50, 60, 70, 80]
y = [100, 120, 140, 160]
# 机器随机猜一个参数
w = 1.0
# 学习率
lr = 0.0001
# 训练10000次
for epoch in range(10000):
grad = 0
# 计算梯度
for xi, yi in zip(x, y):
pred = w * xi
grad += (pred - yi) * xi
# 更新参数
w = w - lr * grad
print("学到的参数:", w)
# 预测
area = 90
price = w * area
print("90平米预测房价:", price)
运行结果大概:
1 | 学到的参数: 2.0 |
程序运行逻辑:
1 | 猜 |
譬如:
1 | w = 1 |
于是
1 | 50㎡ -> 50万 |
然后计算误差:
1 | 真实值: 100 |
根据误差调整参数:
1 | w = w - lr * grad |
最终 w=2,和我们人算出来的一样,这就是机器学习,用一句话解释它规则 + 数据 = 结果。
1 | 图片 → 猫 |
学习后:
1 | 新图片 → 猫 |
应用场景:
1 | 用户A |
自动分类:
1 | 年轻用户 |
应用场景:
1 | 走一步 |
经过几百万局,学会最佳策略。应用场景:
传统机器学习的核心模式是“人工设计特征 + 统计学习算法”。以逻辑回归、决策树、SVM(支持向量机)和随机森林等经典算法为代表,它们通常依赖大量的特征工程。例如在图像识别任务中,研究人员需要先手工提取边缘、纹理、颜色直方图、HOG(方向梯度直方图)等特征,再将这些特征输入机器学习模型进行分类。
神经网络则改变了这一范式。它能够直接从原始数据中自动学习特征:底层网络学习边缘和纹理,中层网络学习眼睛、鼻子、轮廓等局部结构,高层网络进一步组合这些信息,形成对猫、狗、人脸等复杂目标的识别能力。换句话说,传统机器学习是“人类负责设计特征,机器负责学习规律”;而神经网络则实现了“机器自动学习特征和规律”。正因如此,人工智能的发展逐渐从传统机器学习时代迈入了神经网络时代,并最终催生了今天的深度学习浪潮。
系列文章见: 《回忆AI时代-从图灵机到人工智能》
1956年夏天,在美国达特茅斯学院,一群科学家首次提出“Artificial Intelligence(人工智能)”这一名称,开启了AI时代的序幕。会议由 John McCarthy、Marvin Minsky、Claude Shannon 和 Nathaniel Rochester 发起,被视为人工智能学科的起点。2006年,在达特茅斯会议50周年纪念活动上,AI先驱们再次相聚。
照片拍摄于美国达特茅斯学院草坪(1956年) ,2006年达特茅斯AI会议50周年纪念合影(2026)。
1956年达特茅斯会议照片,这7为科学家从上到下依次是:
20世纪50年代,计算机、逻辑学、神经科学、控制论初步发展:
一批学者认为:机器可以模拟人类智能,于是组织本次研讨。
在会议最后他们并没有解决什么实质性的问题,而是定义了问题的边界与方向:
人工智能进入了人工智能第一阶段“规则时代”。
系列文章见: 《回忆AI时代-从图灵机到人工智能》
大模型(Large Model)通常指参数量非常庞大的人工智能模型,它就像一个经过海量知识训练的“数字大脑”,能够理解、推理、生成内容,并完成各种复杂任务。而LLM(Large Language Model,大语言模型) 是大模型中的一种。那大模型中什么叫“大”
参数量
| 模型/阶段 | 参数量 |
|---|---|
| 早期神经网络 | 几万 ~ 几百万 |
| BERT | 3.4 亿(340M) |
| GPT-3 | 1750 亿(175B) |
| 现代大模型 | 数百亿 ~ 数万亿 |
训练数据大
大模型训练时会阅读海量数据,例如:
训练数据规模通常达到TB甚至PB级别。
计算规模大
训练一次先进大模型可能需要:
目前主流大模型基本基于:Transformer 架构(2017年提出)
1 | 海量数据 |
大模型应用场景:
| 文本能力 | 推理能力 | 多模态能力 |
|---|---|---|
| * 写文章 * 写代码 * 翻译 * 总结 * 问答 |
* 鸡兔同笼 * 数学题 * 逻辑题 |
* 图片 * 语音 * 视频 |
系列文章见: 《回忆AI时代-从图灵机到人工智能》
MCP(Model Context Protocol,模型上下文协议),这是由Anthropic在2024年11月推出的一个开放协议,用来让 AI 模型能够以统一方式连接外部工具、类似AI Agent世界里的USB-C接口,它可以统一连接:
在MCP未出现之前:
1 | Claude |
有了MCP之后
1 | MCP Server |