在学习 BP 神经网络(反向传播神经网络)之前,先理解 感知机(Perceptron) 和 逻辑回归(Logistic Regression) 是非常关键的一步。它们是神经网络的“祖先”和“兄弟”,理解了它们,你就能明白神经网络的核心思想是如何一步步发展起来的。
我们来由浅入深、层层递进地讲。
一、感知机(Perceptron)——神经网络的“鼻祖”
1. 感知机的起源
- 感知机由 Frank Rosenblatt 于 1957年 提出,是最早的人工神经网络模型。
- 它模仿了生物神经元的工作方式:
神经元接收多个输入信号 → 加权求和 → 经过激活函数 → 输出信号。
2. 感知机的结构
我们假设有输入: x1,x2,...,xn
每个输入有对应的权重: w1,w2,...,wn
再加上一个偏置项(bias)b。
感知机的输出计算公式是:

其中 f(⋅) 是一个激活函数,通常是阶跃函数:

3. 感知机的逻辑
感知机就是在高维空间中找一条线(二维时)、平面(三维时)、或超平面(多维时),把样本分成两类。
举例:
如果我们要把点分成两类:
- 红色点 → 输出 1
- 蓝色点 → 输出 0
那感知机实际上就是在做: w1x1+w2x2+b=0
这是一条分类边界(决策面)。
4. 感知机的学习过程(训练)
感知机训练通过不断调整权重 wiw_iwi 来减少分类错误。
感知机学习规则:

其中:
- η:学习率(learning rate)
- ytruey:真实标签
- ypredy:模型预测输出
当所有样本都被正确分类时,算法停止。
5. 感知机的局限性
- 感知机 只能处理线性可分问题。
比如:用一条直线能把两类点分开。 - 对于非线性问题(例如 XOR 异或),感知机无法解决。
因为异或问题无法被一条直线分开。
💡这时,人们意识到:必须让模型具备“非线性映射能力”。
于是——神经网络应运而生。
二、逻辑回归(Logistic Regression)——从感知机到概率模型
1. 它其实不是“回归”
虽然叫“逻辑回归”,但它本质上是一个分类算法(通常是二分类)。
名字来自它的数学形式与“回归”相似。
2. 数学表达式
逻辑回归的核心思想是:
让输出不是简单的 0 或 1,而是一个“属于某一类的概率”。
p=σ(w1x1+w2x2+...+wnxn+b)
其中:

是 Sigmoid 函数,可以把任意实数压缩到区间 (0, 1)。
3. 输出的含义
Sigmoid 输出的 p 表示:
- 样本属于类别 1 的概率。
我们用一个阈值(通常是 0.5)判断:

这就相当于感知机的“软版”分类器。
4. 参数学习(训练)
逻辑回归的权重 wiw_iwi 不再用简单规则更新,而是通过 梯度下降法 来最小化误差。
误差函数(损失函数)通常用:

这叫做 对数似然损失(Log-Loss)。
然后使用 梯度下降 更新参数:

5. 感知机 vs 逻辑回归 对比
| 对比项 | 感知机 | 逻辑回归 |
|---|---|---|
| 输出类型 | 0 或 1(硬分类) | 0~1 概率(软分类) |
| 激活函数 | 阶跃函数 | Sigmoid 函数 |
| 训练方式 | 基于错误更新 | 基于梯度下降 |
| 可微性 | 不可微 | 可微(可用于梯度法) |
| 应用范围 | 仅线性可分 | 线性但可解释为概率 |
💡这一步非常关键:
逻辑回归是神经网络的直接前身。
它引入了 可微的激活函数 + 梯度下降优化,
使得模型可以被“连续优化”——这为 BP算法 奠定了基础。
三、从逻辑回归到神经网络的过渡
想象一下:
- 逻辑回归是一个单层结构。
- 如果我们把很多逻辑回归单元组合起来(层叠结构),每层的输出作为下一层的输入,就形成了一个“多层神经网络”。
这时,问题来了:
我们如何更新每一层的参数?
答案就是 —— BP(Back Propagation,反向传播)算法。
它是逻辑回归的梯度下降思想在多层神经网络上的自然延伸。
✅ 总结:逻辑关系图
感知机(Perceptron)
│
├── 只能线性分类
▼
逻辑回归(Logistic Regression)
│
├── 使用 Sigmoid,可微、可用梯度下降
▼
多层神经网络(Multilayer Neural Network)
│
├── 多层组合非线性 → 强大的表达能力
▼
BP 神经网络(通过反向传播算法训练)
四、关于BP神经网络
关于BP神经网络,推荐这位博主的博客:



Comments NOTHING