感知机与逻辑回归+BP神经网络

在学习 BP 神经网络（反向传播神经网络）之前，先理解 感知机（Perceptron） 和 逻辑回归（Logistic Regression） 是非常关键的一步。它们是神经网络的“祖先”和“兄弟”，理解了它们，你就能明白神经网络的核心思想是如何一步步发展起来的。
我们来由浅入深、层层递进地讲。

一、感知机（Perceptron）——神经网络的“鼻祖”

1. 感知机的起源

感知机由 Frank Rosenblatt 于 1957年 提出，是最早的人工神经网络模型。
它模仿了生物神经元的工作方式：
神经元接收多个输入信号 → 加权求和 → 经过激活函数 → 输出信号。

2. 感知机的结构

我们假设有输入： x1,x2,...,xn

每个输入有对应的权重： w1,w2,...,wn

再加上一个偏置项（bias）b。

感知机的输出计算公式是：

其中 f(⋅) 是一个激活函数，通常是阶跃函数：

3. 感知机的逻辑

感知机就是在高维空间中找一条线（二维时）、平面（三维时）、或超平面（多维时），把样本分成两类。

举例：

如果我们要把点分成两类：

红色点 → 输出 1
蓝色点 → 输出 0

那感知机实际上就是在做： w1x1+w2x2+b=0

这是一条分类边界（决策面）。

4. 感知机的学习过程（训练）

感知机训练通过不断调整权重 wiw_iwi 来减少分类错误。

感知机学习规则：

其中：

η：学习率（learning rate）
ytruey：真实标签
ypredy：模型预测输出

当所有样本都被正确分类时，算法停止。

5. 感知机的局限性

感知机 只能处理线性可分问题。
比如：用一条直线能把两类点分开。
对于非线性问题（例如 XOR 异或），感知机无法解决。
因为异或问题无法被一条直线分开。

💡这时，人们意识到：必须让模型具备“非线性映射能力”。
于是——神经网络应运而生。

二、逻辑回归（Logistic Regression）——从感知机到概率模型

1. 它其实不是“回归”

虽然叫“逻辑回归”，但它本质上是一个分类算法（通常是二分类）。
名字来自它的数学形式与“回归”相似。

2. 数学表达式

逻辑回归的核心思想是：
让输出不是简单的 0 或 1，而是一个“属于某一类的概率”。

p=σ(w1x1+w2x2+...+wnxn+b)

其中：

是 Sigmoid 函数，可以把任意实数压缩到区间 (0, 1)。

3. 输出的含义

Sigmoid 输出的 p 表示：

样本属于类别 1 的概率。

我们用一个阈值（通常是 0.5）判断：

这就相当于感知机的“软版”分类器。

4. 参数学习（训练）

逻辑回归的权重 wiw_iwi 不再用简单规则更新，而是通过 梯度下降法 来最小化误差。

误差函数（损失函数）通常用：

这叫做 对数似然损失（Log-Loss）。

然后使用 梯度下降 更新参数：

5. 感知机 vs 逻辑回归对比

对比项	感知机	逻辑回归
输出类型	0 或 1（硬分类）	0~1 概率（软分类）
激活函数	阶跃函数	Sigmoid 函数
训练方式	基于错误更新	基于梯度下降
可微性	不可微	可微（可用于梯度法）
应用范围	仅线性可分	线性但可解释为概率

💡这一步非常关键：
逻辑回归是神经网络的直接前身。
它引入了 可微的激活函数 + 梯度下降优化，
使得模型可以被“连续优化”——这为 BP算法 奠定了基础。

三、从逻辑回归到神经网络的过渡

想象一下：

逻辑回归是一个单层结构。
如果我们把很多逻辑回归单元组合起来（层叠结构），每层的输出作为下一层的输入，就形成了一个“多层神经网络”。

这时，问题来了：

我们如何更新每一层的参数？

答案就是 —— BP（Back Propagation，反向传播）算法。
它是逻辑回归的梯度下降思想在多层神经网络上的自然延伸。

✅ 总结：逻辑关系图

感知机（Perceptron）
   │
   ├── 只能线性分类
   ▼
逻辑回归（Logistic Regression）
   │
   ├── 使用 Sigmoid，可微、可用梯度下降
   ▼
多层神经网络（Multilayer Neural Network）
   │
   ├── 多层组合非线性 → 强大的表达能力
   ▼
BP 神经网络（通过反向传播算法训练）