在学习 BP 神经网络(反向传播神经网络)之前,先理解 感知机(Perceptron)逻辑回归(Logistic Regression) 是非常关键的一步。它们是神经网络的“祖先”和“兄弟”,理解了它们,你就能明白神经网络的核心思想是如何一步步发展起来的。
我们来由浅入深、层层递进地讲。


一、感知机(Perceptron)——神经网络的“鼻祖”

1. 感知机的起源

  • 感知机由 Frank Rosenblatt1957年 提出,是最早的人工神经网络模型。
  • 它模仿了生物神经元的工作方式:
    神经元接收多个输入信号 → 加权求和 → 经过激活函数 → 输出信号。

2. 感知机的结构

我们假设有输入: x1,x2,...,xn

每个输入有对应的权重: w1,w2,...,wn

再加上一个偏置项(bias)b。

感知机的输出计算公式是:

其中 f(⋅) 是一个激活函数,通常是阶跃函数:


3. 感知机的逻辑

感知机就是在高维空间中找一条线(二维时)、平面(三维时)、或超平面(多维时),把样本分成两类。

举例:

如果我们要把点分成两类:

  • 红色点 → 输出 1
  • 蓝色点 → 输出 0

那感知机实际上就是在做: w1x1+w2x2+b=0

这是一条分类边界(决策面)。


4. 感知机的学习过程(训练)

感知机训练通过不断调整权重 wiw_iwi​ 来减少分类错误。

感知机学习规则:

其中:

  • η:学习率(learning rate)
  • ytruey​:真实标签
  • ypredy:模型预测输出

当所有样本都被正确分类时,算法停止。


5. 感知机的局限性

  • 感知机 只能处理线性可分问题
    比如:用一条直线能把两类点分开。
  • 对于非线性问题(例如 XOR 异或),感知机无法解决。
    因为异或问题无法被一条直线分开。

💡这时,人们意识到:必须让模型具备“非线性映射能力”
于是——神经网络应运而生。


二、逻辑回归(Logistic Regression)——从感知机到概率模型

1. 它其实不是“回归”

虽然叫“逻辑回归”,但它本质上是一个分类算法(通常是二分类)。
名字来自它的数学形式与“回归”相似。


2. 数学表达式

逻辑回归的核心思想是:
让输出不是简单的 0 或 1,而是一个“属于某一类的概率”。

p=σ(w1x1+w2x2+...+wnxn+b)

其中:

Sigmoid 函数,可以把任意实数压缩到区间 (0, 1)。


3. 输出的含义

Sigmoid 输出的 p 表示:

  • 样本属于类别 1 的概率。

我们用一个阈值(通常是 0.5)判断:

这就相当于感知机的“软版”分类器。


4. 参数学习(训练)

逻辑回归的权重 wiw_iwi​ 不再用简单规则更新,而是通过 梯度下降法 来最小化误差。

误差函数(损失函数)通常用:

这叫做 对数似然损失(Log-Loss)

然后使用 梯度下降 更新参数:


5. 感知机 vs 逻辑回归 对比

对比项感知机逻辑回归
输出类型0 或 1(硬分类)0~1 概率(软分类)
激活函数阶跃函数Sigmoid 函数
训练方式基于错误更新基于梯度下降
可微性不可微可微(可用于梯度法)
应用范围仅线性可分线性但可解释为概率

💡这一步非常关键:
逻辑回归是神经网络的直接前身。
它引入了 可微的激活函数 + 梯度下降优化
使得模型可以被“连续优化”——这为 BP算法 奠定了基础。


三、从逻辑回归到神经网络的过渡

想象一下:

  • 逻辑回归是一个单层结构。
  • 如果我们把很多逻辑回归单元组合起来(层叠结构),每层的输出作为下一层的输入,就形成了一个“多层神经网络”。

这时,问题来了:

我们如何更新每一层的参数?

答案就是 —— BP(Back Propagation,反向传播)算法
它是逻辑回归的梯度下降思想在多层神经网络上的自然延伸。


总结:逻辑关系图

感知机(Perceptron)
   │
   ├── 只能线性分类
   ▼
逻辑回归(Logistic Regression)
   │
   ├── 使用 Sigmoid,可微、可用梯度下降
   ▼
多层神经网络(Multilayer Neural Network)
   │
   ├── 多层组合非线性 → 强大的表达能力
   ▼
BP 神经网络(通过反向传播算法训练)

四、关于BP神经网络

关于BP神经网络,推荐这位博主的博客:

BP神经网络(算法整体思路及原理+手写公式推导)-CSDN博客

届ける言葉を今は育ててる
最后更新于 2025-11-02