机器学习算法系列(三)

机器学习算法之–对数几率回归(逻辑斯蒂回归)算法

一、算法原理

1.1、预测函数

找出一个预测函数模型,输出值在[0,1]之间。接着,再选择一个基准值(例如0.5),若预测值》0.5,则预测为1;否则预测为0;【二分类问题】

我们可选择:g(z)=11+e−zg(z)=\frac{1}{1+e^{-z}}g(z)=1+ez1作为预测函数。
该函数称为Sigmoid函数,也可称作Logistic函数(名称由来),其图形如下

图中可以看出:

  • z=0:g(z) = 0.5
  • z>0:g(z) > 0.5,当z越来越大时,g(z)无限接近于1。
  • z<0:g(z) < 0.5,当z越来越小时,g(z)无限接近于0。

显然,这正符合我们想要的分类方式。

我们再结合线性回归的预测函数hθ(x)=θTxh_\theta(x)=\theta^Txhθ(x)=θTx,则逻辑斯蒂回归算法的预测函数如下:r=hθ(x)=g(z)=g(θTx)=11+e−θTxr=h_\theta(x)=g(z)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}r=hθ(x)=g(z)=g(θTx)=1+eθTx1

此处求解的是在输入x,参数θ的前提下,y=1的概率,用概率论公式可表示为hθ(x)=P(y=1∣x,θ)h_\theta(x)=P(y=1|x,\theta)hθ(x)=P(y=1∣x,θ)
且必有:P(y=1∣x,θ)+P(y=0∣x,θ)=1P(y=1|x,\theta)+P(y=0|x,\theta)=1P(y=1∣x,θ)+P(y=0∣x,θ)=1

r为正例可能性,1-r是其反例可能性,二者比值r1−r\frac{r}{1-r}1rr称为“几率”,反映了x作为正例的相对可能性,进一步对几率取对数,则得到“对数几率”lnr1−rln\frac{r}{1-r}ln1rr
在二分类中,这是一个非黑即白的世界

实际上,这是在用线性回归模型的预测结果去逼近真是标记的对数几率,因此成为对数几率回归

对于

1.2、参数估计(如何计算θ)

在训练过程中,算法通过最大化似然函数求解θ。具体来说,似然函数表示的是P(Y|X)的条件概率。统计学家通常使用“最大似然估计”方法来进行参数估计。这种方法就是求解参数W,使得模型的似然函数在已知观测数据下最大。
lnP(y=1∣x)1−P(y=0∣x)=θTx=wxln\frac{P(y=1|x)}{1-P(y=0|x)} = \theta^Tx=wxln1P(y=0∣x)P(y=1∣x)=θTx=wx

也就是说,在逻辑回归中,输出y=1的对数几率是输入x的线性函数
显然有,P(y=1∣x)=eθTx1+eθTxP(y=0∣x)=11+eθTxP(y=1|x)=\frac{e^{\theta^Tx}}{1+e^{\theta^Tx}}\\P(y=0|x)=\frac{1}{1+e^{\theta^Tx}}P(y=1∣x)=1+eθTxeθTxP(y=0∣x)=1+eθTx1

设:P(y=1∣x)=π(x),P(y=0∣x)=1−π(x)P(y=1|x)=\pi(x), P(y=0|x)=1-\pi(x)P(y=1∣x)=π(x),P(y=0∣x)=1π(x)
于是可以通过极大似然估计来估计模型参数,似然函数为
∏i=1n[π(xi)]yi[1−π(x)]1−yi\prod_{i=1}^n[\pi(x_i)]^{y^i}[1-\pi(x)]^{1-y^i}i=1n[π(xi)]yi[1π(x)]1yi
对数似然函数为L(w)=∑i=1n[yilogπ(xi)+(1−yi)log(1−π(x))]L(w)=\sum_{i=1}^n[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x))]L(w)=i=1n[yilogπ(xi)+(1yi)log(1π(x))]

  • 成本函数(所有样本的成本平均值):-1nL(w)\frac{1}{n}L(w)n1L(w)

L(w)求极值,便可得到w的估计值,问题也就变成了第一对数似然函数为目标的最优化问题L(w)求极值,便可得到w的估计值,问题也就变成了第一对数似然函数为目标的最优化问题L(w)求极值,便可得到w的估计值,问题也就变成了第一对数似然函数为目标的最优化问题

二、模型优化

2.1、梯度下降算法、

根据梯度下降算法定义,可以得到
θj=θj−α∂J(θ)∂θj\theta_j=\theta_j-\alpha\frac{\partial J(\theta)}{\partial \theta_j}θj=θjαθjJ(θ)
此处关键是求成本函数的偏导数,最终得到梯度下降算法公式
θj=θj−α1m∑i=1m((h(xi)−yi)xji)\theta_j= \theta_j-\alpha\frac{1}{m}\sum_{i=1}^m ((h(x^i)-y^i)x_j^i)θj=θjαm1i=1m((h(xi)yi)xji)

注意此处的形式和线性回归算法的参数迭代公式是一样的,但数值计算方法完全不同
逻辑:hθ(x)=11+e−θTxh_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}hθ(x)=1+eθTx1
线性:hθ(x)=θTxh_\theta(x)=\theta^Txhθ(x)=θTx

*除了梯度下降算法之外,还有拟牛顿法等都可以求得其最优解

三、多元分类

逻辑回归可以解决二分类问题,那如果需要分类的超过了两个类别呢?显然也是也以应对的。

假设总共有n+1个类别,y={0,1,2,3,…,n},思路是转化为二元分类

  • 类别一:0,类别二:1~n,分别计算概率;
  • 类别一:1,类别二:0,2~n,再分别计算概率;
  • 类别一:n,类别二:0~n-1,再分别计算概率。

由此可见,总共需要n+1个预测函数,分别计算P(y=0|x,θ),…,P(y=n|x,θ)

  • 最后预测值:prediction=maxi(hθ(i)(x))prediction=max_i(h_\theta^{(i)}(x))prediction=maxi(hθ(i)(x))

预测出概率最高的哪个类别,就是样本所属类别

四、正则化

  • 采用正则化可以用来解决模型过拟合问题
  • 保留所有的特征,减少特征的权重θj\theta_jθj的值,确保所有的特征对预测值都有少量的贡献。
    当每个特征Xi对预测值Y都有少量的贡献时,这样的模型可以良好的工作,这就是正则化的目的。

本文链接:https://my.lmcjl.com/post/4387.html

展开阅读全文

4 评论

留下您的评论.