机器学习-LR

发布网友

我来回答

1个回答

热心网友

全称:对数几率回归,logistic regression,简称:LR,二分类模型,应用极大似然估计模型参数,使用交叉熵(cross entropy,简称:CE)作为损失函数。

对数几率公式:[公式] ,值域: [公式] ,是 [公式] 函数(图形和字母s一样的函数)的一种。图像如下:

导数:[公式] ,值域: [公式] ,图像如下:

数据集:[公式] ,其中 [公式] , [公式]

LR模型:[公式]

正样本的概率:[公式]

负样本的概率:[公式]

似然函数:[公式]

对数似然:

[公式]

上式是关于[公式] 是高阶可导连续凸函数,可以使用数值优化算法如梯度下降法、牛顿法等可求得最优解。

以梯度下降法为列:

一阶导数:[公式]

[公式] 轮迭代更新公式:

[公式]

为什么使用[公式] 函数?连续、任意阶可导、值域在0-1之间、可以作为概率。

LR能否解决非线性问题?能,需要引入核技巧。

为什么LR用CE作为损失函数而不是MSE?MSE比CE梯度更新慢、MSE受到[公式] 导数影响容易梯度消失。

为什么常常要做特征组合(特征交叉)?LR模型属于线性模型,线性模型不能很好处理非线性特征,特征组合可以引入非线性特征,提升模型的表达能力。

如何解决低维不可分(非线性)问题?通过特征变换的方式把低维空间转换到高维空间,而在低维空间不可分的数据,到高维空间中线性可分的几率会高一些。具体方法:核函数,如:高斯核,多项式核等等。

LR与最大熵模型MaxEnt的关系?没有本质区别。LR是最大熵对应类别为二类时的特殊情况,也就是当LR类别扩展到多类别时,就是最大熵模型。

如何解决多分类?

参考:《统计学习方法》第二版 李航 《机器学习》周志华

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com