发布网友
共1个回答
热心网友
全称:对数几率回归,logistic regression,简称:LR,二分类模型,应用极大似然估计模型参数,使用交叉熵(cross entropy,简称:CE)作为损失函数。
对数几率公式:[公式] ,值域: [公式] ,是 [公式] 函数(图形和字母s一样的函数)的一种。图像如下:
导数:[公式] ,值域: [公式] ,图像如下:
数据集:[公式] ,其中 [公式] , [公式]
LR模型:[公式]
正样本的概率:[公式]
负样本的概率:[公式]
似然函数:[公式]
对数似然:
[公式]
上式是关于[公式] 是高阶可导连续凸函数,可以使用数值优化算法如梯度下降法、牛顿法等可求得最优解。
以梯度下降法为列:
一阶导数:[公式]
[公式] 轮迭代更新公式:
[公式]
为什么使用[公式] 函数?连续、任意阶可导、值域在0-1之间、可以作为概率。
LR能否解决非线性问题?能,需要引入核技巧。
为什么LR用CE作为损失函数而不是MSE?MSE比CE梯度更新慢、MSE受到[公式] 导数影响容易梯度消失。
为什么常常要做特征组合(特征交叉)?LR模型属于线性模型,线性模型不能很好处理非线性特征,特征组合可以引入非线性特征,提升模型的表达能力。
如何解决低维不可分(非线性)问题?通过特征变换的方式把低维空间转换到高维空间,而在低维空间不可分的数据,到高维空间中线性可分的几率会高一些。具体方法:核函数,如:高斯核,多项式核等等。
LR与最大熵模型MaxEnt的关系?没有本质区别。LR是最大熵对应类别为二类时的特殊情况,也就是当LR类别扩展到多类别时,就是最大熵模型。
如何解决多分类?
参考:《统计学习方法》第二版 李航 《机器学习》周志华