假设尝试使用线型回归的损失函数,那么我们会得到一个非凸函数,如下图:

令Cost(h𝝷(x^i),y^i) = 0.5(h𝝷(x^i) - y^i)^2,则 J(𝝷) = 1/m ∑Cost(h𝝷(x^i),y^i),去掉i化简为 Cost(h𝝷(x),y) = 1/2 * (h𝝷(x) -y)^2,然后我们将h𝝷(x) = 1 (1 + e ^-𝝷^Tx)代入, 则我们很可能得到左边的图形,因为sigmod函数不是线型的,所以左侧图形无法使用梯度下降的方法得到一个最优解.
逻辑回归的代价函数,我们使用以下代价函数,coust(h𝝷(x),y)代表为 y的概率.

用图形化的方法来表示-log(h𝝷(x)) if y = 1,则如下

如果我们预测的h𝝷(x) = 0 ,但是实际值y = 1,那么cost的损失会趋于无穷. 如果h𝝷(x)=1,并且y=1,那么其cost会趋于0.

用图形化的方法表示-log(1 - h𝝷(x)) if y = 0,则如下,也就是说如果我们预测是1,但实际是0,则此时cost会趋近于无穷大.

逻辑回归的代价函数,统一写法可以为如下(为什么这样写是从统计学中的极大似然法得来的).

即得到逻辑回归的代价函数如下,然后我们根据J𝝷获取其minJ𝝷的值,然后将获取到的𝝷代入逻辑回归的预测函数,就可以得到P(y=1|x:𝝷)的概率.

求minJ𝝷的方法,即采用梯度下降的方法进行求偏导

即对J𝝷求最小化值的方法可以表示为(1/m被省约掉了):

需要注意的是,此时这个求导公式看上去跟线型回归相同,但是含义已经发生了很大的变人,因为此时h𝝷(x)的预测函数为h𝝷(x) = 1/1 + e^-𝝷^Tx,而线型回归中是h𝝷(x) =𝝷^Tx;

梯度下降的代替方法BFGS\L- BFGS
L-BFGS是解无约束非线性规划问题最常用的方法,具有收敛速度快、内存开销少等优点.





