对数几率回归-逻辑回归

算法原理

上一节内容讨论了如何使用线性模型进行回归模型，但要做回归任务要如何呢？
只要找一个单调可微的函数将分类任务的真实标记y与线性回归模型的预测值联系起来
在线性模型的基础上套一个映射函数来实现分类功能
sigmoid函数
f(x)=11+e−zz∈Rf(x)= \frac{1}{1+e^{-z}} z∈Rf(x)=1+e−z1z∈R
对于这个函数的解释：最大熵，对数几率
z=wTx+bz=w^Tx+b z=wTx+b
可变化为
lny1−y=wTx+bln \frac{y}{1-y}=w^Tx+b ln1−yy=wTx+b（1）
若将y视为样本x作为正例的可能性，则1-y是其反例的可能性，两者比值
y1−y\frac{y}{1-y}1−yy
称为“几率”，反映了作为x作为正例的相对可能性，对几率取对数则可以得到“对数几率”：
lny1−yln \frac{y}{1-y}ln1−yy
由此可以看出，（1）实际在用线性线性回归模型的预测结果去逼近真实标记的对数几率，其对应的模型称为“对数几率回归”。虽然他的模型叫做回归，但是实际是一种分类模型。这种方法有很多优点，例如它是直接对分类可能性进行建模，无需事先假设数据分布，这样就避免了假设分布不准确所带来的问题;它不是仅预测出“类别”，而是可得到近似概率预测，这对许多需利用概率辅助决策的任务很有用;此外，对率函数是任意阶可导的凸函数,有很好的数学性质，现有的许多数值优化算法都可直接用于求取最优解.
下面我们来看看如何确定w和b
上述式子可以重写为
lnP(y=1∣x)P(y=0∣x)=wTx+bln \frac{P(y=1|x)}{P(y=0|x)}=w^Tx+b lnP(y=0∣x)P(y=1∣x)=wTx+b
显然有
P(Y=1∣x)=ewx+b1+ewx+bP(Y=1|x)=\frac{e^{wx+b}}{1+e^{wx+b}} P(Y=1∣x)=1+ewx+bewx+b
P(Y=0∣x)=11+ewx+bP(Y=0|x)=\frac{1}{1+e^{wx+b}} P(Y=0∣x)=1+ewx+b1
根据以上可知，在二分类中，y取值只有0,1，可以推导出其概率质量公式：

模型比较两个条件概率的大小，将实例x分到概率值较大的那一类
通过最大似然法

将概率质量公式带入最大似然公式中得：

没有闭式求解和具体公示，只有近似求解

极大似然估计-模型参数估计

确定概率质量函数
写出似然函数

信息论

用到了交叉熵
具体见南瓜书

一些小知识

概率密度函数（pdf）针对的是连续变量，例如正态分布
而概率质量函数（pmf）针对的是离散变量，例如泊松分布。