逻辑回归(Logistic Regression,简称 LR)虽然名字中带有“回归”二字,但其实是一种线性分类器,其本质是由线性回归变化而来的一种广泛使用于分类问题中的广义回归算法。要理解逻辑回归从何而来,首先要理解线性回归。线性回归是机器学习中最简单的的回归算法,它写作:
θ 被统称为模型的参数,其中 θ0 被称为截距(intercept), θ1~θn被称为系数(coefficient),这个表达式,其实和我们小学时就熟知的 y=ax+b 是同样的性质。使用矩阵表示这个式子就是:
线性回归即是要构造一个预测函数来映射输入的特征矩阵 x 和标签值 y 的线性关系。通过函数,线性回归使用输入的特征矩阵 X 来输出一组连续型的预测标签值,。那如果我们的标签是离散型变量,尤其是,如果是满足0-1分布的离散型变量,要怎么办呢?这时候就可以通过引入联系函数(link function),将线性回归方程 z 变换为 g(z),并且令 g(z) 的值分布在 (0,1) 之间,且当 g(z) 接近 0 时样本的标签为类别 0,当 g(z) 接近1时样本的标签为类别 1,这样就得到了一个分类模型。而这个联系函数对于逻辑回归来说,就是 Sigmoid 函数:
Sigmoid 函数是一个 S 型的函数,当自变量 z 趋近正无穷时,因变量 g(z) 趋近于 1,而当 z 趋近负无穷时,g(z) 趋近于0,它能够将任何实数映射到 (0,1) 区间,使其可用于将任意值函数转换为更适合二分类的函数。
因此我们可以得到二元逻辑回归模型的一般形式:
转换为矩阵形式就是: