第20章 Logistic回归 (Logistic Regression) 复习笔记
1. 概述与适用场景
回归分析的分类
根据因变量 (Y) 的类型不同,回归分析可分为:
-
简单/多重线性回归:适用于 \(Y\) 为连续型定量变量(且满足正态分布、方差齐性等条件)。
-
Logistic 回归:适用于 \(Y\) 为分类变量(定性资料),\(X\)可以为分类变量也可以为定量变量。
Logistic回归的类型
根据因变量 \(Y\) 的分类情况,分为:
-
二分类 Logistic 回归:\(Y\) 只有两个取值(如:发病/不发病,生存/死亡,0/1)。
-
有序多分类 Logistic 回归:\(Y\) 为有序等级资料(如:疗效为无效、好转、显效、治愈)。
-
无序多分类 Logistic 回归:\(Y\) 为无序分类资料(如:血型 A/B/O/AB,肿瘤类型)。
主要用途
-
影响因素分析:筛选并解释影响结果的危险因素或保护因素。
-
校正混杂因素:在多因素分析中控制混杂偏倚。
-
预测:利用模型预测某事件发生的概率。
例题:Logistic回归的适用性
Logistic回归适用于因变量为( )。
A. 二分类变量
B. 多分类有序变量
C. 多分类无序变量
D. 连续型定量变量
E. A、B、C均可
例题:Logistic回归的适用性
Logistic回归可用于( )。
A. 影响因素分析
B. 校正混杂因素
C. 预测
D. 仅有A和C
E. A、B、C均可
解析:Logistic回归家族非常强大,只要因变量是分类的(无论二分、有序还是无序)都适用,且功能涵盖了解释(归因)和预测。
2. 二分类 Logistic 回归模型
核心概念:优势 (Odds) 与 优势比 (OR)
在 Logistic 回归中,我们不直接分析概率 \(P\),而是分析优势 (Odds)。
- 优势 (Odds):某事件发生的概率 \(P\) 与不发生概率 \(1-P\) 的比值。 \(\(Odds = \frac{P}{1-P}\)\)
- 优势比 (OR, Odds Ratio):两组优势的比值(如暴露组 vs 非暴露组)。
(\(OR = \frac{Odds_1}{Odds_0} = \frac{P_1/(1-P_1)}{P_0/(1-P_0)}\)\)
- 样本估计:在病例对照研究或列联表中,\(\hat{OR} = \frac{ad}{bc}\)。
例题:OR值的联合效应计算
一项研究食管癌与吸烟、饮酒危险因素关系的数据分析结果表明,在416名病例与420名对照的匹配病例对照研究中,有286名病例与200名对照有吸烟行为。另外,饮酒与不饮酒的优势比 \(OR_2=1.69\),则同时吸烟和饮酒与两者皆无的优势比 \(OR\) 为( )。
A. 4.09
B. 2.42
C. 1.69
D. 4.11
E.0.73
解析: 1. 先算吸烟的单因素OR(\(OR_1\)):
病例组:吸烟286,不吸烟 $416-286=130$。
对照组:吸烟200,不吸烟 $420-200=220$。
$$OR_1 = \frac{ad}{bc} = \frac{286 \times 220}{200 \times 130} = 2.42$$
-
计算联合OR:在Logistic回归模型中(假设无交互作用),联合效应通常是相乘关系。
\[OR_{总} = OR_1 \times OR_2 = 2.42 \times 1.69 \approx 4.09\]
回归方程 (Logit 变换)
Logistic 回归通过 Logit 变换 将取值范围在 \((0,1)\) 的概率 \(P\) 转化为取值范围在 \((-\infty, +\infty)\) 的线性形式。
-
线性表达式: \(\(\text{logit}(P) = \ln\left(\frac{P}{1-P}\right) = \beta_0 + \beta_1 X_1 + \dots + \beta_m X_m\)\)
-
概率预测模型 (S型曲线/Sigmoid函数): \(\(P = \frac{e^{\beta_0 + \beta_1 X_1 + \dots + \beta_m X_m}}{1 + e^{\beta_0 + \beta_1 X_1 + \dots + \beta_m X_m}}\)\)
回归系数 \(\beta\) 与 \(OR\) 的关系
回归系数 \(\beta_i\) 表示在控制其他变量时,\(X_i\) 每增加一个单位,优势 (Odds) 的对数的变化量。
-
数量关系:\(OR = e^{\beta}\)。
-
判断准则:
- \(\beta > 0 \Rightarrow OR > 1\):危险因素,促进事件发生。
- \(\beta = 0 \Rightarrow OR = 1\):无关,无统计学关联。
- \(\beta < 0 \Rightarrow OR < 1\):保护因素,抑制事件发生。
例题:\(\beta\) 与 \(OR\) 的关系
Logistic回归系数与优势比OR的关系为( )。
A. \(\beta > 0\) 等价于 \(OR > 1\)
B. \(\beta > 0\) 等价于 \(OR < 1\)
C. \(\beta = 0\) 等价于 \(OR = 1\)
D. \(\beta < 0\) 等价于 \(OR < 1\)
E. A、C、D均正确
解析:根据公式 \(OR = e^{\beta}\),指数函数的性质决定了正负号与大于小于1的对应关系。选 E。
3. 参数估计与假设检验
参数估计方法
- 极大似然法 (Maximum Likelihood Estimation, MLE):Logistic回归不使用最小二乘法,而是使用极大似然法进行参数估计。
- 原理:寻找一组参数,使得当前样本数据出现的概率(似然函数值)最大。
假设检验
-
整体模型检验:
-
似然比检验 (Likelihood Ratio Test):统计量为 \(G\) 或 \(\chi^2\)。
-
公式:\(G = -2 \ln(L_0 / L_1)\),服从 \(\chi^2\) 分布。
-
意义:检验所有自变量作为一个整体是否有效。
-
-
单个回归系数检验:
-
Wald \(\chi^2\) 检验:最常用。统计量 \(Z = \frac{b}{S_b}\) 或 \(\chi^2 = (\frac{b}{S_b})^2\)。
-
记分检验 (Score Test)。
-
-
拟合优度检验:
-
Hosmer-Lemeshow 检验:检验模型预测值与观测值是否吻合。
-
注意:这里希望 \(P > 0.05\),即差异无统计学意义,说明模型拟合得好。
-
变量筛选与哑变量
-
逐步回归法:常用方法,自动筛选自变量。
-
哑变量 (Dummy Variable):当自变量为多分类(如血型:A, B, O, AB)时,不能直接赋值 1,2,3,4,必须设置哑变量。
-
同进同出原则:一个多分类变量生成的多个哑变量(如3个哑变量代表4个血型),必须作为一个整体进入或剔除出模型,不能只保留其中某一个。
例题:哑变量的处理
Logistic回归中自变量如为多分类变量,宜将其按哑变量处理,与其他变量进行变量筛选时可用( )。
A.软件自动筛选的前进法
B.软件自动筛选的后退法
C.软件自动筛选的逐步法
D.应将几个哑变量作为一个因素,整体进出回归方程
E.A、B、C均可
解析:如果只保留了部分哑变量,该变量的分类含义就被破坏了,因此必须整体考虑。
4. 多分类 Logistic 回归 (扩展)
无序多分类 (Multinomial)
-
设定一个参照组(如以 \(Y=3\) 为参照),分别建立 \(k-1\) 个二分类 Logit 模型。
-
例如:比较 1 vs 3,比较 2 vs 3。

有序多分类 (Ordinal) —— 累积 Logit 模型
-
适用于等级资料(轻度、中度、重度)。
-
平行性假设 (Parallelism Assumption):这是一个关键的前提条件。假设自变量对不同等级的累积概率的影响是相同的(即回归系数 \(\beta\) 相同,只有常数项不同)。
-
平行性检验:
- 如果 \(P > 0.05\)(不拒绝):满足平行性假设,可以使用有序 Logistic 回归。
- 如果 \(P \le 0.05\)(拒绝):不满足平行性,不能用有序回归,应改用无序多分类 Logistic

5. 总结:Logistic 回归 vs 多重线性回归
| 比较维度 | 多重线性回归 (Multiple Linear Regression) | Logistic 回归 |
|---|---|---|
| 因变量 (Y) | 连续型定量变量 (且服从正态分布) | 分类变量 (二分类、有序、无序) |
| 自变量 (X) | 可以是定量或定性(哑变量) | 可以是定量或定性 |
| 关系形态 | 线性关系 (\(Y\) 与 \(X\)) | 非线性关系 (\(Y\) 与 \(X\) 呈S型,Logit \(P\) 与 \(X\) 呈线性) |
| 参数估计 | 最小二乘法 (Least Squares) | 极大似然法 (MLE) |
| 系数含义 | \(X\) 改变1单位,\(Y\) 平均改变 \(\beta\) | \(X\) 改变1单位,优势的对数改变 \(\beta\) (\(OR=e^\beta\)) |
例题:回归模型的对比
Logistic回归与多重线性回归比较,( )。 A. logistic回归的因变量为分类变量
B. 多重线性回归的因变量为分类变量
C. logistic回归和多重线性回归的因变量都可为二分类变量
D. logistic回归的自变量必须是二分类变量
E. 多重线性回归的自变量必须是二分类变量
解析:最本质的区别在于因变量的类型。选 A。