跳转至

第20章 Logistic回归 (Logistic Regression) 复习笔记

1. 概述与适用场景

回归分析的分类

根据因变量 (Y) 的类型不同,回归分析可分为:

  • 简单/多重线性回归:适用于 \(Y\)连续型定量变量(且满足正态分布、方差齐性等条件)。

  • Logistic 回归:适用于 \(Y\)分类变量(定性资料),\(X\)可以为分类变量也可以为定量变量。

Logistic回归的类型

根据因变量 \(Y\) 的分类情况,分为:

  1. 二分类 Logistic 回归\(Y\) 只有两个取值(如:发病/不发病,生存/死亡,0/1)。

  2. 有序多分类 Logistic 回归\(Y\) 为有序等级资料(如:疗效为无效、好转、显效、治愈)。

  3. 无序多分类 Logistic 回归\(Y\) 为无序分类资料(如:血型 A/B/O/AB,肿瘤类型)。

主要用途

  1. 影响因素分析:筛选并解释影响结果的危险因素或保护因素。

  2. 校正混杂因素:在多因素分析中控制混杂偏倚。

  3. 预测:利用模型预测某事件发生的概率。

例题:Logistic回归的适用性

Logistic回归适用于因变量为( )。

A. 二分类变量

B. 多分类有序变量

C. 多分类无序变量

D. 连续型定量变量

E. A、B、C均可

例题:Logistic回归的适用性

Logistic回归可用于( )。

A. 影响因素分析

B. 校正混杂因素

C. 预测

D. 仅有A和C

E. A、B、C均可

解析:Logistic回归家族非常强大,只要因变量是分类的(无论二分、有序还是无序)都适用,且功能涵盖了解释(归因)和预测。

2. 二分类 Logistic 回归模型

核心概念:优势 (Odds) 与 优势比 (OR)

在 Logistic 回归中,我们不直接分析概率 \(P\),而是分析优势 (Odds)

  • 优势 (Odds):某事件发生的概率 \(P\) 与不发生概率 \(1-P\) 的比值。 \(\(Odds = \frac{P}{1-P}\)\)
  • 优势比 (OR, Odds Ratio):两组优势的比值(如暴露组 vs 非暴露组)。 (\(OR = \frac{Odds_1}{Odds_0} = \frac{P_1/(1-P_1)}{P_0/(1-P_0)}\)\)
    • 样本估计:在病例对照研究或列联表中,\(\hat{OR} = \frac{ad}{bc}\)

例题:OR值的联合效应计算

一项研究食管癌与吸烟、饮酒危险因素关系的数据分析结果表明,在416名病例与420名对照的匹配病例对照研究中,有286名病例与200名对照有吸烟行为。另外,饮酒与不饮酒的优势比 \(OR_2=1.69\),则同时吸烟和饮酒与两者皆无的优势比 \(OR\) 为( )。

A. 4.09

B. 2.42

C. 1.69

D. 4.11

E.0.73

解析: 1. 先算吸烟的单因素OR(\(OR_1\)):

病例组:吸烟286,不吸烟 $416-286=130$。

对照组:吸烟200,不吸烟 $420-200=220$。

$$OR_1 = \frac{ad}{bc} = \frac{286 \times 220}{200 \times 130} = 2.42$$
  1. 计算联合OR:在Logistic回归模型中(假设无交互作用),联合效应通常是相乘关系。

    \[OR_{总} = OR_1 \times OR_2 = 2.42 \times 1.69 \approx 4.09\]

回归方程 (Logit 变换)

Logistic 回归通过 Logit 变换 将取值范围在 \((0,1)\) 的概率 \(P\) 转化为取值范围在 \((-\infty, +\infty)\) 的线性形式。

  • 线性表达式\(\(\text{logit}(P) = \ln\left(\frac{P}{1-P}\right) = \beta_0 + \beta_1 X_1 + \dots + \beta_m X_m\)\)

  • 概率预测模型 (S型曲线/Sigmoid函数): \(\(P = \frac{e^{\beta_0 + \beta_1 X_1 + \dots + \beta_m X_m}}{1 + e^{\beta_0 + \beta_1 X_1 + \dots + \beta_m X_m}}\)\)

回归系数 \(\beta\)\(OR\) 的关系

回归系数 \(\beta_i\) 表示在控制其他变量时,\(X_i\) 每增加一个单位,优势 (Odds) 的对数的变化量。

  • 数量关系\(OR = e^{\beta}\)

  • 判断准则

    • \(\beta > 0 \Rightarrow OR > 1\)危险因素,促进事件发生。
    • \(\beta = 0 \Rightarrow OR = 1\)无关,无统计学关联。
    • \(\beta < 0 \Rightarrow OR < 1\)保护因素,抑制事件发生。

例题:\(\beta\)\(OR\) 的关系

Logistic回归系数与优势比OR的关系为( )。

A. \(\beta > 0\) 等价于 \(OR > 1\)

B. \(\beta > 0\) 等价于 \(OR < 1\)

C. \(\beta = 0\) 等价于 \(OR = 1\)

D. \(\beta < 0\) 等价于 \(OR < 1\)

E. A、C、D均正确

解析:根据公式 \(OR = e^{\beta}\),指数函数的性质决定了正负号与大于小于1的对应关系。选 E。

3. 参数估计与假设检验

参数估计方法

  • 极大似然法 (Maximum Likelihood Estimation, MLE):Logistic回归不使用最小二乘法,而是使用极大似然法进行参数估计。
    • 原理:寻找一组参数,使得当前样本数据出现的概率(似然函数值)最大。

假设检验

  1. 整体模型检验

    • 似然比检验 (Likelihood Ratio Test):统计量为 \(G\)\(\chi^2\)

    • 公式:\(G = -2 \ln(L_0 / L_1)\),服从 \(\chi^2\) 分布。

    • 意义:检验所有自变量作为一个整体是否有效。

  2. 单个回归系数检验

    • Wald \(\chi^2\) 检验:最常用。统计量 \(Z = \frac{b}{S_b}\)\(\chi^2 = (\frac{b}{S_b})^2\)

    • 记分检验 (Score Test)

  3. 拟合优度检验

    • Hosmer-Lemeshow 检验:检验模型预测值与观测值是否吻合。

    • 注意:这里希望 \(P > 0.05\),即差异无统计学意义,说明模型拟合得好。

变量筛选与哑变量

  • 逐步回归法:常用方法,自动筛选自变量。

  • 哑变量 (Dummy Variable):当自变量为多分类(如血型:A, B, O, AB)时,不能直接赋值 1,2,3,4,必须设置哑变量。

  • 同进同出原则:一个多分类变量生成的多个哑变量(如3个哑变量代表4个血型),必须作为一个整体进入或剔除出模型,不能只保留其中某一个。

例题:哑变量的处理

Logistic回归中自变量如为多分类变量,宜将其按哑变量处理,与其他变量进行变量筛选时可用( )。

A.软件自动筛选的前进法

B.软件自动筛选的后退法

C.软件自动筛选的逐步法

D.应将几个哑变量作为一个因素,整体进出回归方程

E.A、B、C均可

解析:如果只保留了部分哑变量,该变量的分类含义就被破坏了,因此必须整体考虑。

4. 多分类 Logistic 回归 (扩展)

无序多分类 (Multinomial)

  • 设定一个参照组(如以 \(Y=3\) 为参照),分别建立 \(k-1\) 个二分类 Logit 模型。

  • 例如:比较 1 vs 3,比较 2 vs 3。

image.png

有序多分类 (Ordinal) —— 累积 Logit 模型

  • 适用于等级资料(轻度、中度、重度)。

  • 平行性假设 (Parallelism Assumption):这是一个关键的前提条件。假设自变量对不同等级的累积概率的影响是相同的(即回归系数 \(\beta\) 相同,只有常数项不同)。

  • 平行性检验

    • 如果 \(P > 0.05\)(不拒绝):满足平行性假设,可以使用有序 Logistic 回归。
    • 如果 \(P \le 0.05\)​(拒绝):不满足平行性,不能用有序回归,应改用无序多分类 Logistic

image.png

5. 总结:Logistic 回归 vs 多重线性回归

比较维度 多重线性回归 (Multiple Linear Regression) Logistic 回归
因变量 (Y) 连续型定量变量 (且服从正态分布) 分类变量 (二分类、有序、无序)
自变量 (X) 可以是定量或定性(哑变量) 可以是定量或定性
关系形态 线性关系 (\(Y\)\(X\)) 非线性关系 (\(Y\)\(X\) 呈S型,Logit \(P\)\(X\) 呈线性)
参数估计 最小二乘法 (Least Squares) 极大似然法 (MLE)
系数含义 \(X\) 改变1单位,\(Y\) 平均改变 \(\beta\) \(X\) 改变1单位,优势的对数改变 \(\beta\) (\(OR=e^\beta\))

例题:回归模型的对比

Logistic回归与多重线性回归比较,( )。 A. logistic回归的因变量为分类变量

B. 多重线性回归的因变量为分类变量

C. logistic回归和多重线性回归的因变量都可为二分类变量

D. logistic回归的自变量必须是二分类变量

E. 多重线性回归的自变量必须是二分类变量

解析:最本质的区别在于因变量的类型。选 A。