焦点热议:协变量、混杂因素，你分清了吗？

本章思维导图：

(相关资料图)

今天群里面忽然有小伙伴问起，协变量vs混杂因素(covariate，cov vs. confounder)有什么区别，一时间我给难倒了。小编脑海中固有的印象是如下“协变量突出在回归模型的统计概念，混杂突出在流行病因果概念，二者几乎一致”。

小编经常看到协变量、混杂变量、控制变量互换使用。代表不同理论命名法存在差异。例如，学者 A 可能将变量 X 归类为混杂因素，而学者 B 可能将变量 X 归类为协变量。那事实究竟真正的是这样吗？二者区别究竟是什么呢？本着实事求是的科研精神，小编查阅了相关文献，加上理解后汇总如下。

一、协变量定义

在实验设计中，协变量指的是研究人员在测量的连续的独立变量，通常与感兴趣的主要因素一起测量。协变量与主要因素不同，因为它们是不可控且不能随机化的——它们被认为是“讨厌”变量，因为它们是实验设计之外的。意思就是，多余的。

在统计学理论中，协变量是实验中参与者的独立特征(不含干预变量x)，可以是不需要的、混杂变量。模型中增加协变量可提供准确性。似乎定义并未考虑医学研究的复杂性。

而在实际的科研中，线性回归的自变量可以叫“协变量”，协变量等同于自变量。线性回归模型如果是一个方差分析模型，则“无法控制”的连续变量叫“协变量”。回归模型的分类变量可以叫“因子”，而连续变量可以叫“协变量”(见SPSS模块)。中介效应分析的时候，把关注的自变量叫“自变量”，其它“自变量”叫协变量，当你接着把其它协变量当自变量的时候，开始的自变量又变成了协变量。相比混杂因素严谨的定义，cov的定义似乎千奇百怪五花八门。

小编总结后认为，不同学科和视角定义理解cov的确不同。但是归根结底，医学科研并不是其他学科，小编将cov定义总结如下，结论就是：

需要DAG明确cov的角色，然后套用相应统计方法。

二、DAG理论因果与cov

在数学上，除非因果推理，否则在估计线性回归或时间序列时，没有区别。也就是说，它是相同的建模，即你在R、SAS等统计软件中代码相同。但是，临床及流行病领域因果推论十分重要，二者命名区分就存在显著差异。小编将DAG绘图如下，解释cov与confounder与其他因果路径的区分。

2.1 cov仅仅与y相关，与x不相关

DAG示意图如下，这也是很多文献理论上展示的，但是并不全面。小编也同时举例了2个，孕妇身高、糖尿病因素作为唯一cov的案例。

2.2 cov任意链条

《药物临床试验协变量校正指导原则2020》协变量指在干预之前（通常是在随机化之前）观测到的，并且预期与主要研究结果有关联的变量。《药物真实世界研究设计与方案框架指导原则( 试行) 2023》重要协变量的确定应具备合理性，可结合各因素间的因果路径图确定，并综合考虑前期数据评估结果。在已确定的重要协变量中，建议在方案中明确协变量的属性，如效应修正因素、危险因素、混杂因素（包括时依混杂因素）、中间变量、碰撞变量、工具变量等。即使 PCT设计中采用随机分配策略，其主分析对协变量的考虑仍建议与观察性研究相同，因为在研究的实施过程中， PCT（特别是群随机设计）对基线均衡性的控制远不如 RCT严格。

显然，日常的rct，pct，cohort等干预、观察性研究的dag中cov的角色灵活多变。Cov可以在理论指导的情况下任意DAG因果链条上做为媒介，路径图是复杂且不确定，这也是研究争奇斗艳百家争鸣的原因了。

三、混杂因素

Group→y 因果链，混杂与group关联(关联≠因果关联)，与y关联，不在因果链中间环，非研究目的因素。混杂3条件，1.必须是所研究疾病的独立危险因子，研究过程中常规地被收集起来的研究外变量，如年龄、性别等2.必须与研究因素（group+y）有关；3.一定不是研究因素与研究疾病因果链上的中间变量。

DAG(http://www.dagitty.net/)中混杂因素需要调整，最小充分调整集会依据严格定义的混杂进行建模因素推荐。按照前面所述，下图中的z均为cov，但是却不全为confounder。