本章思维导图:


(相关资料图)

今天群里面忽然有小伙伴问起,协变量vs混杂因素(covariate,cov vs. confounder)有什么区别,一时间我给难倒了。小编脑海中固有的印象是如下“协变量突出在回归模型的统计概念,混杂突出在流行病因果概念,二者几乎一致”。

小编经常看到协变量、混杂变量、控制变量互换使用。代表不同理论命名法存在差异。例如,学者 A 可能将变量 X 归类为混杂因素,而学者 B 可能将变量 X 归类为协变量。那事实究竟真正的是这样吗?二者区别究竟是什么呢?本着实事求是的科研精神,小编查阅了相关文献,加上理解后汇总如下。

一、协变量定义

在实验设计中,协变量指的是研究人员在测量的连续的独立变量,通常与感兴趣的主要因素一起测量。协变量与主要因素不同,因为它们是不可控且不能随机化的——它们被认为是“讨厌”变量,因为它们是实验设计之外的。意思就是,多余的。

在统计学理论中,协变量是实验中参与者的独立特征(不含干预变量x),可以是不需要的、混杂变量。模型中增加协变量可提供准确性。似乎定义并未考虑医学研究的复杂性。

而在实际的科研中,线性回归的自变量可以叫“协变量”,协变量等同于自变量。线性回归模型如果是一个方差分析模型,则“无法控制”的连续变量叫“协变量”。回归模型的分类变量可以叫“因子”,而连续变量可以叫“协变量”(见SPSS模块)。中介效应分析的时候,把关注的自变量叫“自变量”,其它“自变量”叫协变量,当你接着把其它协变量当自变量的时候,开始的自变量又变成了协变量。相比混杂因素严谨的定义,cov的定义似乎千奇百怪五花八门。

小编总结后认为,不同学科和视角定义理解cov的确不同。但是归根结底,医学科研并不是其他学科,小编将cov定义总结如下,结论就是:

需要DAG明确cov的角色,然后套用相应统计方法。

二、DAG理论因果与cov

在数学上,除非因果推理,否则在估计线性回归或时间序列时,没有区别。也就是说,它是相同的建模,即你在R、SAS等统计软件中代码相同。但是,临床及流行病领域因果推论十分重要,二者命名区分就存在显著差异。小编将DAG绘图如下,解释cov与confounder与其他因果路径的区分。

2.1 cov仅仅与y相关,与x不相关

DAG示意图如下,这也是很多文献理论上展示的,但是并不全面。小编也同时举例了2个,孕妇身高、糖尿病因素作为唯一cov的案例。

2.2 cov任意链条

《药物临床试验协变量校正指导原则2020》协变量指在干预之前(通常是在随机化之前)观测到的,并且预期与主要研究结果有关联的变量。《药物真实世界研究设计与方案框架指导原则( 试行) 2023》重要协变量的确定应具备合理性,可结合各因素间的因果路径图确定,并综合考虑前期数据评估结果。在已确定的重要协变量中,建议在方案中明确协变量的属性,如效应修正因素、危险因素、混杂因素(包括时依混杂因素)、中间变量、碰撞变量、工具变量等。即使 PCT设计中采用随机分配策略,其主分析对协变量的考虑仍建议与观察性研究相同,因为在研究的实施过程中, PCT(特别是群随机 设计 )对基线均衡性的控制远不如 RCT严格。

显然,日常的rct,pct,cohort等干预、观察性研究的dag中cov的角色灵活多变。Cov可以在理论指导的情况下任意DAG因果链条上做为媒介,路径图是复杂且不确定,这也是研究争奇斗艳百家争鸣的原因了。

三、混杂因素

Group→y 因果链,混杂与group关联(关联≠因果关联),与y关联,不在因果链中间环,非研究目的因素。混杂3条件,1.必须是所研究疾病的独立危险因子,研究过程中常规地被收集起来的研究外变量,如年龄、性别等2.必须与研究因素(group+y)有关;3.一定不是研究因素与研究疾病因果链上的中间变量。

DAG(http://www.dagitty.net/)中混杂因素需要调整,最小充分调整集会依据严格定义的混杂进行建模因素推荐。按照前面所述,下图中的z均为cov,但是却不全为confounder。

四、小结

协变量在不同研究定义不同,协变量可以是因果链上除xy因素外的任意形式的变量。

DAG图非常重要,协变量 >> 混杂。

更多实战课程

2022年以来,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班,包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、结构方程模型、孟德尔随机化等10门课。如果您有需求,不妨点击查看: 含孟德尔随机化课程

推荐内容