回归分析的思维与运用 | 30天学会医学统计与SPSS公益课(Day18)

Day 18:回归分析的思维与运用
隶属第四章:现况调查的统计分析策略

Day 18 我们来进行现况调查的案例分析。除此之外,我们来消化一些陆陆续续有提供,但大家都是非常懵懂的东西。今天的文章,并不是技术性很强的东西,但是属于统计学重要性的思维方式。

差异与相关的联系

又题:实验性研究的差异 vs 观察性研究的相关

系列文章2-13讲,我基于实验性研究设计,介绍了如何开展数值变量资料和分类变量的数据分析。然后14-17开始介绍观察性研究中现况调查的统计策略。经典的实验性研究是随机对照试验,通过随机化实现组别之间的均衡可比,在这种情况下,基本统计学方法比如t、卡方检验便能够帮助我们证明干预措施的效果。然而,观察性研究是非干预性研究,比较的组别之间一般不会均衡可比,为此,往往需要借助复杂的统计学来达到研究目的。
从实验性研究的统计策略转换到观察性研究的统计策略前,我们需要了解医学统计分析的两个研究目的及其内在统一性,即差异性与相关性。实验性研究,往往讨论试验组和对照组的结局的差异性,而观察性研究往往探讨的是某一个因素是不是影响因素,自变量与因变量是否相关。
例如一项随机对照试验:吲达帕胺片治疗原发性高血压疗效,将患者随机分为两组。试验组用吲达帕胺片加辅助治疗,对照组用安慰剂加辅助治疗。试分析两组率有无统计学差异?

对于两组率的比较,基础统计学方法是卡方检验。结果表明卡方值8.399,P=0.004。两组人群的有效率存在着统计学差异。

差异代表什么?差异代表试验组相对对照组而言,疗效更好,数据存在着统计学的差距。同时各位需要明白,统计看似在探讨差异性,实则探讨客观世界的相关性,变量的相关性,甚至是因果相关性。
在本例,吲达帕胺组和对照组疗效有差异,那意味着处理因素(2分类变量)与有效性变量(2分类变量)的因果关系成立!
差异即相关。

认识统计学,要清楚知道差异性与相关性内在的统一性。无论我们采用何种统计学方法,其实都在探讨客观世界中变量与变量的相关性。千万不要认为只有相关分析与回归分析才探讨相关,更不要觉得只有相关分析才是分析相关性。
统计学分析的主要目标是发现真相,探索世界事物运行的规律,常规的方法包括假设检验、回归分析两大类。这些统计方法发现了何种真相,探索获得了哪些规律?总结来说,医学统计学期望在其它学科的共同努力下,阐释事物属性(变量)与属性(变量)之间的关系,特别是因果关系。

无论是利用假设检验方法评价差异性,还是利用回归技术探讨影响因素,统计学无不在证明两类属性或变量之间到底有没有关系,甚至是因果关系。
假设检验方法中,卡方检验是用来探讨组间差异性,t检验、F检验都是如此,其实它们都是在探讨变量和变量的关联性
相关与回归分析方法,其关联性研究的意图更为直接。相关分析主要探讨定量变量与定量变量的关联性强度,而回归分析则是单方向探讨原因变量对结局变量的影响程度。譬如,我们可以将人群的健康结局(治疗效果)作为结局变量,处理因素(是否服用吲达帕)作为原因变量,构建统计回归分析模型,探讨处理因素是否是一个影响因素。换言之,吲达帕胺片和对照组人群相比,其对治疗有效性的影响影响程度多大。
此处列举一下不同变量关联性的各种方法
对于实验性研究的随机对照研究来说,分组的均衡性意味着最最常规的假设方法(t、F、卡方、秩和检验)就能够探讨处理因素与研究结局的因果关联性。由于假设检验的天然属性,我们经常以差异性来表现结果。此时,差异即相关,相关即有因果,意味着干预变量与结局变量有因果关系。
对于观察性研究来说,回归分析是通常是必要的手段。由于它关注的焦点是影响及影响力大小,探讨的是原因变量对结局变量的函数关系。所以,观察性研究经常表现为相关性。实际上,观察性研究亦是在开展差异性的分析。比如回归系数一般必须要接受假设检验的考验,探讨的回归系数与0值是否存在着统计学差异。对于观察性研究,差异即相关,但这个相关属于统计学的关联,还未上升到因果关系的层面,证明有因果需要借助更复杂的策略。
总结来说,作为统计学两大分析方法,差异性的假设检验方法和关联性方法都从各自角度探讨变量与变量之间的关联性。在更多的场合下,结合医学科研设计方法,利用复杂的统计技术,在探讨医学措施、医学有关因素与健康结局的因果关系。统计学学习者一定要清醒认识到,当大部分的医学研究都在探讨因果关联性情况下,在你面临医学研究问题时,你的统计学方法可否有效排除干扰,严谨、科学地证实它们的因果关系呢?如果不能,研究结论必然不可信、不可靠、无说服力,也缺乏科学价值。

关联性方法的分类

差异即相关!

基本上我们所学的统计方法都是关联性方法。我们可以从两个角度进行分类。

第一种分类方法:

基本关联性方法和高级关联性方法

基本关联性或称基础统计学方法,包括t、F、卡方、秩和、相关分析方法,它们不涉及到建模;

高级关联性方法非常多,我们系列课程主要涉及的就是回归分析,回归分析方法又分为单因素回归和多因素回归方法。他们主要是采用数学建模的方法进行数据进一步分析。

第二种分类方法:

单因素关联性方法和多因素关联性方法

单因素关联性包括t、F、卡方、秩和、相关分析方法,也包括单因素回归分析,主要研究一个自变量与一个因变量或者一个原因变量和一个结果变量的关系。

单因素关联性方法中,t、F、卡方、秩和、相关分析与单因素线性回归、logistic回归和Cox回归等结果高度相似甚至相同。比如,我在day16推文举过例子,显示t检验和单因素线性回归结果是一致的。

高级关联性方法,在本课程中指的是多因素回归分析,一般研究多个自变量与一个因变量或者多个原因变量和一个结果变量的关系。

现况调查案例分析

大家还记得现况调查的主要目的吗?了解现状和探讨关联性。了解现状,主要是统计描述和总体参数置信区间估计;探讨关联性,则运用一系列的关联性的方法,从不同角度来组合分析暴露因素和结局的关联系。此关联性,往往是单因素关联和多因素关联性的结合。

因此,一般来说,现况调查统计分析原则是:


1



案例

我以下题目为例介绍现况调查的基本统计分析策略

本科实习护生患者安全感知现状与自主学习能力的相关性研究

陈圆圆,沈勤 & 孙君飞.(2018).本科实习护生患者安全感知与自主学习能力的相关性研究. 解放军护理杂志(24),6-10

研究目的:了解本科实习护生患者安全感知和自主学习能力现状,并分析两者的相关性。

抽样方式:整群随机抽样毕业实习的本科护理学生学生279名。

研究结局:护理生的患者安全感知。测量工具:H-PEPSS量表,量表总分为17个条目之和(0-85分),包括两个维度,得分越高表明护生对患者安全感知程度越高。

暴露因素:自主学习能力。测量工具:护理学专业学生自主学习能力量表,共28个条目,包括3个维度:自我管理能力(10个条目)、信息能力(11个条目)、学习合作能力(7个条目)(28-140分),得分越高表明护生自主学习能力越强。


2



案情分析

该研究作为抽样调查,研究目的包括了解总体人群现况和探讨暴露因素和结局的相关性(重点是相关性)。

关键的问题是研究结局是什么?暴露因素是是什么?数据是什么类型?

研究结局是患者安全感知,它是定量数据。暴露因素--自主学习能力,也是定量数据。因此,研究探讨的是定量数据与定量数据的相关性,甚至因果关系。


3



案例分析过程与结果

首先,描述样本特征、估计总体置信区间

279名护生护生患者安全感知总分71.42±10.91分(95%CI 70.14-72.71) ,各维度得分分别为组织环境相关感知维度41.9±6.60分(95%CI 41.12-42.27)、自身相关感知维度29.52±4.54分(95%CI 28.99-30.06)。

279名护生自主学习能力总分为87.17±7.57分(95%CI 86.22-88.06),各维度得分分别为信息能力34.6±4.05分(95%CI 34.13-35.08)、自我管理能力32.03±3.32 分(95%CI 31.63-32.42)、学习合作能力20.54±2.71分(95%CI 20.22-20.86)。

其次,进行简单关联性分析。本例简单关联性方法采用差异性的秩和检验和直线相关分析。

(1)探讨不同人群的差异性 不同人群的患者安全感知差异性比较。分组比较,定量数据,一般采用t检验、F检验或者秩和检验。本例作者采用均数和标准差描述,采用t检验和F检验进行差异性比较。

(2) 利用相关分析分析进行简单关联性分析。由于自主学习能力得分与患者安全感知得分均为定量数据,无法用差异性方法(比如:t检验针对一个二分类变量与一个定量数据的关联性进行分析)进行探讨,因此采用线性相关分析的方法探讨自主学习能力各维度得分与患者安全感知及各维度得分之间的关联性。

作者并未采用简单回归分析的方法探讨各个变量(性别、年龄、生源地、是否独生子女)与患者安全感知得分的关系,否则将与上表差异性分析结果重复。

最后,多因素回归分析

回归研究影响因素,最常见的方式是纳入差异性分析与关联性分析具有统计学意义的自变量开展多因素回归。因此,作者纳入了自主学习能力三个子维度和差异性分析中有统计学意义的变量(实习科室数量)作为自变量构建多因素线性回归模型,分析自主学习能力三个子维度对结果的影响。

结果发现,实习科室、信息能力、自我管理能力对患者安全感知的影响有统计学意义。

上述就是该论文的基本分析过程。最后提醒一句,我挑选本篇论文作为示例,并不是该文章研究设计与分析方法有多么优秀,而是其统计分析思路是现况调查常见的模式,值得拿来作为案例进行介绍。

特别注意

目前非常普遍的现象是,现况调查正在被不正确地应用。为此,我介绍几点注意事项:

1.以估计总体为主要目的的现况调查,必须强调抽样的代表性问题。现况调查在研究设计时,必须要采用合适的抽样调查,获得代表性的有样本。特别是估计总体的现况调查,如果缺乏科学的抽样,研究结论没有任何价值。所以,不推荐随意、随便调查来开展现况调查。

2.现况调查必须要有相应的样本量计算方式,以获得可靠的结论。本公众号写有现况调查样本量的计算方式,可见下方链接。

现况调查的样本量基本计算方法

3.在观察性研究中,多因素的研究结果,当某个自变量分析P<0.05时,一般我们被认为是影响因素,有些甚至是称之为危险因素或者保护因素。这两个问题要注意,第一,尽量不要说危险因素或者保护因素;第二,现况调查说影响因素,一定要谨慎。

4. 本案例的结局是定量数据,采用的回归方法是线性回归,但是当结局是二分类数据时候,大家要思考另外的回归方法。常见的回归方法是logistic回归,更聪明的做法是采用Poisson回归、log-binomial回归来开展分类数据的影响因素研究。

5.现况调查的因果关联性分析,往往是探索性的研究,结论侧重于相关而不是因果。现况调查经常地应用线性回归、logistic回归构建多因素回归,探讨影响因素。但诸位一定谨慎下“影响、因果”的结论。因为现况调查暴露因素与结局数据是同一个时间点调查获得,其因果关系很难理清。因此,现况调查一般结论侧重于说暴露因素与结局相关性,而不是因果关系。一般流行病学研究认为现况调查可以因果关系提供线索,但无法证明因果。建议诸位撰写现况调查论文,在讨论与结论指出“该研究为现况调查,研究因素与结论的关系是探索性的,其因果关系需要进一步通过前瞻性研究予以确认。”

6.是不是所有的现况调查的关联性都非常不可靠? 也不一定,我觉得主观心理作为健康结局的,现况调查的关联性研究的结论也可以认为存在一定的因果关系。原因在于,现况调查中主观心理调查(往往是量表)是即时的体现,在时间上和暴露因素往往存在着一定的前后,所以主观心理结局作为结局,其他暴露因素可以认为是一种原因。但是。。。。。。。如果暴露因素也是心理量表,那么结论又不是那么可靠了。哪个心理引起另外一个心理,还是需要从专业角度好好厘清才可以下结论。

(0)

相关推荐