回归分析的思维与运用 | 30天学会医学统计与SPSS公益课(Day18)
差异与相关的联系
又题:实验性研究的差异 vs 观察性研究的相关
关联性方法的分类
差异即相关!
基本上我们所学的统计方法都是关联性方法。我们可以从两个角度进行分类。
第一种分类方法:
基本关联性方法和高级关联性方法
基本关联性或称基础统计学方法,包括t、F、卡方、秩和、相关分析方法,它们不涉及到建模;
高级关联性方法非常多,我们系列课程主要涉及的就是回归分析,回归分析方法又分为单因素回归和多因素回归方法。他们主要是采用数学建模的方法进行数据进一步分析。
第二种分类方法:
单因素关联性方法和多因素关联性方法
单因素关联性或称基础统计学方法,包括t、F、卡方、秩和、相关分析方法,也包括单因素回归分析,主要研究一个自变量与一个因变量或者一个原因变量和一个结果变量的关系。
单因素关联性方法中,t、F、卡方、秩和、相关分析与单因素线性回归、logistic回归和Cox回归等结果高度相似甚至相同。
高级关联性方法,在我们课程中指的是多因素回归分析,一般研究多个自变量与一个因变量或者多个原因变量和一个结果变量的关系。
现况调查案例分析
大家还记得现况调查的主要目的吗?了解现状和探讨关联性。了解现状,主要是统计描述和总体参数置信区间估计;探讨关联性,那么是运用一系列的关联性的方法,从不同角度来组合分析暴露因素和结局的关联系,这个关联性,往往是单因素关联和多因素关联性的结合。
因此,一般来说,现况调查统计分析原则是:
案例
我以下题目为例介绍现况调查的基本统计分析策略
本科实习护生患者安全感知现状与自主学习能力的相关性研究
陈圆圆,沈勤 & 孙君飞.(2018).本科实习护生患者安全感知与自主学习能力的相关性研究. 解放军护理杂志(24),6-10
研究目的:了解本科实习护生患者安全感知和自主学习能力现状,并分析两者的相关性。
抽样方式:整群随机抽样毕业实习的本科护理学生学生279名。
研究结局:护理生的患者安全感知。测量工具:H-PEPSS量表,量表总分为17个条目之和(0-85分),包括两个维度,得分越高表明护生对患者安全感知程度越高。
暴露因素:自主学习能力。测量工具:护理学专业学生自主学习能力量表,共28个条目,包括3个维度:自我管理能力(10个条目)、信息能力(11个条目)、学习合作能力(7个条目)(28-140分),得分越高表明护生自主学习能力越强。
案情分析
该研究作为抽样调查,研究目的包括了解总体人群现况和探讨暴露因素和结局的相关性(重点是相关性)。
关键的问题是研究结局是什么?暴露因素是是什么?数据是什么类型?
研究结局是患者安全感知,它是定量数据。暴露因素--自主学习能力,也是定量数据。因此,研究探讨的是定量数据与定量数据的相关性,甚至因果关系。
案例分析过程与结果
首先,描述样本特征、估计总体置信区间
279名护生护生患者安全感知总分71.42±10.91分(95%CI 70.14-72.71) ,各维度得分分别为组织环境相关感知维度41.9±6.60分(95%CI 41.12-42.27)、自身相关感知维度29.52±4.54分(95%CI 28.99-30.06)。
279名护生自主学习能力总分为87.17±7.57分(95%CI 86.22-88.06),各维度得分分别为信息能力34.6±4.05分(95%CI 34.13-35.08)、自我管理能力32.03±3.32 分(95%CI 31.63-32.42)、学习合作能力20.54±2.71分(95%CI 20.22-20.86)。
其次,进行简单关联性分析。本例简单关联性方法采用差异性的秩和检验和直线相关分析。
(1)探讨不同人群的差异性 不同人群的患者安全感知差异性比较。分组比较,定量数据,一般采用t检验、F检验或者秩和检验。由于数据偏态分布,因此采用秩和检验。
注意:作者采用均数和标准差描述,采用秩和检验进行差异性比较,是不太妥当地方。
作者额外还开展了自主学习能力均分与全国及东部地区护理专业学生常模均分的比较。
(2) 利用相关分析分析进行简单关联性分析。由于自主学习能力得分与患者安全感知得分均为定量数据,无法用差异性方法进行探讨,因此采用线性相关分析的方法探讨自主学习能力各维度得分与患者安全感知及各维度得分之间的关联性。
作者并未采用简单回归分析的方法探讨各个变量(性别、年龄、生源地、是否独生子女)与患者安全感知得分的关系,否则将与上表差异性分析结果重复。
最后,多因素回归分析
回归研究影响因素,最常见的方式是纳入差异性分析与关联性分析具有统计学意义的自变量开展多因素回归。因此,作者纳入了自主学习能力三个子维度和差异性分析中有统计学意义的变量(实习科室数量)作为自变量构建多因素线性回归模型,分析自主学习能力三个子维度对结果的影响。
结果发现,实习科室、信息能力、自我管理能力对患者安全感知的影响有统计学意义。
上述就是该论文的基本分析过程。最后提醒一句,我挑选本篇论文作为示例,并不是该文章研究设计与分析方法有多么优秀,而是其统计分析思路是现况调查常见的模式,值得拿来作为案例进行介绍。
特别注意
目前非常普遍的现象是,现况调查正在被不正确地应用。为此,我介绍几点注意事项:
1.以估计总体为主要目的的现况调查,必须强调抽样的代表性问题。现况调查在研究设计时,必须要采用合适的抽样调查,获得代表性的有样本。特别是估计总体的现况调查,如果缺乏科学的抽样,研究结论没有任何价值。所以,不推荐随意、随便调查来开展现况调查。
2.现况调查必须要有相应的样本量计算方式,以获得可靠的结论。本公众号将与近期推出现况调查样本量的计算方式,欢迎关注。
3.在观察性研究中,多因素的研究结果,当某个自变量分析P<0.05时,一般我们被认为是影响因素,有些甚至是称之为危险因素或者保护因素。这两个问题要注意,第一,尽量不要说危险因素或者保护因素;第二,现况调查说是影响因素,一定要谨慎。
4. 本案例的结局是定量数据,采用的回归方法是线性回归,但是当结局是二分类数据时候,大家要思考另外的回归方法。常见的回归方法是logistic回归,更聪明的做法是采用Poisson回归、log-binomial回归来开展分类数据的影响因素研究。
5.现况调查的因果关联性分析,往往是探索性的研究,结论侧重于相关而不是因果。现况调查经常地应用线性回归、logistic回归构建多因素回归,探讨影响因素。但诸位一定谨慎下“影响、因果”的结论。因为现况调查暴露因素与结局数据是同一个时间点调查获得,其因果关系很难理清。因此,现况调查一般结论侧重于说暴露因素与结局相关性,而不是因果关系。一般流行病学研究认为现况调查可以因果关系提供线索,但无法证明因果。建议诸位撰写现况调查论文,在讨论与结论指出“该研究为现况调查,研究因素与结论的关系是探索性的,其因果关系需要进一步通过前瞻性研究予以确认。”
6.是不是所有的现况调查的关联性都非常不可靠? 也不一定,我觉得主观心理作为健康结局的,现况调查的关联性研究的结论也可以认为存在一定的因果关系。原因在于,现况调查中主观心理调查(往往是量表)是即时的体现,在时间上和暴露因素往往存在着一定的前后,所以主观心理结局作为结局,其他暴露因素可以认为是一种原因。但是。。。。。。。如果暴露因素也是心理量表,那么结论又不是那么可靠了。哪个心理引起另外一个心理,还是需要从专业角度好好厘清才可以下结论。
-本讲结束-