肘关节相关临床评分系统应用于肘关节功能障碍的现状和展望

作者:孙子洋、王伟、刘文军、范存义

来源:中华创伤骨科杂志, 2018,20(10)

肘关节是一个复杂的铰链式关节,由肱尺关节、肱桡关节和桡尺近侧关节组成,其屈伸及前臂旋转功能对于维持手的空间位置起着至关重要的作用。肘部创伤、滑膜形成、退行性病变及先天性畸形都可导致肘关节活动受限和慢性疼痛。Morrey等[1]发现,当肘关节屈伸活动达到100°(伸直30°~屈曲130°)范围,前臂旋转达到100°(旋前50°~旋后50°)范围即可满足日常生活90%的需求。随着科技的发展,人们对于高科技产品的依赖增强,如接手机、敲击键盘等,现代日常生活中所必需的肘关节功能范围比过去定义的要更大些(伸直23°~屈曲142°,旋前65°~旋后77°)[2];对于一些特殊职业要求的患者,即使满足了这一标准也不能完成其职业所需的动作时,同样也会要求功能改善。因此,过去被广泛接受的肘关节功能障碍的定义(伸直受限>30°,屈曲角度< 120°,伴或不伴有旋转功能受限[3])已经不太适用于当今社会了。我们认为当肘关节屈伸或前臂旋转活动范围不能满足患者娱乐、工作和日常生活的需要时即可诊断为肘关节功能障碍。

临床评分系统是目前评价骨科患者功能和生活质量最有效的工具,是对临床评估项目的量化评价,主要用于评价患者功能障碍的严重程度,分析治疗效果,比较不同治疗方法之间的优劣[4,5]。现有与肘关节相关的临床评分系统有Mayo肘关节功能评分(Mayo elbow performance score, MEPS)、上肢功能评分(disability of arm, shoulder and hand questionnaire, DASH)及牛津肘关节功能评分(Oxford elbow score, OES)等。本文就现阶段常用的肘关节评分系统作一综述,并对这些评分系统在评价肘关节功能障碍患者时存在的不足,以及如何制定理想的专门用于肘关节功能障碍患者的评分系统的要素作一讨论。

一、常用肘关节功能评分系统的简介

现有肘关节功能评分系统从问卷的形式来看,可分为基于患者问卷形式的主观评分系统、基于医生的客观评分系统,以及基于医患双方的主客观综合评分系统。其中的问题从评分工具来看,可使用单项选择法,也可使用视觉模拟法(visual analogue scale, VAS)。

(一)基于医患双方的主客观评分系统

1.美国肩肘外科协会评分(American shoulder and elbow surgeons-elbow, ASES-E)分为两个部分:

一个是包含19个问题的患者自评部分,用于评估患者肘关节疼痛、功能和对手术的满意程度;另一个是包含38个问题的医生完成部分,用于评估患者肘关节屈伸和旋转活动度、肌力和稳定性[6]。其中疼痛所占比值最大,为57%。采用VAS询问患者肘关节最痛时、休息时、搬重物时、重复动作时以及夜间疼痛的程度。生活功能概括了11个日常生活中的活动项目,包括穿衣服、梳头、如厕等。采用五级徒手肌力检测方法对肘关节屈伸、旋转肌力和握力进行评估。患者得分越高代表肘关节功能越好。

2.Liverpool肘关节评分(Liverpool elbow score,LES)包括两个部分:

一个是包含6个问题的医生完成部分,用于评估患者肘关节屈伸和旋转活动度,肌力以及尺神经症状;另一个是包含9个问题的患者回答部分,用于评估患者肘关节疼痛、日常生活以及娱体活动的能力[7]。每个问题都使用的是一个Likert五级量表,患者得分越高代表肘关节功能越好。

(二)基于医生的客观评分系统

1.MEPS是目前最常用的肘关节评分系统,包括医生评估的肘关节疼痛(45%)、屈伸活动度(20%)和稳定性(10%),以及5个日常生活中的活动项目(25%),即梳头、吃饭、个人卫生、穿衣及穿鞋。其中使用单项选择法对患者疼痛进行评估。患者得分越高代表肘关节功能越好,并可以分为4个等级,即优秀(90~100分)、良好(75~89分)、及格(60~74分)和差(0~59分)。

2.Broberg肘关节等级系统(Broberg and Morrey rating system, BMS)是根据临床数据、作者观点和生物力学实验总结而成,包括医生评估的肘关节屈伸和旋转活动度(40%)、肌力(20%)、稳定性(5%)和疼痛(35%)[9]。采用肌力测定仪数字化肌力的评估,使用单项选择法评估患者疼痛的程度。患者得分越高代表功能越好,也可分为4个等级,即优秀(95~100分)、良好(80~94分)、及格(60~79分)和差(0~59分)。

3.纽约特种外科医院肘关节评分系统(hospital for special surgery assessment scale, HSS)共包括8部分:疼痛(30%)、上肢功能(20%)、肌力(10%)、矢状面活动范围(20%)、屈伸和旋转活动度(20%)[10]。采用单项选择法评估患者休息时以及肘关节弯曲时的疼痛程度,肌力则为对特定重量物体的承受力。患者得分越高代表功能越好,可分为5个等级,优秀(90~100分)、良好(80~89分)、及格(70~79分)、差(60~69分)和失败(0~60分)。

(三)基于患者的主观评分系统

1.DASH是一个广泛应用的标准化的上肢功能评估问卷,共包括3个部分:核心部分包含30个问题,用于评估患者上肢功能(23个问题)和症状(7个问题),其中症状包括对疼痛(休息时、活动时和睡眠时)、肌力、僵硬等的评估;第二和第三部分为选择性,各包含4个问题,用于评估患者从事娱体活动或日常工作的能力[11]。每个问题都使用的是一个Likert五级量表,低分代表低程度的障碍,患者得分越高意味着上肢功能障碍越严重。此外,为了缩短回答问卷的时间和减轻随访的负担,Beaton于2005年改进并设计了Quick-DASH评分,共包含11个题目。Quick-DASH和DASH之间的相关性非常好(r>0.97)[12]

2.OES是一个包含12个题目的肘关节评分系统,可分为3个不同的维度:疼痛、肘关节功能以及患者生活质量,每个维度包含4个题目。问卷询问患者肘关节最痛时、通常时、睡眠时和活动时疼痛的程度,并通过评估患者洗淋浴、穿衣等衡量肘关节功能[13]。每个问题都使用的是一个Likert五级量表,患者得分越低意味着上肢功能障碍越严重。

3.患者自评肘关节评分(patient-rated elbow evaluation, PREE)包括两个部分,用于评估患者肘关节疼痛和生活功能,每个问题均采用10分的视觉模拟法评分,分数越高代表功能越差[14]。其中疼痛共5个题目,内容和ASES-E相似。用于生活功能量表概括了11个特殊的日常生活活动项目,包括梳头、吃饭、打电话等,以及另外4个日常活动(个人卫生、家务事、职业和娱乐活动)。

二、现有评分系统评价肘关节功能障碍患者关节功能时存在的不足

(一)单纯的患者主观自评或医生客观检查的评价方式

由于经济优势、逻辑性强,并且减少了医生单独评价时的观察者偏倚,患者主观评价问卷在评价骨科患者功能时越来越受到欢迎[15]。然而单独的主观问卷,对患者的活动能力及症状的评估有时并不完全,且有些题目很冗长,或者与所需评价的指标无关[16,17]。比如对神经症状、肌力和关节稳定性的评估就不能通过主观问卷。在现有的肘关节相关评分系统中,单纯主观问卷如OES和PREE在对患者症状评估时,只评估了疼痛,且单纯使用VAS评分评价患者疼痛,显得非常主观。而单纯医生客观的评分系统如BMS和HSS只通过使用肘关节客观的活动度来评估患者的肘关节活动能力;MEPS也只评估了患者的肘关节屈伸活动度,忽略了前臂旋转能力。一些研究[18]也发现,由于患者不同的社会背景以及对手术的期望值等,对功能评价的客观值有时和患者的满意度并不相关。

一个完善的评分系统应尽可能地详细、客观,以求全面反应整个关节功能情况,同时又要包括患者主观评价内容。但这样的评分系统难免包含过多的评测项目,使得整个评分工作过于复杂、可操作性差(如ASES-E)。简单的纯问卷式评分系统操作方便,但却无法全面评价肘关节功能,获得客观数据(如OES)。如何分配评分系统中患者主观评价与医生客观评价的权重,如何权衡评分系统的全面性和使用中的可操作性,是制定一个有效的评分系统必须考虑的问题。

(二)疼痛占据大量比重

疼痛对肘关节功能和患者生活质量的评估影响很大[19],已有的与肘关节相关的评分系统中对疼痛的评估都占了很大的比重,从30%~50%不等[4]。临床发现,肘关节功能障碍患者关心最多的是关节活动能力的改善,而不是疼痛的减轻。此外,由于患者的心理和社会因素会对疼痛的感觉产生重要的影响,患者对疼痛的表达应该单独于医生评估的客观部分,如MEPS和BMS只对患者的疼痛做了客观的评估,这样并不能完全衡量患者疼痛的程度以及敏感地发现它们的变化[20]。上肢功能评分表和OES中疼痛维度已经被证明为和患者的疼痛程度及健康状况存在着非常强的相关性[13,21,22],而LES中只使用了一个Likert五级量表评估疼痛,只占总分7%,这样不妥。

(三)缺乏对神经症状的评价

迟发尺神经病变是肘关节创伤后或关节病变后常见并发症[23],肘部手术也有损伤该部位神经和血管的风险,这些都说明了在肘关节手术前后评价尺神经功能的重要性[24,25,26]。遗憾的是,只有DASH和OES对尺神经功能进行了评价。

(四)肌力评价方式的不统一

肌力的减退也常常出现在肘关节创伤和手术之后,这在多个评分系统中已经涉及。长时间的肌肉废用性萎缩以及术中对肌肉的分离和切开都有可能导致肌力减退[27,28]。对于肌力的评估,ASES-E、LES等使用徒手肌力检查,BMS则使用肌力测定仪测定,并评估患侧与健侧肌力的比值。Shahgholi等[29]发现就算是经验丰富的医生,使用五级徒手肌力检查正常的患者,若使用数字化测试,有一半以上的患者比正常人缺失了42%的肌力。从而有学者[30]提倡使用手持型肌力测定仪进行肌力评估,既客观又敏感度强、可信度高。但是徒手肌力检查更方便应用于临床,同时可以避免肌力测量仪带来的是否为优势手和如何定义异常肌力值等问题。

(五)稳定性的评价

LES评分认为肘关节不稳定是一个不常见症状,所以将不稳定这个症状从系统中排除掉了。事实上,肘关节不稳定可以提示患者侧副韧带的损伤或者相关稳定结构因素的异常,因此对手术方案的选择以及术后康复有指导意义[31]

(六)缺乏患者满意度指标

一些研究[32]发现,由于患者满意度常受患者术前期望值的影响,功能评价的客观值有时和患者的满意度并不相关。例如,对于障碍时间很长的严重肘关节功能障碍患者,虽然可能通过手术并不能完全恢复到正常的肘关节功能,但他们中有些人还是对有所改善的功能非常满意;而对于那些术前轻度功能障碍或者期望值很高的患者,就算功能恢复了很多,但有些患者仍会对手术效果不满意。2012年新建立的新版膝关节评分系统(the new knee society scoring system, KSS)认为将患者满意度纳入评价能够平衡医生和患者各自评价时存在的偏倚,更能反映真实结果[33]

(七)缺乏评分系统的验证

The等[34]报道OES是目前唯一一个使用高质量统计学方法(信度、效度和敏感度)验证有效的肘关节特异性评分系统。DASH也有着非常好的结构效度,可以敏感地发现并且区分出上肢术前术后功能变化,从而有效地测量各类上肢功能障碍患者的健康情况[12,16]。但是DASH的独特之处在于不管是患者的哪个手或是前臂去完成,代表的是两个上肢综合性的能力,这样不适合应用于肘关节功能障碍患者。需要注意的是,一个已经被验证有效的评分系统可能并不适用于另一个人群,因此,已发表的评分系统应用于肘关节功能障碍患者时,必须再次进行验证。Sun和Fan等[35]发现LES在应用于评价肘关节功能障碍患者关节功能时,有良好的效度,但是其对肘关节相关症状评价只有中等程度的敏感度。由于是一项回顾性研究,无法测量LES的信度。遗憾的是,对于肘关节功能障碍患者这一特殊人群,还没有其他相关评分系统验证性的报道。

三、制定理想肘关节功能评分系统的要素

(一)针对肘关节功能障碍患者的特异性评分系统的建立

肘关节病患考虑最多的是肘关节的活动能力和相关症状。现有与肘关节相关的临床评分系统都侧重于评价这两点,但是对疼痛的评估占了太大的比重。另外,对神经功能和患者满意度的评估却极少涉及;对肌力、关节稳定性和畸形的评估方式也各有不同[4,5]。事实上,我们通过临床观察发现,肘关节功能障碍患者最主要考虑的是活动度的改善,而不是疼痛的缓解;神经症状(尤其是尺神经)、肌力减退及关节不稳定等症状也常常会出现于肘关节创伤或相关手术之后[23]。因此,对肘关节功能障碍患者的评价除了活动能力外,肘关节疼痛、尺神经功能、稳定性、肌力及患者满意度等5个方面的评价也是非常重要的。

WHO在2008年提出评分系统在评估患者健康与疾病状态时需要具备三点:①医生评估的躯体功能和症状;②患者自评的活动能力和感觉;③对患者生活质量的反映[36]。因此,我们认为可以将新的肘关节功能障碍评分系统分成3个维度:肘关节活动能力维度(反映患者的肘关节活动能力和活动对生活质量的影响)、肘关节相关症状维度(反映患者的肘关节相关症状和症状对生活质量的影响)和患者满意度维度。其中,根据临床经验[37],肘关节功能障碍患者考虑更多的是肘关节完成日常动作的能力,而不是肘关节活动增加的绝对值。因此,我们认为对活动能力进行评价时最好选用基于患者的问卷形式。此外,由于疼痛的表达严重受心理和社会因素的影响[20],患者的疼痛和满意度也选用基于患者的问卷形式。而神经症状、肘关节稳定性和肌力的评价由医生客观完成。新系统各维度的赋值,比较合理的应当是:①肘关节活动维度赋值约占总分一半,和症状相关维度总分的比值约为1∶1;②症状维度中,疼痛和尺神经症状赋值赋相近,并大于关节稳定性和肌力的赋值。

(二)针对肘关节功能障碍患者的特异性评分系统的验证

完整地验证一个新评分系统的可行性需要评估天花板和地板效应、信度(包括可重复性和内部一致性)、效度(最主要的是结构效度)以及敏感度等[38,39]

1.天花板和地板效应:

天花板和地板效应是表示问卷是否能充分满足变量范围的,如果存在较高的最高或最低得分比例,则问卷可能存在不充分的问题。通过统计总分及各维度得分的最高分和最低分患者的数量和比例来分析天花板和地板效应。如果存在较高(>15%)的最高或最低得分比例,则新评分系统存在天花板和地板效应[40]

2.信度:

信度包括可重复信度和内部一致信度。可重复性信度是反映评分系统内部稳定性的指标,在相同条件下相同患者的得分在重复测量中重合的程度,存在较高的重复性信度表示系统稳定;内部一致性信度是指用来测量同一个概念的多个计量指标的一致性程度。通过计算组内相关系数和克朗巴赫α系数来评估新评分系统的可重复信度和内部一致性信度。在目前的文献[38]中,缺少统一的重新测试评估的最佳时间。在大多数情况下,认为比较合适的时间段是1~2周。如果组内相关系数大于0.7以及克朗巴赫α系数大于0.7,说明新评分系统具有非常高的可重复性信度和好的内部一致性信度[38]

3.效度:

结构效度是评估评分系统的有效性程度,是指一个测量工具实际测到的内容与所要测量的内容之间的吻合程度。较常用的分析方法是与已知良好评分系统的相关分析方法。目前还没有已建立的'金标准'用来比较肘关节评分系统之间的结构效度,而是通过分析术前和最后随访时患者各个维度的各自得分与已经报道结构效度很好的评分系统相似维度得分之间的相关性分析结构效度。如果Spearman相关系数值>0.5,则具有很强的相关性;如果在0.30~0.55之间,则为中等强度的相关性;如果值< 0.35,则为弱相关[41]

4.敏感度:

敏感度是反映评分系统变化反应性的指标,代表系统反映变化的能力,可以通过对比术前和术后评分,分析系统是否对手术的干预产生足够的反应。由于目前还没有计算敏感度方法的'金标准',通常通过计算基于分布的方法来分析敏感度:效应量[42]和标准反应均数[43]。计算方法:

效应量和标准反应均数的值越大,则表明敏感度越高:如果值在0.2~0.5之间,则为低的敏感度;如果值在0.5~0.8之间,则为中等敏感度;如果值>0.8,则为高的敏感度[44]

四、展望

迄今为止还未有一个已经被验证有效的专门用于肘关节功能障碍的评分系统,而现有的常用评分系统又或多或少不适用于肘关节功能障碍患者,因此,制定一个理想的专门用于肘关节功能障碍患者的评分系统是十分有必要的,对肘关节功能障碍疾病有着十分重大的临床意义。

根据肘关节功能障碍疾病的特殊性,可以参照现有常用的评分系统,提炼有效的评分指标,增加新的评分元素,完善优化评分体系,制定一个新的评分系统。通过评估该系统的信度、效度和敏感度,来验证其有效性。这些都是不难实现的。

参考文献:略

(0)

相关推荐