常见基因数据分析方法有哪些呢(建议收藏)

数据挖掘是一门随着计算机科学发展而快速发展的学科,其在生命科学领域的作用随着大量测序 数据的累计而逐渐显现。

1 生存分析

生存分析是一类用于计算在一个集合内对于给定的时间段中影响因素与给定结果或时间事件之间 关联的统计学方法,该方法的特点是可以对时间事件进行分析,其中 Kaplan-Meier 生存分析和Cox 回归分析是两种最常用的时间事件标准化统计学方法。
Kaplan-Meier 生存分析可以基于一个影响因素对事 件进行分析,每个独立个体的时间范围由记录点开始一直延续至事件发生点。Cox 回归分析是一种多参数回归模型,该模型以生存结局和生存时间为因变量,可同时分析多种因素对生存期的影响。
spss进行生存分析的cox回归模型(比例风险模型)
在随机对照临床试验中,Kaplan-Meier 生存分析是首 选的数据分析方法。对于多影响因素事件,可选 用 Cox 回归分析。基于这两种分析方法的特点,在 基因数据分析中,Kaplan-Meier 多用于分析基因表 达与生存周期的关系,而 Cox 回归多用于分析预后 影响因素与生存周期的关系。

2 差异表达分析和聚类分析

差异表达是指同一基因在两个条件中的检测结 果在排除系统误差、人为误差等因素后具有较为明 显的差异,通常用 P 值来表示。这种差异可以通过 外显子测序、芯片筛选等方法检测。
比较同一基因在不同条件下的表达量差异是筛选潜在功能基因的第一步,通常由统计学工具辅助完成。常用的算法包括倍数法、t 检验法、方差分析、SAM 法、贝叶斯法和信息熵法等,这些统计学方法各有其优势和不足。
聚类分析在基因表达数据研究中被大量应用且在不断优化,它可以在模式分类数不确定的情况下对基因数据进行分组,其数学意义是将研究对象分为相对同质的群组。
从生物学的角度,这种方法就是将具有潜在相同作用的基因分为同一组,如对 一组肿瘤组织高表达基因可以假定其存在促肿瘤生长活性,对于一组低表达基因则可假定其存在抗肿瘤活性,或认为同一组基因可能受同一转录因子的调控等。
两个影响聚类分析结果的重要指标是评价研究 对象相似性程度的距离尺度和将研究对象分组的聚 类算法,其中距离尺度可以根据不同的筛选目的分为几何距离、线性相关系数和非线性相关系数 3 种,分别对应的是衡量样本间的相似性、衡量样本间是 否具有相同变化趋势和衡量样本间在同一时间节点的波动趋势是否相似。
而常用的聚类算法主要包括简单聚类、层次聚类、模糊聚类、k 均值聚类、双向聚类和自组织映射神经网络聚类等。对于聚类结果,一般选择对其进行可视化处理,使其更易于接受和直观的分析,常用的有热图(heatmap)、点线图和冰柱图等

3 受试者工作特征曲线分析

受 试 者 工 作 特 征 曲 线 分 析 (receiver operating characteristic, ROC) 最早起源于第二次世 界大战时期,最初用来降低雷达兵们的误报率和漏报率,现多用于临床疾病诊断临界点寻找、不同检 测方法对同一疾病的识别能力的比较、单一生物标 志物对疾病的诊断准确度和筛选对疾病发生发展有 显著影响的潜在基因
ROC 曲线是一条通过二分类方式拟合的非线性曲线,其纵坐标为敏感度,横坐标为(1-特异性),评价指标为曲线下面积(area under the curve, AUC)。与生存分析最大的不同点在于 ROC 曲线分析不考虑时间因素,且不需要将试验结果分为两类,因此一般不用于分析预后等时间相关事件。
ROC 曲线分析的优点是直观、简单,可用肉眼看出结果。而缺点是对临界点的寻找没有明确的限定,可能一定程度上影响数据分析结果。
在许多生物信 息学分类分析时,ROC 分析经常出现正相关显著低 于负相关的现象,因此研究人员对其进行了改进, 加入了精确率与反馈率曲线 (precision-recall, PR), 这一优化使正负分类结果相对平衡,已经在 R 语言 中实现了应用。对于不同条件间 ROC 比较,则需要 分别对其 AUC 进行处理,消除抽样误差带来的影响,常用的处理方法有 Delong 法和 Hanley 法。

4 Meta 分析

Meta 分析是一种对同类研究结果进行整合定量分析的统计学方法,其目的是通过整合多个已有的研究数据来增大样本含量,从而减少由随机误差所导致的数据差异,进而增大检验学效能。在临床研 究中常用于病因学、诊断性试验、发病机制、病人 费用和效益、流行病学、干预措施评价、随访和预 后测评等方面的分析。
一般的分析流程为提出研究问题、文献与资料收集、数据构建、Meta 分析和实验验证。其中文献与资料收集是影响 Meta 分析结果 的关键步骤,涉及到文献搜索策略和数据纳入排除 标准的建立。
一般来说,同一领域不同研究组之间的操作和研究方法会存在一定区别,进而带来一些人为误差。
这种差异被称为异质性,一般分为方法异质性、临 床异质性和统计学异质性。异质性检验是验证所构 建标准是否良好的常用方法。对于基因表达常用的芯片 Meta 分析,一般选用同一测序平台来源的数据 以避免测序方法对分析结果的干扰。
Meta 分析根据实际要求不同可以分为多种类型包括单组率 Meta 分析、网状 Meta 分析和诊断性 Meta 分析等,其具体分类依据在许多文章中都有报道过,因此不再叙述。

参考来源:Hereditas (Beijing) 2019 年 3 月, 41(3): 234―242 www.chinagene.cn

(0)

相关推荐