28个样本,4种不同分析方法的比较发了9分?
大家好,今天和大家分享的是2020年1月14日发表在Brief. Bioinformatics 上(IF=8.99)的一篇文章。作者对28例癌症患者的WES和RNA-seq数据,使用4种HLA分型工具(OptiType、Phlat、Polysolver和seq2hla)来预测HLA类Ia基因,接着分别用NGS技术与PCR-SBT方法获得的HLA分型数据进行比较,从而对其进行了性能评估。
Investigations of sequencing data and sample type on HLA class Ia typing with different computational tools
用不同的计算工具对HLA Ia类分型的测序数据和样本类型进行了研究
一、研究背景
人类白细胞抗原(HLA)可以编码人类主要组织相容性复合体(MHC)蛋白,在适应性和先天免疫中起着关键作用,因此,准确的HLA分型对于免疫治疗的临床应用至关重要。虽然HLA的血清学分型可以在短时间内给出粗略的结果,但它不能识别罕见或新的HLA等位基因;基于NGS的HLA分型方法也存在检测长度的局限性等。生物信息学算法的预测已经成为一种潜在的解决方案,因此,本文通过对4种广泛使用的HLA分型工具(OptiType、 Phlat、Polysolver和seq2hla)进行准确性比较,从而确定最佳分型方法。
二、研究流程
三、结果解读
1、HLA分型表现
以基于SMRT技术的PCR-SBT方法获得HLA基因分型数据作为标准,然后用NGS技术与分别采用FASTQ格式的WES和RNA-seq的原始数据预测的HLA分型数据进行比较,接着计算预测的准确性,计算公式为正确预测正确预测错误预测未能预测。结果显示,1)相比于RNA-seq数据,WES数据对HLA-Ia的分型更准确;2)OptiType对WES和RNA-seq数据的HLA-Ia类型的准确性最高,表明OptiType可能是HLA-Ia分型的最佳选择。
图1:HLA分型表现
移除28例样本中低表达的两例HLA基因的样本后,从RNA-seq数据中提取4位分辨率的 HLA分型的OptiType的准确性提高为98.72%,表明HLA基因的低表达可能降低HLA分型的准确性。
表1.不同方法下HLA分型的准确性
2、测序深度对准确性的影响
在不同的全外显子测序深度下,作者发现,基于WES数据,OptiType准确性不受影响, Phlat的准确性缓慢提高;Polysolver的准确性从>100x下的93.7%提高到94.62%, 但又在>300x时下降到92.16%,呈现先缓慢提高后降低的趋势。虽然捕获区域相似,但这些变化可能是由于DNA片段化和扩增等测序过程中的随机性引起的 HLA基因区域的不均匀覆盖所致。
接着,作者评估了HLA基因组测序深度对HLA分型准确性的影响。发现,当OptiType达到20x,Polysolver 达到100x,Phlat达到200x,HLA分型准确性分别可为100%;但phlat和polysolver的准确性波动较大。因此,当HLA基因组测序深度>20x时,可作为OptiType HLA分型的质量控制指标。
图2:测序深度对准确性的影响
3、不同样本类型和计算机模拟后的准确性比较
将来自肿瘤组织和对照PBMC样本的WES数据的HLA 分型准确性比较(图a ),发现正常PBMC样本的准确性结果大多高于肿瘤组织。因此,建议最好使用正常样本进行HLA分型。
在计算机模拟中(图b),随着读取HLA基因区域的减少,OptiType的分型错误增加。这可能是由于未检测到的HLA等位基因的缺失信号和与检测到的HLA等位基因信号的干扰噪声所致。虽然出现分型错误,但正常样本HLA 分型的准确性仍高于肿瘤组织。
图3:不同样本类型和计算机模拟后的准确性比较
小结
本篇文章的研究思路和过程较为简单,作者对28例癌症患者进行FFPE肿瘤组织和匹配正常样本的全外显子测序和肿瘤样本的RNA测序。使用Fastp对原始测序数据进行质量控制后,用OptiType、Phlat、Polysolver对WES数据执行HLA分型,用OptiType、Phlat和seq2hla对RNA-seq数据执行HLA分型,分别与基于SMRT技术的PCR-SBT方法获得HLA基因分型数据进行比较和准确性评估,从而对分型工具进行了性能评价,最终确定了潜在的最优HLA分型方法工具和可能适合HLA分型方法的测序数据。