这篇11分文章还留了个宝藏给你

An atlas of the aging lung mapped by single cell transcriptomics and deep tissue proteomics

联合单细胞转录组和蛋白质组学技术绘制小鼠肺的衰老图谱

一. 文章背景

随着年龄的增长,也就是老化,肺功能将会衰退,易感于慢性肺疾病。而衰老又是一个多因素的过程,受到细胞内外因素的影响。又因肺包含了大约至少40种不同类型的细胞,但是在细胞类型水平上,衰老的效应还没有被系统的研究过。因此作者使用单细胞转录组技术以及基于质谱的蛋白质组学技术去量化30多种类型细胞的细胞活性状态的改变并记录young小鼠和old小鼠肺部的一个蛋白质谱数据。

二. 文章思路

三. 结果解读

1. 小鼠肺的老化图谱揭露转录控制的失调
  • F1A单细胞流程:作者实验用的样本是Pathogen-free C57BL/6 mice小鼠,一组为3个月大young 小鼠(n=8),一组为24个月大old小鼠(n=7)。作者取小鼠肺组织制作单细胞悬液100cells/ul,用Dropseq平台捕获肺组织单细胞,之后经标记,逆转录,PCR扩增文库后使用Illumina HiSeq4000去高通量测序得到scRNA-seq数据,比对到mm10参考基因组上。接下来对scRNA-seq数据的分析用的是Seruat包。

图F1A. 单细胞实验的实验设计

  • S1A-C质量控制:得到scRNA-seq数据后需要进行质量控制。针对细胞的过滤,作者根据每个样本前1200个UMI总数最多的细胞中的基因,去掉了每个样本中测到基因数少于200个的细胞。有些样本由于测序深度原因,对根据的细胞数做了调整(比1200少)。而图中A-C分别是对各样本中各细胞检测到的基因数(A),UMI数(B),总reads数,reads对比到参考基因组上的比例,平均reads长度的比较(C)。对离群点进行过滤并确定了各样本细胞间是可以比较的。一共14813个细胞(young:7672,old:7141)在质量控制之后被保留,然后合并成表达矩阵,NormalizeData() and ScaleData() 函数用于矩阵的标准化。

图S1A-C. 质量控制结果

  • F1B:TSNE聚类可视化:用Seurat包中的方法选出各个鼠样本细胞间表达量高变的基因。其中,在超过4只老鼠样本中出现的高变基因被认为是一致的高变基因。为了最小化细胞周期对聚类的影响,作者从一致的高变基因中去掉了细胞周期基因,剩下的一致的高变基因就作为了特征基因集。特征基因集用于独立成分分析(RunICA()),前30个主成分用于tSNE算法聚类可视化(RunTSNE() and FindClusters())。图B是TSNE可视化后的结果,14813个细胞被分成了36个类别。

  • F1C根据标志基因注释:通过提取出各个类别中的标志基因(FindAllMarkers()),作者发现把36个聚类注释到了30种不同的细胞类型(结合文献已知的细胞标志基因以及ImmGen和xCell数据库富集分析结果)。图中横坐标是标志基因,纵坐标是细胞名称。点的大小表示表达该基因的细胞百分比,点的颜色深度表示该基因在细胞中的平均表达量。细胞名称颜色相近的表示它们的基因表达谱相似(根据右侧聚类结果)。

  • 值得一提的是作者发现自己的scRNA-seq数据存在ambient mRNA现象。现在认为是在单细胞捕获过程中,死亡细胞释放出的free mRNA与滴液中的磁珠杂交引起的。像是基因Scgb1a1就是一个例子(F1C),可看到它在所有类型的细胞中都有表达,但只有在应该高表达的克拉拉细胞核杯状细胞中高表达,暗示其他细胞中该基因的mRNA属于一种背景噪音。作者通过观察每个细胞总UMI计数分布末端磁珠上基因的一致性找出了153个基因存在这种现象。

图F1B-C.TSNE分析以及类别的注释

  • S1D-E:各个细胞类型(D,30个),以及聚类(E,36个)中的细胞组成大都来自于多个小鼠样本,而且大多数聚类的细胞来自于超过70%的两个年龄组的小鼠。此外作者计算聚类的轮廓系数(Silhouette coeffificient)为-0.074。

  • S1F:细胞类型的定义在old和young组小鼠之间非常相似。

以下这些图说明聚类的效果比较好,小鼠样本差异以及衰老对细胞定以带来的影响不大。但是有两个聚类的细胞几乎都来自一个样本,所以作者在下游分析时把它们去掉了。

图S1D-F. 聚类结果可靠性分析

利用用MCA(Mouse Cell Atlas)中的小鼠肺部和外周血细胞数据去检验自己识别的细胞是小鼠肺组织种的细胞

  • S2A:作者使用matchSCore工具(科学上网后可找到)去比较了自己识别的30种细胞和MCA(Mouse Cell Atlas)中小鼠肺部细胞的数据,有很高的匹配度。基本上每种细胞能在MCA肺部细胞中找到对应的细胞。

  • S2B:比较MCA小鼠肺部的细胞和MCA小鼠外周血细胞间的匹配度,匹配度并不是很高。

  • S2C:作者自己数据识别的30种细胞中红细胞和MCA小鼠外周血中的Erythroblast_Hbb-a2_high细胞匹配度很高。说明作者的分离的小鼠肺部单细胞中有外周血中的红细胞污染。

图S2. 与MCA比较验证肺细胞的识别

  • S3A-B:类别2(图中圈出,注释为Mki67+ proliferating cell)中的细胞是高表达S期(A)和G2M期(B)特征基因的。

  • S3C:在young组小鼠样本中,有更多的细胞属于高表达细胞周期特征基因的类别2。

  • S3D-E:单独对类别2中的细胞根据细胞周期标志基因进行PCA分析(D),明显被分成三类,并标上了各自属于的细胞周期。在移除细胞周期标志基因的影响后,三类细胞又混合在一起。

  • S3F-I:单独对类别2的细胞进行Louvain聚类,发现被分成了3群(F)。TSNE根据细胞周期标志基因的表达量给细胞上色。G-I的标志基因以及对应的细胞分别是T cells(Trbc2),AT2 cells(Sftpd),Alveolar macrophages(Ear2)。

由S3C中的结果可知old组小鼠中这三类细胞的增殖能力可能下降

图S3. 细胞周期分析揭露old组小鼠肺组织细胞增殖活性降低

以上Figure是获取scRNA-seq数据,质量控制,聚类注释可视化,观察样本差异和衰老对细胞定义的影响,检验得到的细胞类型的准确性的结果。且在副图S3中研究了衰老对小鼠肺组织中某高表达细胞周期特征基因的细胞群的影响。下面正文的Figure2研究衰老对小鼠肺组织中不同类细胞内转录噪音的影响。

转录噪音的计算:首先,针对每种有10个以上old和young组样本细胞的细胞类型(n=28),作者通过抽样保证每种类型细胞内,细胞的UMI总数相等,以及该类型细胞内old和yoong组的细胞一样多。基于该类型细胞内所有基因的平均表达值,把基因均分成10份并去掉最大和最小的那份。在剩下的8份种,变异系数最低的10%基因被抽出来。保留它们的count数据并进行平方根转换,用于计算转录噪音,作者采用两种方法:

  1. 在每个年龄组内,计算每种细胞类型中细胞间的欧氏距离,以及该细胞类型内的平均距离。这个欧式距离作为细胞内转录噪音的度量,在两组样本间进行比较。此外,作者对两类样本中,样本的各细胞类型平均欧氏距离取平均值,并计算了old和young组样本之间的转录噪声比。

  2. 根据抽样得到的表达矩阵,分别计算了两个年龄组,每种细胞类型内,所有配对细胞间的Spearman相关系数。用1-R作为第二种度量转录噪音的指标。

本文关于单细胞内转录噪音的算法大家可以MARK一下哦!

  • F2A:在大多数细胞类型中,转录噪音随着小鼠年龄增大而增大。蓝色表示young组样本,红色表示old组样本,使用Wilcoxon秩和检验(FDR<0.05的用星号标记)。

  • F2B-C:这里的度量是old/young组的转录噪声比。图B横坐标是样本中每个细胞类型转录噪声比的平均值(属于个体水平的转录噪声比),纵坐标是细胞类型内的平均距离(属于细胞水平的转录噪声比)。图C横坐标是用第二种方法计算的转录噪音比,纵坐标是第一种方法计算的细胞水平的转录噪声比。两种方法有很高一致性,大多数细胞类型中,old组样本的转录噪音都要显著高与young组。

  • F2D:第二种方法测得的两组样本Ⅱ型肺泡上皮细胞当中,细胞转录噪音的核密度图,old组样本Ⅱ型肺泡上皮细胞当中的转录噪音要显著高与young组(KS检验,检验两种数据分布是否一致)。

图F2.随着老化,大多细胞类型的转录噪音增加

2.转录组和蛋白质组的多组学数据整合
  • F3A实验设计:为验证scRNA-seq数据的完整性,并捕获小鼠肺部mRNA和蛋白质年龄依赖性的改变,作者又建立两个额外的yong和old小鼠队列。如图中所示,队列1是用于单细胞测序实验的;队列2(3个月大小鼠n=3,22个月大小鼠n=3)是用于小鼠肺bulk RNA-seq数据分析;队列3(3个月大小鼠n=4,24个月大小鼠n=4)用于获取小鼠肺部的蛋白组学数据。

图F3A. 实验设计

差异分析以及验证三个来源分析结果的一致性

  • S4A-C:作者把队列1中每个样本scRNA-seq数据合并,成为in slico bulk数据。对其(A)和队列2的bulk RNA-seq数据(B)进行yong和old组间的差异表达分析。同时也对队列3的蛋白组数据(C)也进行yong和old组间的差异表达分析(DEseq2包)。

  • S4D-F:三个来源的数据差异分析结果有显著的相关性

图S4.小鼠肺部多组学数据展现一致性

  • F3B:基因平均表达量在单细胞数据产生的in slico bulk和队列2产生的RNA-seq数据间有很高的相关性(R=0.87,左),且两个来源的数据的样本间的相关性也很高(右)。

  • F3C:作者用以下方法把三个来源的数据进行整合。队列1中每个样本的in slico bulk数据和队列2的RNA-seq数据(Count数据)用voom函数(limma包)对其标准化。之后把两者加上队列3的蛋白组学数据合并(只保留共有的基因),并进行quntile法标准化合并后的矩阵。对合并的矩阵进行PCA分析。左侧PC1和PC2把数据按来源分开了,而右侧PC2和PC3则把数据按组别分开了(蓝色yong,红色old),说明三个数据中可以提取出年龄相关的改变(存在于PC3中)。

图F3B-C.RNA-seq和scRNA-seq间的相关性

上述的图S4,F3B-C结果说明两种来源的RNA-seq数据间一致性很高,可以排除单细胞分离过程带来的数据上的偏差。并且通过PCA分析可以确认,三个来源的数据中均存在样本年龄带来的差异。

功能分析

  • F3D:作者用IPA数据库里的上游调控因子分析软件去分析了小鼠肺组织的转录组数据以及蛋白组数据,预测了一些上游调控因子的激活或失活得分(基于样本年龄差异)。在两组来自独立小鼠队列的数据中,作者发现了一种促炎症的信号,包括Il6、Il1b、Tnf和Ifng的上调,以及Pparg和Il10的下调 。

  • F3E:根据小鼠肺组织的转录组数据以及蛋白组数据差异分析结果进行功能富集分析后(三种数据库为别为不同颜色),一些term的富集得分呈一个显著的正相关性。大多数受年龄调控的term在转录组和蛋白质组中都显示出相同的方向。

  • F3F:但是IV型胶原蛋白相关的基因在蛋白质水平上表现为在old组种高表达,而在转录组水平上表现为在young组低表达(F3E中已圈出)。

  • F3G:利用免疫萤光技术和邻近连接原位杂交技术去检测小鼠中的Ⅳ型胶原蛋白的含量。结果都显示在old组小鼠肺组织的血管中,Ⅳ型胶原蛋白高表达。说明了联合转录组数据和蛋白质组数据分析的重要性。

图F3D-G. 功能改变分析

3.气道上皮细胞组成随衰老而改变

每个小鼠样本中细胞类型的频率根据每个小鼠样本中注释到每种细胞类型的数量计算,并转换为比例。下一步根据比例计算样本小鼠之间的欧式距离,并用MDS(多维标度法,isoMDS())展示在二维空间上。细胞类型频率相对改变值由两组样本中该类细胞频率的中位值相减得到。

  • F4A-B:用MDS多维度标法把队列1中各小鼠的距离展示出来(A),且在MDS1上,old组是要显著小于young组的(B)。说明两组小鼠肺组织在细胞类型组成上是有差异的。

  • F4C-D:取三种气道上皮细胞(纤毛细胞(蓝色),克拉拉细胞(橙色),杯状细胞(绿色))的scRNA-seq数据做力引导布局算法FR(Fruchterman-Reingold算法)。可以看出old组中多为纤毛细胞而young组中多为克拉拉细胞。

  • F4E:为了避免scRNA-seq数据得到的细胞类型相对改变频率受组织分离差异干扰,作者又进行验证。根据scRNA-seq数据得到的细胞类型特征基因集,作者根据队列2的bulk RNA-seq数据差异分析结果进行基因富集分析,得到每个特征基因集的富集分数。红色标出的是富集非常显著的几种细胞类型,其中包含纤毛细胞。

  • F4F:在两组的比较当中,纤毛细胞特征基因的表达变化分布与所有基因的表达变化分布有显著差异(KS检验,检验两种数据分布是否一致)。纤毛细胞特征基因在old组样本肺组织中显著高表达。

  • F4G-I:用免疫荧光实验取验证两组小鼠肺组织在细胞组成上的差异,纤毛细胞(Foxj1标记)在old组小鼠中显著增多(H),而克拉拉细胞(CC10标记)在old小鼠中显著减少(I,此处是两种细胞的比例)。是细胞层面的验证。

图F4. 小鼠肺器官上皮细胞组成与年龄有关

4.肺细胞外基质成分的改变
  • F5A-B:根据蛋白组数据做差异分析,一共识别出32个基质蛋白质在小鼠肺中有显著的表达差异(A,图中用绿色标出)。图B是这32个蛋白质在队列3小鼠样本中的表达量热图(经过Z分数标准化)。

  • F5C:在图B中作者发现胶原蛋白ⅩⅣ在old组小鼠肺中低表达。作者同时在scRNA-seq数据中的间质成纤维细胞和间皮细胞(红色圈出)中发现,与脂成纤维细胞比,胶原蛋白ⅩⅣ基因和Decorin(可结合到该胶原蛋白上)基因是高表达的。

上面这一结果说明,蛋白质组学与单细胞转录组学的结合能够预测调节蛋白质的细胞来源。

图F5.蛋白组数据的差异分析

  • F6A:QDSP实验(quantitative detergent solubility profifiling,可以更好地提取ECM成分,分析ECM的高级结构,蛋白质的溶解度):从全肺匀浆中提取蛋白质,并增加洗涤剂浓度,得到四个不同的蛋白质组分(ECM成分通常富集在不溶的最后一部分标记为INSOL),用质谱进行定量。针对溶解度上的差异采用方差分析。

图F6A.QDSP实验设计

  • F6B-C:对QDSP实验结果做PCA分析。B图中两个年龄组因PC4分开(衰老带来的改变),而4种蛋白质组分因PC1分开(蛋白质溶解度上的差异)。图C是蛋白质在PC1和PC4上的载荷分数(loading score),标记出了在两种主成分上载荷分数最大的基因,颜色是之前观察到的在两组间有表达差异的蛋白。

  • F6D-I:蛋白质在old与young组间丰度上(D-F)以及溶解度上(G-I)的差异,Lamc1都无差异,作为对照组。而Frem1在old组样本中表达量下降且溶解度变得更大(E-H)。胶原蛋白ⅩⅣ在old组样本中表达量下降,但是溶解度升高(F-I)。

图F6B-I.对QDSP结果分析

5. 衰老对细胞类型的特异性影响

在结果1中提到,作者找到了153个存在ambient mRNA现象的基因,但这些基因有一部分(n=41)是在所有细胞中都恒定表达的管家基因(logFC<1)。故作者在差异分析结果中去掉了这些管家基因。剩下的112个基因也只在每种细胞中保留了adjp<0.25的基因。

  • F7A:对队列1中样本得到的每种细胞类型做old和young组间的差异分析,在两组间共有391个差异表达基因(Wilcoxon秩和检验,FDR<0.1),其中在肺泡巨噬细胞和肺泡Ⅱ型上皮细胞中,两组小鼠间的差异表达基因最多。作者以二者为例,说明衰老对小鼠肺组织细胞类型的特异性影响。

  • F7B-C:肺泡巨噬细胞(B,125个差异基因)和肺泡Ⅱ型上皮细胞(C,121个差异基因)中两组样本差异表达分析的火山图。作者对两类细胞中的一些差异表达基因做了分析。

  • F7D-E:为了对上面由scRNA-seq数据得到的差异分析结果做验证。作者又取了一个队列(两类小鼠样本各4只),用流式细胞仪去筛选肺组织中的巨噬细胞和上皮细胞,然后得到两类细胞的bulk RNA-seq数据。图D是scRNA-seq来源的两类细胞样本(n=30)根据两类细胞中差异显著的标志基因做PCA分析,并且作者把流式来源的两类细胞样本映射到了此PCA图上,可以看到两种来源的样本根据各自细胞类型混合在一起(验证了scRNA-seq注释的细胞类型),而两类细胞的差异主要由PC1决定。图E是各个特征基因在PC1和PC2上的载荷分数(loading score),标出了对PC1影响最大几个基因。

  • F7F-H:作者根据流式筛选的两类细胞的高通量数据做old与young组间的差异分析(limma包),与各自对应的scRNA-seq数据的差异分析结果做一个点图(图F-G,同一基因在两个数据中的logFC)。图H是对两类细胞中,两种数据来源的差异分析结果做一个Fisher精确检验。可以看出两类细胞中,scRNA-seq数据和流式筛选的bulk RNA-seq数据,在分析衰老造成的差异上有很高的一致性

  • FI-L:作者在图C对肺泡Ⅱ型上皮细胞的差异分析中发现,属于Ⅰ型MHC分子的H2-K1在old组样本中高表达。下面作者对由scRNA-seq得到的这一结果做验证。图I-J分别是H2-K1在两种来源数据的样本中表达情况,都显示在old组样本肺泡上皮细胞中高表达。图K-I是用流式细胞技术筛选出小鼠肺上皮细胞检测H2-K1蛋白的表达量,同样在old组样本中高表达。

图F7. 衰老对细胞类型的特异性影响

  • S6A-B:根据F7中研究的两类细胞的scRNA-seq数据差异分析结果,进行基因富集分析,A为肺泡巨噬细胞中的富集结果,B为肺泡Ⅱ型上皮细胞中的富集结果。

  • S6C-D:利用IPA数据库预测scRNA-seq数据分离出的C:上皮细胞,D:基质细胞,E:髓系细胞中上游调控因子的激活情况,并对结果做了分析。

图S6.衰老对不同类细胞通路和上游调控因子的影响

6.衰老小鼠肺中特定细胞胆固醇合成增加

肺泡表面活性物质的稳态受到Ⅱ型肺泡上皮细胞和脂成纤维细胞中脂质合成过程的调控。而肺泡Ⅱ型细胞中脂质代谢受到SREBPs(甾醇反应元件结合蛋白,像是Srebf2或负调控因子Insig1/2)的调控。细胞中Insig2的缺失引起中性脂质(胆固醇酯和甘油三酯)在细胞中堆积并伴随着脂质毒性相关的肺部炎症和组织重建。在图S6C中对Ⅱ型肺泡上皮细胞的上游调控因子分析中预测Srebf2活性增强而Insig1活性减弱。

  • F8A:25个受到Insig1负调控的蛋白在old组样本的Ⅱ型肺泡上皮细胞中高表达,而Insig1呈低表达。

  • F8B-C:根据两组小鼠Ⅱ型肺泡上皮细胞和脂成纤维细胞差异表达分析的结果,作者进行基因富集分析(包含Uniprot,GO,KEGG),胆固醇合成相关基因在old组样本的两类细胞中都是富集得分最高的。图C是胆固醇合成通路的一部分,其中标红的基因在old组样本Ⅱ型肺泡上皮细胞中都高表达,而他们都是Insig1/2的靶基因。

    上面两个结果说明SREBPs在old组样本的Ⅱ型肺泡上皮细胞和脂成纤维细胞中激活,脂质合成通路激活,特别是胆固醇合成通路激活。下面用细胞实验去验证。

  • F8D:利用免疫萤光技术标记Ⅱ型肺泡上皮细胞(proSP-C)和中性脂质(LipidTox),在old组样本中混合荧光是多于young组的,说明随着衰老,Ⅱ型肺泡上皮细胞中脂质会增多。

  • F88E-G:另一种方法是用Nile去染色肺组织中中性脂质,用流式细胞术去分选细胞并定量染色程度。肺上皮细胞和成纤维细胞中(CD45-非白细胞,FSC高低表示细胞大小),old组样本脂质表达量显著升高。

图F8. 衰老导致特定细胞胆固醇合成增加

四. 小彩蛋

本文作者又是单细胞测序又是做了小鼠肺的蛋白质组数据,当然要利用好这些数据,所以作者做了一个在线数据库,名字叫Lung Aging Atlas,里面可以得到小鼠肺组织中特定类型细胞中的差异基因,检索特定蛋白质的细胞来源以及表达量,溶解度随衰老的变化。获取特定细胞类型中特定基因表达量随衰老的变化以及差异分析结果等。有需要的小伙伴可以去探索一下

网址如下:https://theislab.github.io/LungAgingAtlas

小结

今天的文献分享到这里就结束啦,感谢可以耐心读完的小伙伴。本篇文章在单细胞测序的基础上结合了蛋白质表达谱的分析,利用多种方法揭露了衰老对小鼠肺部带来的改变,包括转录噪音,细胞类型的组成,各类细胞因老化在基因表达量上的改变,以及衰老对小鼠肺组织细胞外基质的影响。还展示了可以通过蛋白质表达谱联合scRNA-seq数据分析去寻找差异蛋白质的细胞来源。本文通过生信分析出的结论作者还在细胞层面加以验证,可谓逻辑严密。在对单细胞数据处理的方面也有很多值得我们学习的地方。最后作者利用自己的数据还给我们留下了个小鼠肺部老化图谱数据库,值得去探索一番。

(0)

相关推荐