PCA分析？Emm，所有人快速上手与出图！

2024-06-21 21:01:31

写在前面

PCA，principle component analysis，翻译为中文，即常说的主成分分析。
其为相对经典的降维算法，对具体计算逻辑感兴趣的可以Bing搜索看看。
在高通量测序数据出现之前，在生物学上，其最常用的场景是：

假定我们要对某种花的不同品种进行分类，于是进行指标测定，如花瓣长度，花瓣宽度，植株高度，叶片厚度，根部长度等。这些指标都是数量指标，我们几乎无法从某一个或者某两个指标，直接将不通品种分开，所以我们需要用上所有指标试试。但是对于高纬度，如超过三维，我们就很难处理，至少从绘图上，我们几乎无法解决，看不到的，都是虚的。于是，前人提出各种降维策略，而PCA即为最经典的线性降维。算法本质即方差拆解，去除冗余信息，在丢失尽量少信息的情况下，保留最合适的权重指标组合，亦即第一，第二，第三，第N主成分。在实际应用中，我们往往会使用前两个主成分，可以简单认为其代表了样品之间差异信息的最大部分。

以上，是植物分类相关的应用。近日，我们课题组开始整理手上已有的转录组测序样品。怎么说呢？转录组数据分析获得基因表达矩阵，对于每一个样本来说，其实基因的表达量向量即性状数据，一个基因就对应一个指标或者维度。所以，我们同样，可以直接基于表达量矩阵，对样品进行分类（【注：分类是PCA分析的最粗糙的应用，提取主成分，分析主要贡献因子才是优秀操作】）。这样，我们可以从很快判断自己的样品是否存在异常。（如果存在生物学重复的异常，那么必须分析异常是否合理，不合理则应去除，否则影响分析）。

实现一个快速完成PCA分析的工具

PCA分析，事实上，目前应是已有不少工具或者脚本可以实现。具体我并没有做太多地了解。我想，或许很多人跟我一样，主要还是使用R语言进行分析，随后可视化。编程，总是麻烦。事实上，每次我要回去翻前面写的流程代码，对我来说是一个浪费时间的事情。于是，我还是决定实现这个工具。

如何使用

首先是打开对应的功能

从功能界面可以看出，

使用示例数据进行分析，则直接点击Start

从图片来看，左侧virinica，中间主要是versicolor，右侧则明显是setosa。

灵活调整参数，达到自己的目的

对于这套数据，我们的目的是对品种进行聚类，所以Analysis On Columns是不会变的。不过我们可以不对数据进行Scale试试（一般推荐Scale，主要目的是同一量纲）。

似乎分得还可以。由于我们输入的样品较多，似乎有上百个，labels太多。但是我们也可以不看Labels。

只是，不看Labels的话，就什么都看不出来了。此时我们会选择对样品进行着色
在Excel中编辑并整理样品对应的颜色信息

第一列：样品名
第二列：点的颜色信息
第三列：Label的颜色信息（这一列为可选列）

保存成文本文件-制表符分隔，最后用于可视化。【注：示例数据，每一列代表的是一个样品，由于我们很多样品名字相同，所以只需要设置一个颜色行即可；在转录组测序数据中，则往往每个样品需要专门设立一行】。

注意到，此时我们可以明显地看到，确实不同类型被分开。不错的结果。

将labels显示，看起来也还可以....

总的来说，你可以通过设置点或者文本的颜色信息，来表示两类样品的分组信息。比如生物学重复可以作为一个分组信息，不同时间点或者处理可以是另外一个分组信息。

实际应用

在转录组测序数据分析中，我们常常会得到这样类似的一个表达矩阵

操作起来比较简单，如果你只是做个分类查看。直接全选整个矩阵，复制并黏贴到Simple PCA Analysis

点击Start

从这个图来看，生物学重复聚类较好。此时不要忘了TBtools中的图片是可以交互式调整的。我大体手动调整了下

最后，你可以Ctrl+S保存图片

写在后面

睡不着的时候，写写一些东西，总还是有用的。
不过可能是时候去写一些可以写到简历的东西了。
祝大家科研顺利！

谁说样本一定要按照编号排序呢

学徒培养进行到了转录组实战环节,按照惯例我会挑选10+篇比较新的带数据集的RNA-seq文章给到学徒,让大家实战. 大家需要自己去找到数据集背后的测序数据,然后使用aspera下载fq文件,走hisa ...
技术贴 | 微生太宏基因组报告解读 | 第三篇：物种分组统计分析

本文由阿童木根据实践经验而整理,希望对大家有帮助. 原创微文,欢迎转发转载. 导读利用Kraken2联合Bracken的方法能快速.准确的从宏基因组测序数据中获取物种的注释和丰度信息(详见第二篇), ...
群体结构图形三剑客

重测序便宜了,群体的测序和分析也多了起来.群体结构分析,是重测序最常见的分析内容.群体结构分析应用十分广泛,首先其本身是群体进化关系分析里面最基础的分析内容,其次在进行GWAS分析的时候,本身也需要使 ...
借鉴escape包的一些可视化GSVA或者ssGSEA结果矩阵的方法

与此同时,不少粉丝对GSVA或者ssGSEA分析方法提出了要求,变相催稿.其实GSVA或者ssGSEA是有成熟的工具,我暂时没有找到它们的卖点.不过,我注意到了一个GitHub包,ncborcherd ...
综述 | Process Biochem：基于H-NMR的代谢组学在癌症靶向和代谢工程中的应用

编译:小鹿同学,编辑:小白.江舜尧. 原创微文,欢迎转发转载. 导读核磁共振(NMR)光谱是研究未知代谢物的最佳工具.此外,代谢组学是检查体内和体外代谢情况的系统方法,其可以提供有关癌症代谢变化的数 ...
ADONIS、ANOSIM、Mangel

常规的T检验.方差分析等,可以用于比较组间变量的差异水平.由于这些常规方法都是对于1-2个特定变量而言的,那么如果我们想比较所有变量整体的差异,或者说各组对象间在变量组成上是否存在较大的不同,应该怎样 ...
处理单细胞? Bioconductor就够用了

最近,bioconductor团队出版了一本电子书,其整合了其网站上关于单细胞的R包并制定了一套常规的分析流程包括分析,可视化,导入导出.不仅如此,前三章还分别教你如何下载使用R,使用biocondu ...
ArcGIS快速、批量出图.docx（文档可下载）

GIS前沿昨天 1. 数据准备:村级行政区划 *必备列:编号(以FID顺序)方便后续链接 2. 缓冲区分析:缓冲向导工具 *必备列:编号(因缓冲区顺序与行政区顺序一致,故可直接链接行政区名称) 3. ...
篆刻牛人用铅笔快速写印稿上石，认真看，你也可以快速上手！

素材来源网络,若侵权,请联系删除素材来源网络,若侵权,请联系删除展开
【直播】我的基因组55：简单的PCA分析千人基因组的人群分布

好久不见,我们的直播又开始啦!今天,我们主要讲的是人群分布,先用简单的PCA来分析一下千人基因组的人群分布吧! PCA分析,就是主成分分析,我博客有讲过(点击最底部的阅读原文或复制链接http://w ...
【META分析】479人的火球频道会员赛竟然无人能敌黑心老总LSV

[上回META分析]白蓝控席卷2500人巨赛!红牛 Untapped 第一场线上资格赛以前我提到过,火球频道开始实行会员制,需要购买会员才能阅读网站中火球 pro 的文章.在昨天,火球办了一场针对会 ...
抓住5个要点，照片秒变漂亮「山水画」，绘画小白也能快速上手

抓住5个要点，照片秒变漂亮「山水画」，绘画小白也能快速上手
开车技巧篇教你小白快速上手

"嘭"."咚"."咔嚓"."铛锒" 油门,刹车,哪个是哪个往右.往右.前进.后退一着急就懵x 俗话说:满瓶子不动,半 ...
干货分享：怎样才能快速上手自媒体？这4大技巧，新手需知

在当今社会,人人都是自媒体的时代真的不远了,而且自媒体有很多盈利模式,既能变现也可以增强自己的能力,所以越来越多的自媒体人出现了.今天,准哥想分享的就是小白怎样才能快速上手做自媒体,希望能对踏上自媒体 ...
百度集团(09888.HK)配售分析：人弃我取人争我让，继续吃瓜看戏就行

并把小熊猫[设为星标] 百度集团(09888.HK) 百度集团今天出中签结果了: 甲组近40万人申购,这应该是目前的这些热票中最少参与认购人数的一个票了,一手中签率15%,申购50手稳中1手,甲尾20 ...
快速上手指南：晚期乳腺癌的治疗

2015 年中国新发乳腺癌病例约 27.2 万,死亡约 7 万余例.早期患者中 30%-40% 可发展为晚期乳腺癌(ABC),5 年生存率约 20%.ABC 是乳腺癌发展的特殊阶段,在治疗选择及疗效方 ...