教程 | [下篇] 规模化物种同源基因分析 - orthofinder

2024-06-11 17:41:06

写在前面

软件的使用
结果的解读

运行

准备文件

#在一个合适的路径，创建个人工作文件； mkdir test && cd test

准备所需物种的蛋白文件
统一后缀为(.pep/.fasta/.fa/.faa/.fas 均是Orthofinder可以识别的后缀)
注意：如果基因组具有可变剪切转录本，需要提取最长转录本进行（TBtools可）

运行主程序

#暂时退至上一层目录cd ..#运行主程序orthofinder -f test/ -M msa -a 40 #非conda安装,主程序运行使用orthofinder.py

可见用到的参数并不多，正是Orthofinder使用简单的原因。
主要用到相关参数介绍：

#-a 分析所用到的线程#-f 指定文件夹（存放我们所有物种的序列） #-M 推断基因树的方法可选：msa 和 dendroblast （默认 dendroblast）

dendroblast不依赖多序列比对，基于Blast评分方法聚类的方法，更节约时间。但相对多序列比对（msa）还是准确性差一点。

#-S 序列比对的方法可选：Diamond 和 blast (默认Diamond)diamond相对于blast比对速度更快，准确性也有保证#-T 建树的方法可选：fasttree, raxml, raxml-ng, iqtree (默认fasttree)建树的精准度/耗时 raxml > iqtree > fastree; 如果追求更高的精准度可以使用 iqtree。# 此处应有误，最准确应该是raxml，也是最慢的 - CJ

结果解读

#进入运行路径cd test#可以发现产生了 OrthoFinder/Results_Jun12cd OrthoFinder/Results_Jun12ls -1tr #查看结果文件

进入结果文件查看，主要包含以下文件夹情况。

Orthogroup_Sequences 该文件夹包含了每个同源基因集合，各物种的同源基因序列。
Orthogroups 同源组信息的目录

Orthogroups.GeneCount.tsv #每个物种在每个同源基因集合所具有的基因数目Orthogroups.tsv #每个物种在每个同源基因集合的基因ID

Orthogroups_UnassignedGenes.tsv #每个物种在每个同源基因集合的基因ID（包括未分配同源组的基因）

Orthogroups.txt #OrthoMCL的输出格式Orthogroups_SingleCopyOrthologues.txt #单拷贝的同源基因集合

Single_Copy_Orthologue_Sequences 该文件包含了单拷贝的直系同源基因核酸序列。后续需要若需要构建时间分歧进化树，使用的序列。
MultipleSequenceAlignments 多序列比对的文件。
WorkingDirectory 运行程序的文件夹。
Species_Tree 物种树文件夹

Orthogroups_for_concatenated_alignment.txt #构建进化树所用到的同源基因集合SpeciesTree_rooted.txt #有根物种树文件SpeciesTree_rooted_node_labels.txt#具有Node信息的树文件；导进查看树文件的软件即可，大致了解到物种关系。

Phylogenetic_Hierarchical_Orthogroups 输出文件以 N0.tsv，N1.txt，N2.tsv，… 为格式。分别指以物种树 N0，N1，N2，… 节点为标准推断出的Hierarchical Orthogroups（不考虑基因复制，从古老祖先进化的一组直系同源基因）。
Orthologues

cd Orthologues#Orthologues_Athaliana#Orthologues_Slycopersicum#Orthologues_Csinensis#Orthologues_Vvinifera###cd Orthologues_Athaliana#Athaliana__v__Csinensis.tsv#Athaliana__v__Slycopersicum.tsv#Athaliana__v__Vvinifera.tsv

进入该目录，可以具有各物种的子目录。子目录内又包括了两个物种间的同源基因集合比较的文件。

Gene_Trees 该文件存放同源基因树。
Resolved_Gene_Trees 该文件存放重定根的同源基因树。
Gene_Duplication_Events 统计支持度大于50%的复制事件，支持度是指复制后两个基因副本未被丢失的比例。

SpeciesTree_Gene_Duplications_0.5_Support.txt #物种的分支上具有基因复制事件的数量（50％支持度的）展示如下图

Duplications.tsv #列出复制事件具体情况

Comparative_Genomics_Statistics 该目录主要包括了基因组比较的统计

Statistics_PerSpecies.tsv #统计每个物种的情况Statistics_Overall.tsv #基于同源基因集合（Orthogroups）统计情况Orthogroups_SpeciesOverlaps.tsv #物种间共享的同源基因集合OrthologuesStats_one-to-one.tsv #物种对间一一对应的直系同源基因数量OrthologuesStats_one-to-many.tsv #物种对间多对一的直系同源基因数量OrthologuesStats_many-to-one.tsv #物种对间一对多的直系同源基因数量

OrthologuesStats_many-to-many.tsv #物种对间多对多的直系同源基因（在物种形成后的基因复制事件）

OrthologuesStats_Totals.tsv #包括多重性的每个物种对的直系同源基因总数（即上述数量的总和）Duplications_per_Species_Tree_Node.tsv #物种树每个分支发生的复制次数Duplications_per_Orthogroup.tsv #每个物种对共享的同源群数目

Log.txt 记录文件~
Citation.txt 引用信息~

写在最后

Emmm，这位师妹整体进步速度还不错，应该也是差不多研二转生信数据分析，研三毕业时已经可以独立完成植物基因组项目，也是其毕业论文。今天的稿件，我压了两个月，主要原因是一直找不到时间排版。碰巧这会在测试过几天培训的虚拟机。有时候，最难的是在限定的计算资源下，完成一些原本应该是高占用资源的项目，比如基因组组装。
Anyway，稿件终于还是放出来了。前面跟师妹还约了另外的稿件，感兴趣的朋友，就等着吧。

Nature Reviews Genetics | 基因组时代的系统发育树的构建

Part1Phylogenetic tree building in the genomic age 最近看了两篇杨子恒教授参与撰写的关于分子进化的综述,收获很大,今天先介绍最近的一篇,2020年发表 ...
科研 | BMC Genomics：美洲河狸首次全组织lncRNA分析

编译:寒江雪,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读长链非编码RNA(lncRNA)在基因调控.表观遗传学等方向的研究中发挥着重要作用,也是哺乳动物进化适应的基础.很多哺乳动物由于没有 ...
批量进行同源基因的转换

随着模式动物在科研实验中的广泛应用,不同物种间的同源基因的转化是我们不等不面对的一个问题. 单个基因可以在Pubmed上进行检索,如我们想获取小鼠Acad10基因的人同源基因,我们进行如下检索便可轻松 ...
科研 | Cell：一类泛植物蛋白复合体图谱展示了进化的高度保守性与新颖的蛋白组装方式

编译:东方不赢,编辑:Emma.江舜尧. 原创微文,欢迎转发转载. 导读植物是全球生态和经济系统的基础,植物体内的蛋白质调节生理活动的功能,目前被鉴定出来的较少.蛋白质相互作用图谱通常能揭示蛋白质功 ...
怎么区分直系同源(orthologs)和旁系同源(paralogs)

分子进化与系统发生拉马提出进废退理论.他说生物经常使用的器官会逐渐发达,不经常使用的器官会逐渐退化.而且这种后天获得的性状是可以遗传的,因此生物可以把后天锻炼的成果遗传给下一代.达尔文认为,所有的生 ...
小麦抗白粉病基因Pm68

硬粒小麦是小麦遗传改良的重要基因资源,已经从硬粒小麦中发掘出多个抗白粉病基因(硬粒小麦抗白粉病基因Mld.Pm3h和PmDR147).近日,江苏大学何华纲课题组与烟台大学马朋涛教授和美国农业部西部研究 ...
一文读懂KEGG数据库

KEGG数据库介绍在进行生物学实验或者生物信息的学习中,都会听说KEGG富集分析,而且该方法在高通量测序分析中已然成为数据分析中必不可少的一环. 这种分析方法依托的是由 Kanehisa实验室在1 ...
科研 | PNAS：鳄梨基因组和转录组揭示了被子植物的系统发育，突出了渐渗杂交，并揭示了受病原体影响的基因空间适应

编译:卡德加,编辑:小菌菌.江舜尧. 原创微文,欢迎转发转载. 导读鳄梨(牛油果)(Persea americana)作为一种在全球范围需求量越来越大的水果,给墨西哥农业带来了巨大的经济价值.鳄梨属 ...
教程 | 规模化物种同源基因分析 - orthofinder [上篇]

写在前面基因组测序项目已然是几乎所有课题组都可以负担的水平.相比于几年前火爆的通过转录组测序挖掘生物学问题策略,通过基因组,尤其是比较基因组分析,往往可以给我们带来更多确定性结果,如相比于近源物种A ...
艾略特波浪理论系列高级教程---第九章节：关于分析（比率、时间与交替）

第九章节:关于分析(比率.时间与交替) 对形态与结构的解析是艾略特波浪理论的精髓,但对比率与时间的把握也同样重要:比率和时间的分析是指对一个浪与另一个浪在运行时间和空间(幅度)上的比例关系所进行 ...
PS颜色调整教程，色彩调整“去色”深度分析

去色:是指将图片的彩色去掉,使用黑.白.灰三种颜色来表现图像,使之成为无彩色图像, 去色原理:PS软件通过一种默认的算法,将彩色图像运算转化成灰度图像,即只用黑.白.灰来表达原来的图像. 原图去色 ...
科研 | Cell：跨物种单细胞分析揭示灵长类小胶质细胞程序的差异

编译:杨峰,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读小胶质细胞是脑内的免疫细胞,在脑的许多生理和病理过程中起着重要作用,包括神经退行性病变.在本文中,研究者描述了跨越超过4.5亿年进化的 ...
科研 | Harmful Algae：胶州湾有害藻华物种组成分析（国人作品）

编译:小憨豆,编辑:小菌菌.江舜尧. 原创微文,欢迎转发转载. 导读胶州湾是我国沿海生态系统的一个缩影,经过几十年历史调查记录的积累,是研究有害藻华的理想场所.然而,这些早期的浮游植物群落研究大多主 ...
技术贴 | R语言物种组成分析和绘图

本文由阿童木根据实践经验而整理,希望对大家有帮助. 原创微文,欢迎转发转载. 导读宏基因组分析分为物种分析和功能分析两大块.物种组成分析是物种分析中最基本最常见的分析方法.利用R语言堆叠图,我们可以 ...
技术贴 | 微生太宏基因组报告解读 | 第二篇：物种组成分析

本文由阿童木根据实践经验而整理,希望对大家有帮助. 原创微文,欢迎转发转载. 导读为了研究样品物种组成及多样性信息,我们用Kraken2对所有样品的全部的有效序列进行注释分类.Kraken2是基于K ...
紫微斗数入门教程：017、紫微斗数分析子女宫

子女宫用来判断子女亲缘.性格.多寡的情形,间接表示本命个人性生活与生理欲望的暗示,有太阳.天同.天府.太阴.魁钺者大吉,有紫微.天机.天相.天梁.禄存.昌曲.辅弼者中吉,有武曲.破军者凶,有廉贞.贪狼 ...
紫微斗数入门教程：058、紫微斗数分析疾病宫

058.紫微斗数分析疾病宫紫微斗数关于疾病.健康的分析,主要是看疾厄宫的性情状况.疾厄宫表示个人健康状况和体质,以及容易患的疾病等事项.看疾病的方法,先看身命三合,有没有灾杀之星,后看疾厄宫星曜之受 ...

教程 | [下篇] 规模化物种同源基因分析 - orthofinder

写在前面

运行

结果解读

写在最后

相关推荐