路径
什么是系统生物学
系统生物学(Systems biology),是一个使用整体论(而非还原论)的方式,整合不同学科,层次的信息以理解生物系统如何行使功能的学术领域。它是研究生物实体各个组成部分相互作用和行为的学科,包括分子、细胞、器官、有机体乃至环境。系统生物学是以一种新角度从生物动力学系统出发进行研究,其具有信息学科特点。
一般说来,生物信息以这样的方向进行流动:DNA→mRNA→蛋白质→蛋白质相互作用网络→细胞→器官→个体→群体。这里要注意的是,每个层次信息都对理解生命系统的运行提供有用的视角。不同层次的研究难度也是不一样的。系统生物学的重要任务就是要尽可能地获得每个层次的信息并将它们进行整合。
人体系统的不同层级,信息自上由下流动
生物有机体是非常复杂的,它们的许多部分以多种方式相互作用。因此,它们通常可以被看作是集成的系统。对比一个收音机和细胞的信号网络可以看到它们之间的相似之处。但比之收音机,试图理解一个生物有机体系统要困难得多,主要是因为系统中交互作用的数量和强度过于巨大且缺乏一种通用的生物学描述语言。不过,可用的计算机能力和复杂系统分析的进步带来了希望,成为系统生物学的基本和不可缺少的方法。
Can a biologist fix a radio?—Or, what I learned while studying apoptosisY. Lazebnikcancer cell(2004)
一个收音机的电路系统
一个细胞的代谢系统
系统生物学不同于以往仅仅关心个别的基因和蛋白质的分子生物学,着眼于研究细胞信号传导和基因调控网路、生物系统组成之间相互关系的结构和系统功能的涌现。系统生物学的目标之一就是模拟和发现涌现的特性,并期望最终能够建立包括整个生物系统的可理解模型。
事实上,据2011年的《cell》报导,这一壮举已经在生殖支原体(Mycoplasma genitalium)的细胞模型中实现了,其中所有的基因、产物以及已知的代谢相互作用都已在电脑中重建。
A Whole-Cell Computational Model Predicts Phenotype from GenotypeKarr, Jonathan Rcell(2012)
系统生物学的历史进程
1924~1928 年奥地利生物学家贝塔郎菲多次发表系统论的文章,阐述生物学中有机体概念,提出把有机体当作一个整体或系统来研究。贝塔朗菲的一般系统论,维纳的控制论到香农的信息论,及普利高津的耗散结构理论(Dissipative structures),均将生命现象看作区别于仅靠外部指令运作的自组织系统。
自20 世纪60 年代系统生物学概念和词汇的提出起,60-80年代系统生态学、系统生理学的进展,90年代系统生物医学、系统医学、系统生物工程与系统遗传学的概念发表,与20 世纪未细胞信号传导与基因调控的研究与系统论方法的结合后,系统生物学进入了分子细胞层次的(实验与理论结合)研究与发展时期。尤其在 1979年,德国生物化学家艾根提出超循环理论(Hypercycles),对无机分子自组织成生物大分子的可能机制进行了解释,打通了生命系统和无机物之间的桥梁。
21世纪,系统生物学的发展进入了细胞信号转导与基因表达调控的细胞分子系统生物学时期,国际,国内的系统与合成生物学,系统遗传学等研究机构纷纷建立,让生物学进入了系统生命科学时代。2001年的第二届国际系统生物学会提出对生物体整个过程做全面性的定量研究,并希望利用计算机运算来预测细胞,器官系统甚至完整生物体的表现。
人类基因组计划(HGP: Human Genome Project ; 1990–2003)的发起人之一,美国科学家莱诺伊·胡德 (Leroy Hood) 是组学 (Omics) 生物技术开创者之一。正是在基因组学、蛋白质组学等新型大科学发展的基础上,孕育了系统生物学种种高通量生物技术和生物信息技术。
四个阶段
1.初步模型:
是对选定的某一生物系统的所有组分进行了解和确定,描绘出该系统的结构,包括基因相互作用网络和代谢途径,以及细胞内和细胞间的作用机理,以此构造出一个初步的系统模型。
2.观测实验:
是系统地改变被研究对象的内部组成成分(如基因突变)或外部生长条件,然后观测在这些情况下系统组分或结构所发生的相应变化,包括基因表达、蛋白质表达和相互作用、代谢途径等的变化,并把得到的有关信息进行整合。
3.分析修订:
把通过实验得到的数据与根据模型预测的情况进行比较,并对初始模型进行修订。
4.理想模型:
根据修正后的模型的预测或假设,设定和实施新的改变系统状态的实验,重复第二步和第三步,不断地通过实验数据对模型进行修订和精练。第一到第三阶段,也就是以下的“整合”- 系统理论、“干涉”- 实验生物学和“信息”- 计算生物学等研究,即系统论和实验(Experimental)、计算(Computational)方法整合的系统生物学概念,目标就是要得到一个理想的模型,使其理论预测能够反映出生物系统的真实性。
系统生物学重构代谢过程的四个阶段.
以上图四个阶段为例,每一个阶段都是在前一个阶段的基础上建立起来的。重构过程的另一个特点是重构内容的迭代细化,这是由后三个阶段的实验数据驱动的。对于每个阶段,都需要特定的数据类型,这些数据类型包括从高通量数据类型(例如,基因组学和代谢组学)到描述单个成分的详细研究(例如,特定反应的生化数据)。每个重构阶段生成的结果可以用于检查越来越多的问题,最终获得理想模型。
Reconstruction of biochemical networks in microorganismsFeist, Adam, M.nature(2008)
分类
干涉的科学与发现的科学
1.干涉
凡是实验科学都有这样一种特征:人为地设定某种或某些条件去作用于被实验的对象,从而达到实验的目的。这种对实验对象的人为影响就是干涉 (Perturbation)。系统生物学中的干涉有这样一些特点。首先,这些干涉应该是有系统性的。例如人为诱导基因突变,过去大多是随机的;而在进行系统生物学研究时,应该采用的是定向的突变技术。
2.发现
以测定基因组全序列或全部蛋白质组成的基因组研究或蛋白质组研究等“规模型大科学”,并不属于经典的实验科学。这类工作中并不需要干涉,其目标只是把系统的全部元素测定清楚,以便得到一个含有所有信息的数据库。胡德把这种类型的研究称为“发现的科学” (Discovery Science),而把上述依赖于干涉的实验科学称为“假设驱动的科学” (Hypothesis-Driven Science),因为选择干涉就是在做出假设。
“干”与“湿”实验
离开了数学和计算机科学,就不会有系统生物学。也许正是基于这一考虑,科学家把系统生物学分为“湿”的实验部分(实验室内的研究)和“干”的实验部分(计算机模拟和理论分析)。
系统生物学包括“干”“湿”结合以不断优化生物模型的研究过程
“自顶向下”与“自下而上”的方法
系统生物学的目的是在计算机模型(或数学模型)中重建一个生物系统,然后用来模拟系统的行为。基本上有两种系统生物学的方法,“自顶向下”从全部组学分析开始,而“自下而上”是从已知的单个路径开始,在实际应用中它们可以互补而不是相互排斥[4]。
显示不同的系统生物学手段
在自顶向下的系统生物学中,高通量的实验数据,这些数据被用来重建通路或共调控模块。这些模块可以成为更详细的研究的基础,其中单个组件的动力学被量化。在自下而上的系统生物学中,通路的重建是基于对个体成分相互作用的研究。
1.自顶向下
自顶向下的系统生物学(Top-down systems biology)依赖于不同的全基因组分析,在这种分析中,数据是从一个暴露在不同条件下或受到基因干扰(如通过敲除特定基因)的系统中收集的。首先,基因、蛋白质和代谢产物表现出显著变化识别使用适当的统计方法(通常与多个校正测试),紧随其后的是集群和更高级的分析,得到的数据可以结合结构信息,例如DNA的蛋白质相互作用数据(从ChIP-chip实验)。这种类型的分析通常使识别协同调节模块成为可能。自顶向下的系统生物学的优点是它是非教条的,并且不需要通路结构的先验知识。由于假阳性的可能性,重构的通路需要用传统的分子生物学进行实验验证。
2.自下而上
自下而上的系统生物学(Bottom-up systems biology)依赖于已知路径或子系统的可用知识。这种知识被组合成一个所谓的描述性模型的,并转换成数学模型。该数学模型可用于模拟不同条件下的路径运行。通过与实验数据的比较,有可能估计系统或路径内的个别过程的详细动力学。在得到系统的可接受的数学表示之前,常常需要对模型进行修正;因此,需要与实验工作密切配合,进行模型构建和仿真。所得模型可用于设计实验,进一步验证或证伪模型。这个过程的最终结果是一个动态数学模型,可以用来模拟所研究的生物系统。这种方法的缺点是,重建的模型高度依赖于当前的通路知识,**而迄今未被识别的成分的影响完全被忽略。
教材推荐
这几本书面向的受众是不同的,第一本适合入门,第二本和第三本则偏重哲学层面,第四本和第五本则更加偏向技术性。只有第一本和第五本有中译本。部分英文书籍介绍里附有链接。
《系统生物学》
张自立编著的《系统生物学》是目前我国高校使用的教材。整合了各层面的生物信息数据,建立各种数学模型进行仿真实验,进而定量阐明和预测生物功能、表型及行为。概述了系统生物学的基本概念和基本内容,介绍了基因组学、转录组学、蛋白质组学、糖组学、代谢物组学、相互作用组学、表型组学、数学建模与仿真、序列比对与数据库搜索、分子进化模型与系统树的构建等。
《systems biology:philosophical Foundations》
《Systems Biology:Philosophical Foundations》是第一本关于系统生物学哲学基础的书。代表了作者近年来在与系统生物学相关的一系列哲学问题上的研究成果。包含十四篇论文。分为导论部分、三个主要部分和结语部分。每一节都有一个主题。第一部分描述了系统生物学研究计划(第2章和第5章),第二部分讨论了理论和模型(第6章和第9章),第三部分讨论了生物系统中的组织(第10章和第13章)。**
《Life: An Introduction to Complex Systems Biology》
这本2003年由kaneko写作的书,2006年再版,本书一共有十二个章节,主要是面向年轻的生物学家和理论物理学家。这本提出的问题:什么是生命系统的通用属性和一个人怎么从生命的的现象学理论构造导致自然生殖细胞等复杂过程系统、进化和分化?本书刻语言是相当非技术性,以便针对来自自然科学和信息学的广泛的学生和研究人员。前三章构成了这本书的基本章节。在第一章中,作者回顾了分子生物学的研究现状。对现状提出批评,以及需要的是另一种方法,称之为复杂系统生物学。它是建立在动态系统方法的基础上,旨在了解生物系统新陈代谢、遗传、发展、进化等的基本特征。在第2章中,作者概述了建构生物学的方法,即通过实验(在实验室中)和理论(在计算机模型中)构建生命的基本特征来理解它们。在第3章中,一些动力学系统和统计物理的基本背景被描述,作为在后面章节描述的研究的基础。第4章至第11章中讨论生命系统的基本问题。这些问题包括遗传(第4章)、繁殖和新陈代谢(第5章和第6章)、细胞分化、发育和形态发生(第7章和第9章)、与生物可塑性有关的进化(第10章)和多样化的物种形成(第11章)。在第12章中,总结了书中提出的基本概念,如稳定增长系统中的普遍统计、相应的多样化、合并、流动和少数控制原则。然后讨论如何理解生物的可塑性、递归性和进化性,同时强调现象学理论在生物学系统层面的必要性和可能性。
附上全文下载链接
《Systems Biology: Properties of Reconstructed Networks 》
Palsson的《Systems Biology: Properties of Reconstructed Networks 》重点是较少的原则,而是更多的技术,重建详细的,和可预测电路模型的生物系统。这本教科书,致力于系统生物学,描述如何建模网络,如何确定他们的性质,以及如何将这些与表型功能。先决条件是一些线性代数和生物化学的知识。虽然明确了数学思想与生物过程之间的联系,但该书反映了生物教育中数学内容不断增加的不可逆转的趋势。因此,为了帮助教师和学生,Palsson在一个相关的网站上提供了习题集、项目和Powerpoint幻灯片,并在书中以说明性材料和实验结果的具体形式进行了介绍。
《An Introduction to Systems Biology: Design Principles of Biological Circuits》
《An Introduction to Systems Biology: Design Principles of Biological Circuits》首次对系统生物学研究工作的核心和细节进行深入阐述,为直观理解生物学中一般原理建立了基础。Alon的书适合假定没有生物学的知识,甚至对生物学不感兴趣的物理学家。然而,从第一章开始,作者就成功地以一种令人兴奋的方式解释了细胞的功能以及使它能够工作的自由度。全书内容编排:对网络模体等新的理论研究成果做了细致深入的阐述,指出了系统生物学的核心内容和实践方法;阐明了转录调控、信号转导、发育网络中的基本回路;检测了鲁棒性原理;清晰地说明了如何用进化优化来理解最优回路设计;仔细考虑了动力学校正和其他机制是如何使生物信息处理中的误差减到最少。
1. 系统生物学经典论文
贝塔朗菲:一般系统论
路德维希·冯·贝塔朗菲(Ludwig Von Bertalanffy,1901-1972)—美籍奥地利理论生物学家和哲学家;一般系统论的创始人,他从生物学领域出发,涉猎医学、心理学、行为科学、历史学、哲学等诸多学科,以其渊博的知识、浓厚的人文科学修养,创立了本世纪具有深远意义的一般系统论,使他的名字永久地与系统理论联系在一起。1972年,法国科学家委员会曾提名他为诺贝尔奖候选人,但是在诺贝尔奖评选委员会讨论提名之前,贝塔朗菲不幸辞世。
1950年发表《物理学与生物学中的开放系统理论》创立一般系统论奠定了系统生物学的基础。
The Theory of Open Systems in Physics and BiologyLudwig von Bertalanffyscience(1950)
普利高津: 结构耗散理论
普利高津(Ilya Prigogine, 1917-2003)认为,只有在非平衡系统中,在与外界有着物质与能量的交换的情况下,系统内各要素存在复杂的非线性相干效应时才可能产生自组织现象,并且把这种条件下生成的自组织有序态称之为耗散结构。一个对象要想在实践中获得存在与发展,必须不断地从外界引入负熵,以抵消对象体内正熵的增加,从而确保对象不断地走向更高层次的稳定有序结构。1977获得诺贝尔化学奖。
艾根:超循环理论
艾根(Manfred Eigen,1927-2019),1967年获得诺贝尔化学奖。超循环是一种自然自组织的原理,允许一组功能耦合的自代表实体的连续一致演化。超循环是一类新颖的非线性反应网络,它是一个能够自我指导自身复制的整体,并为下一个循环的复制提供了催化支持。如下图所示,信息载体I包含了自身复制的信息,而且,还包含了用于转化另一个类型具有最佳功能特性的媒介物(通常是一种酶,E表示)的信息。这种由信息载体生成的酶,支持了下一个信息载体的活性。一个超催化循环由若干网状的催化循环形成,必须的两种功能是,每个循环能够自我复制,其次一个循环的产物必须支持下一个循环。
超循环是一种自我复制的大分子系统,其中RNA(I)和酶(E)的协同作用
胡德
作为人类基因组计划的发起人之一,美国科学家莱诺伊·胡德(Leroy Hood)也是组学 (Omics) 生物技术开创者之一。胡德已经开发了突破性的科学仪器,使生物科学和医学科学的重大进展成为可能。这些包括用于确定组成给定蛋白质的氨基酸的第一气相蛋白质测序器,DNA合成器,用来合成DNA的短片段,肽合成器,将氨基酸结合成较长的肽和较短的蛋白质,第一个自动DNA测序器。
The digital code of DNAHood, L., Galas.et al.Nature(2003)
曾邦哲
1996 年在北京举办的第 1 届国际转基因动物学术研讨会,中科院曾邦哲阐述了系统论与生物遗传学、转基因研究等,1999 年元月于德国建立了系统生物科学与工程网( http://www.sysbioeng.com/genozen/project.html )表述生物系统结构论(Structurity theory)的结构整合 (Integrative)、调适稳态(Stability)与层级建构(Constructive) 等综合(Synthetic)系统理论规律,并定义实验、计算 系统研究,同系统科学、计算机科学、纳米科学和生物医学、生物工程等领域国际科学家广泛通讯,倡导分子生物技术和计算机科学 -实验生物学家与计算生物学家结合研究生物系统,唤起了一大批生物学研究领域以外的专家的关注。
北野宏明
1999年更早的中期不少科学家开始了论述,2000 年日本举办了国际系统生物学会议,随后,系统生物学便逐渐重新得到了生物科学界的认同。2002年日本北野宏明(Kitano H.)也论述了系统生物学是实验与计算方法整合的生物系统研究。
Computational systems biologyKitano, H.Nature(2002)
2004的综述里阐述了生物系统的鲁棒性:鲁棒性是生物系统普遍存在的特性。它被认为是复杂演化系统的一个基本特征。它是通过对生物有机体和复杂工程系统普遍适用的几个基本原则来实现的。鲁棒性促进了可进化性,而鲁棒性特征通常是由进化选择的。
Biological robustnessKitano H.Nature reviews. Genetics(2004)
合成生物学
2000 年美国 E. Kool 重新提出合成生物学 - 基于系统生物学的基因工程。
合成生物学是一门将科学与工程相结合,以设计和构建新的生物功能和系统的生物学研究新领域。合成生物学的定义已被普遍接受为生物学工程:综合复杂的、基于生物学的(或启发的)系统,这些系统显示了自然界中不存在的功能。这种工程学的观点可以应用于生物结构的各个层次,从单个分子到整个细胞、组织和生物体。
专著题目:Synthetic Biology, Volume 1
专著地址: https://www.overdrive.com/media/2502000/synthetic-biology-volume-1
合成生物学家分为两大类。一种使用非自然分子来重现自然生物学中出现的行为,目的是创造人工生命。另一种则从自然生物学中寻找可互换的部分,将其组合成非自然功能运行的系统。
Synthetic biologyBenner, S., Sismour.et al.Nat Rev Genet(2005)
2008年Nature文章则论述了系统生物学与合成生物学的结构理论。
生物信息学
生物信息学(Bioinformatics)包括开发和应用软件工具,以帮助理解生物功能和数据,而系统生物学涉及数学和计算建模的生物系统和功能,以简化表示,理解和文档。生物信息学整合和应用统计学、数学、计算机科学、工程和生物学的理论和实践知识,并允许在生物数据的电脑分析和计算机化解释的数据。另一方面,系统生物学利用信号通路、代谢网络和基因序列功能的知识,以促进科学的研究和应用。
生物信息学最早出现在50多年前,当时台式电脑还只是一种假设,DNA还无法测序。20世纪60年代,第一个新的肽序列组装器、第一个蛋白质序列数据库和第一个用于系统发育的氨基酸替代模型被开发出来。在20世纪70年代和80年代,分子生物学和计算机科学的并行发展为分析全基因组等日益复杂的工作铺平了道路。在1990年的21世纪头十年,互联网的使用,加上二代测序,导致了数据的指数增长和生物信息学工具的迅速发展。今天,生物信息学面临着多种挑战,如处理大数据、确保结果的再现性以及与学术领域的恰当交融。
玛格丽特·达霍夫(Margaret Dayhoff,1925 - 1983)是一位美国物理化学家,她率先将计算机方法应用于生物化学领域。
Digital electronic computers in biomedical scienceRS, LEDLEYScience(1959)
NCBI基因库和WGS(Whole Genome Shotgun,全基因组鸟枪法)数据库中随时间变化的序列总数
在1990年代到2000年代,测序技术的重大改进以及成本的降低使数据呈指数级增长。自2008年以来,摩尔定律不再是DNA测序成本的准确预测指标,在大规模并行测序技术出现后,摩尔定律降低了几个数量级。
虽然在某些情况下,根据必要的计算,一台简单的台式计算机就足够了,但生物信息学的一些项目将需要更庞大、昂贵和需要专门知识的基础设施。一些政府资助的专门从事高性能计算的组织已经出现,例如:
- Compute Canada ( https://www.computecanada.ca ),
- New York State’s High Performance Computing Program ( https://esd.ny.gov/new-york-state-high-performance-computingprogram );
- The European Technology Platform for High Performance Computing ( http://www.etp4hpc.eu/ )
- China’s National Center for High-Performance Computing ( http://www.nchc.org.tw/en/ ).
一些生物信息学中使用的非脚本和/或统计编程语言,以及应用软件和程序包
A brief history of bioinformaticsJeff Gauthier, Antony T.(2019)
Science 合集
2002 年03 月,美国《Science》周刊登载了系统生物学专集,链接:( http://science.sciencemag.org/content/295/5560 ) 该专集导论中的第一句话这样写道:“如果对当前流行的、时髦的关键词进行一番分析,那么人们会发现,‘系统’高居在排行榜上。”专题中包含四篇综述论文:
专题封面图:以模块化闻名的乐高积木,是对生物架构和动态过程一个恰当的比喻,包括从基因表达到组织和有机体的功能各个层次,组件之间的联系、如何被管理的,以及它们是如何进化的。这些都是理解不同层次生物复杂性的关键。
第一篇是有北野宏明所作,阐述了从系统的层面理解生物学,我们必须研究细胞和有机体功能的结构和动态,而不是细胞或有机体的孤立部分的特征。系统的特性,如鲁棒性,成为中心问题,了解这些特性可能会对医学的未来产生影响。然而,在系统生物学的成就能够发挥其备受吹捧的潜力之前,需要在实验装置、先进软件和分析方法上取得许多突破。
Systems Biology: A Brief OverviewHiroaki KitanoScience 01 Mar(2002)
第二篇综述从工程理论和实践中阐明一些生物复杂性的见解。先进的技术和生物学有着截然不同的物理实现,但它们在系统级组织方面的相似之处远比人们普遍认为的要多。这两个领域的趋同演化产生了由协议的精细层次结构和反馈调节层组成的模块化架构,这些架构是由对不确定环境的鲁棒性需求驱动的,并且经常使用不精确的组件。这些令人困惑和矛盾的特征既不是偶然的,也不是人为的,而是源于复杂性和鲁棒性、模块化、反馈和脆弱性之间深刻而必要的相互作用。
Reverse Engineering of Biological ComplexityMarie E. Csete1, John C. Doyle2,*Science 01 Mar(2002)
第三篇以海胆为例,阐述了胚胎内胚层和中胚层规格的基因调控网络。该网络是由大规模扰动分析,结合计算方法,基因组数据,顺式调控分析,和分子胚胎学。该网络目前包含40多个基因,每个节点都可以通过顺式调控分析在DNA序列水平上直接验证。其结构体系揭示了发育的具体和一般方面,例如特定的细胞如何在胚胎中产生它们指定的命运,以及为什么这一过程在发育过程中不可阻挡地向前发展。
第四篇综述以心脏这一器官为例,阐述了器官建模的进展。成功的生理分析需要理解细胞、器官和系统的关键组成部分之间的功能相互作用,以及这些相互作用在疾病状态中是如何变化的。这些信息既不存在于基因组中,也不存在于基因编码的单个蛋白质中。它存在于亚细胞、细胞、组织、器官和系统结构中蛋白质相互作用的水平。因此,除了复制自然和计算这些交互来确定健康和病理状态的逻辑之外,没有其他选择。生物数据库的迅速增长;细胞、组织和器官模型;而强大的计算硬件和算法的发展使得从基因到整个器官和调节系统的生理功能的定量探索功能成为可能。
Modeling the Heart--from Genes to Cells to the Whole OrganDenis NobleScience (2002)
相关领域前沿文章
根据使用跨学科工具从多个实验中获得,整合和分析复杂数据集的能力的系统生物学解释,一些典型的技术平台包括:
基因组学,表观遗传组,转录组学,蛋白质组学,代谢物组学,糖组学,脂类组学,除了上述给定分子的识别和量化之外,进一步的技术还分析细胞内的动力学和相互作用。 包括:相互作用组学(Interactomics),代谢流组学(Fluxomics),生物组学(Biomics)。
其他技术如计算机科学,信息学和统计学的其他方面也用于系统生物学。
多组学方法对某种特定疾病的研究
组学数据收集在整个分子池上,以圆圈表示。除了基因组外,所有的数据层都同时反映了遗传调控和环境,这可能会对每个个体分子产生不同程度的影响。细黑箭头表示在不同层中检测到的分子之间潜在的相互作用或相关性。例如,红色的转录本可以与多种蛋白质相关联。在同一层中,交互也很普遍,图中未表述。
2. 基因组
汉族人全基因组
该研究作为十万人汉族基因组计划一期成果,收集并分析了11万汉族人基因组单核苷酸变异数据,并发布了汉族人群的遗传数据库及在线分析平台 – “PGG.Han”, ( https://www.hanchinesegenomes.org/HCGD/index#home1 )
此举填补了中国人群在大规模可用参考基因组数据集上的空白、并提供了免费在线计算分析平台。
为了获得全面、独立、高质量的中国人群特异性基因组数据库,中国代谢解析计划ChinaMAP(China Metabolic Analytics Project)诞生了。4月30日,ChinaMAP在《cell research》杂志上发表了一期研究成果,首次报道了来自全国27个省份和直辖市、8个民族超过一万人的深度全基因组测序数据分析,发现了1.36亿个单核苷酸多态性(SNPs)和1070万个插入或缺失位点(INDEL),其中一半以上是未在其他数据库报道过的新突变。
泛癌症全基因组
nature杂志二月份整理了数篇全基因组的泛癌症分析的文章,链接:(https: www.nature.com/collections/afdejfafdb )
癌症是一种基因组疾病,由细胞获得关键癌症基因的体细胞突变引起。这些突变改变了调节细胞生长和与组织环境相互作用的途径。直到最近,对癌症基因组的研究都集中在蛋白质编码基因上,这些基因加起来只占基因组的1%。为了解决这个问题,ICGC/TCGA全基因组癌症分析(PCAWG)项目对超过2600种原发癌症及其38种不同肿瘤类型的正常组织进行了全基因组测序和综合分析。这项研究揭示了广泛的大规模结构性突变在癌症所扮演的角色,确定这种癌症相关的突变基因调控区域,推测肿瘤进化多个癌症类型,照亮了体细胞突变和转录组之间的相互作用和研究生殖系遗传变异的作用在调节突变过程。本集包括描述由PCAWG协会进行的核心分析集的论文,并展示了数据、工具和其他对那些寻求进一步研究这个遗留数据集的人有用的资源。
Pan-cancer analysis of whole genomesCampbell, P.J., Getz.et al.Nature(2020)
Patterns of somatic structural variation in human cancer genomesLi, Y., Roberts.et al.Nature(2020)
The repertoire of mutational signatures in human cancerAlexandrov, L.B., Kim.et al.Nature(2020)
Genomic basis for RNA alterations in cancerCalabrese, C., Davidson.et al.Nature(2020)
泛癌线粒体基因组
泛癌lncRNA组
泛癌染色质组
泛癌转座子组
泛癌信号通路和网络分析
食道鳞状癌全基因组测序
李彦宏挂名,2020年5月发表在《cell research》上,该研究报告了目前最大的食管鳞状细胞癌(ESCC)基因组图谱数据集,发现了多个与临床相关的编码和非编码基因组突变,可用于开发可用于诊断和治疗的生物标记物。
TCGA数据库
TCGA (The Cancer Genome Atlas)数据库 https://portal.gdc.cancer.gov/ ,癌症基因组图谱(TCGA)是一个具有里程碑意义的癌症基因组学项目,它对20,000多例原发性癌症进行了分子特征分析,并对33种癌症类型的正常样本进行了匹配。国家癌症研究所和国家人类基因组研究所的这项联合工程始于2006年,汇集了来自不同学科和不同机构的研究人员。
TCGA数据库首页,可以根据感兴趣的癌症或者基因名进行检索分析
2020年5月11日,哈佛医学院的Andrew D. Cherniack和Rameen Beroukhim合作发表文章Comprehensive Analysis of Genetic Ancestry and Its Molecular Correlates in Cancer,通过分析TCGA数据库的33种癌症类型的10678名病患的突变速率、DNA甲基化、mRNA和miRNA表达,鉴定出与癌症相关的遗传性祖先因素(ancestry effect)。
癌症信号通路图谱
癌症系统生物学的一个关键目标是利用大数据来阐明癌症发生的分子网络。但是,到目前为止,还没有系统地评价这些努力取得了多大进展。在这项分析中,作者调查了六种主要的系统生物学方法,以绘制和建模癌症路径,并注意到他们的网络地图覆盖和增强现有的知识。
A census of pathway maps in cancer systems biologyKuenzi, B.M., Ideker.et al.Nat Rev Cancer(2020)
乳腺癌全基因组测序
这项新的研究于5月18日发表在《Nature Genetics》杂志上,一项对涵盖26.6万名女性的遗传研究的分析表明,人类基因组中有32个新位点的变异似乎影响了乳腺癌的患病风险。该发现被认为首次将此类风险变异与多种乳腺癌亚型相关联起来。该分析确定了32种新的乳腺癌风险变异体。其中有15个变异与一种或多种特定的乳腺癌亚型独立相关。其中有7个变异与雌激素受体状态有关,7个与肿瘤等级有关,4个与HER2受体状态有关,2个与孕激素受体状态有关。
心脏疾病与全基因组
5月21日发表在《Nature Communications》,麻省理工学院和哈佛大学广泛的研究人员发起的对近30万人的研究表明,人们的DNA与心脏的电活动之间存在数百种新的联系。此项发现描述了“心电图PR间隔的多族系全基因组关联研究识别出202个潜在的心脏传导基因”的研究。这个研究结果可能在未来某日引领出一种先进的筛查方法,以识别最有可能患上疾病的人群,并可能有助于揭示新的遗传目标的研究和药物开发。
古DNA组重建人类历史
在这篇论文中,一支由十数家科研机构合作参与的国际研究团队分析了来自阿根廷、巴西、智利、秘鲁等不同地区的49个个体的全基因组古代DNA,每个个体的历史至少追溯到9000年前,拥有共同的祖先。研究结果在南美洲和北美洲之间发现了两条过去未知的基因交换流,描摹出美洲祖先变迁的大致轮廓。这些基因证据揭示了古代人类在美洲的复杂定居过程。
Diversity through Ancient DNA CellTimothy D. O’Connor Native American Genomic, Issue, 5cell(Nove)
该文系首次正式发表大规模东亚南北方史前人类基因组分析结果,为探源华夏族群及其文化和修正东亚南方人群演化模式做出了重大贡献。在中华民族探源方面,发现中国、东亚主体人群连续演化是主旋律,中国南北方古人群早在9,500年前已经分化,至少在8,300年前南北人群融合与文化交流的进程即已开始,4,800年前出现强化趋势,至今仍在延续。
American Association for the Advancement of Science Print, Received for publication November 4, 2019 Accepted for publication May 1, 2020Melinda A. Yang, Xuechun Fan, Bo Sun.et al.science(2020)
3. 蛋白组
蛋白组
人类SRMAtlas:代表人类蛋白质组的166,174个蛋白型肽,通讯作者为Hood L.
蛋白-蛋白相互作用
A reference map of the human binary protein interactomeLuck, K., Kim.et al.Nature(2020)
A Proteome-Scale Map of the Human Interactome NetworkRolland, T.Cell(2014)
蛋白修饰组
2019年12月9日,来自英国的Pedro Beltrao和David Ochoa在Nature Biotechnology杂志上发表文章The functional landscape of the human phosphoproteome,创建了参考磷酸化蛋白质组图谱和功能图谱。从104种不同的人类细胞类型或组织中人工收集112个富含磷酸化的蛋白质数据集,并重新分析6801个蛋白质组学实验,建立出质量控制标准,创建了一个含有119809个人类磷酸化位点的参考磷酸化蛋白质组图谱。利用机器学习对59个蛋白质组、结构相关、调控相关、进化等相关的特征进行整合分析,得到综合性的功能评分,以此建立出磷酸化蛋白的功能图谱,并鉴定出不同分子机制、生理过程和疾病中的调节性磷酸化位点。
The functional landscape of the human phosphoproteomeOchoa, D., Jarnuczak.et al.Nat Biotechnol(2020)
4. 表观遗传组
2019年7月10日,来自美国NIH的Ananda L. Roy团队在Science Advances上发表了题为The NIH Common Fund/Roadmap Epigenomics Program: Successesof a comprehensive consortium的综述文章,回顾了NIH表观遗传组学蓝图计划(Roadmap)启动的契机和总体目标;介绍了表观遗传组学项目的成果:参考表观遗传组、国际间表观遗传的合作研究、疾病的表观遗传基础和新型表观遗传标志物的发现、表观遗传研究技术的发展等;总结了项目实行过程中的经验和教训。
5.人体微生物组
许多栖息在人体的微生物与人类的健康和疾病密切相关,但大部分微生物对我们而言仍然是未知的。美国国立卫生研究院(NIH)人体微生物组项目的研究人员已经确定,仅人体肠道微生物组就有100万亿细菌,是人体细胞数量的10倍。此外,它还含有大约800万个蛋白质编码基因,是人类基因组的360倍。科学家们已经了解到,这些细菌组成的变化——生态系统中的一种干扰——可能与一系列人类疾病有关,包括炎症性肠病、哮喘、关节炎和多发性硬化症。
一个微生物组学的期刊专题封面
继人类基因组计划之后,美国国立卫生研究院在2007年启动了一个类似的雄心勃勃的计划——人类微生物组计划(Human Microbiome Project,HMP), https://www.hmpdacc.org/ 。
Tackling the MicrobiomeLeroy HoodScience (2012)
意大利特伦托大学的一支研究团队展开一项超大规模研究,样本涵盖了不同地理位置、年龄和生活方式的人群以及人体的不同部位。他们利用单样本宏基因组组装,构建出超过15万个人体微生物基因组,其中77%以前从未被描述过,确定了一些普遍存在、但以前未被发现的微生物类群,尤其是那些在非西方人群中的独特微生物。
6.转录组
7.代谢组
代谢组学对生物代谢产物的收集的研究提供了表型的分子测量,或基因型与环境相互作用产生的特征。利用一系列的分析工具来攀登收集的数据大山,包括分子检测和生物信息学,科学家使用代谢组学来理解系统生物学,这是一个完整的生物及其福祉的计算分析和建模。
Big data, big picture: Metabolomics meets systems biologyMike Mayscience(2017)
Metabolomics and Isotope Tracing.Cell2018 May(2018)
方法与标准
方法和工具
基于深度学习分析全基因组
进化在分子水平上是可预测的吗?回答这个问题的宏伟目标需要对控制基因型和表现型之间复杂关系的突变效应的理解。在实践中,它涉及到集成系统——生物学建模、微生物实验室进化实验和大规模突变分析,这一壮举是由最近可用的必要的计算工具和实验技术实现的。这篇综述调查了最近在绘制进化轨迹方面的进展,并讨论了这些预测在多大程度上是现实的。
理解复杂的生物系统需要软件工具的广泛支持。系统生物学计算工作流程的每一步都需要这些工具,通常包括数据处理、网络推理、深度筛选、动态模拟和模型分析。此外,现在正在努力开发集成的软件平台,以便在工作流程的不同阶段以及由不同的研究人员使用的工具可以很容易地一起使用。这篇综述描述了在系统生物学研究的不同阶段所需要的软件工具的类型,以及目前可供系统生物学研究人员使用的选择。
Software for systems biology: from tools to integrated platformsGhosh, S., Matsuoka.et al.Nat Rev Genet(2011)
标准
Standards for systems biologyBrazma, A., Krestyaninova.et al.Nat Rev Genet(2006)