科研 | Cell:一类泛植物蛋白复合体图谱展示了进化的高度保守性与新颖的蛋白组装方式
编译:东方不赢,编辑:Emma、江舜尧。
原创微文,欢迎转发转载。
植物是全球生态和经济系统的基础,植物体内的蛋白质调节生理活动的功能,目前被鉴定出来的较少。蛋白质相互作用图谱通常能揭示蛋白质功能,并开辟了鉴定基因和蛋白质功能的新途径。与人类蛋白质研究进展形成鲜明对比的是,植物中的活性多蛋白复合体尚鉴定。确定蛋白质之间的相互作用是发现基因和蛋白质功能的关键步骤,并经常为研究和控制关键的细胞过程研究提供了新途径。揭示此类植物的生化信息将极大地促进植物基础研究的进程,并指导实际应用,例如提高作物产量,提高抗病/抗逆性和生产生物燃料等。由于在动物和酵母中大规模鉴定蛋白质复合物的技术(例如高通量亲和纯化质谱法)价格过高,且因植物基因组有多倍体的复杂性和转化效率问题,导致鉴定过程极其困难。因此,植物中的AP-MS实验目前仅限于拟南芥和水稻中的目标蛋白家族。在鉴定程度较低的植物物种中,这种研究蛋白质-蛋白质相互作用的方法仍非常困难,开发新的研究策略势在必行。本项研究是目前最大植物表达蛋白以及蛋白装配研究,研究者从13种具有科学和农业重要性的植物中系统地鉴定了一种蛋白质复合物,大大扩展了植物中稳定蛋白质复合物的目前数据。研究者通过使用共分离质谱技术,回收鉴定已存在的蛋白复合物,确认了在植物中可能形成的蛋白质复合物,并鉴定了之前未知的蛋白相互作用,从而解释了超过11亿年的绿色植物进化的蛋白质保守性。几种参与春化和病原体抗性的新型的复合物的特性,对农业有至关重要作用。研究者还观察到了几种不同植物同源的相似分子组装的动物蛋白复合物,其中包括兆道尔顿级的tRNA多合成酶复合物。研究产生的图谱提供了植物不同细胞共享的保守,稳定的蛋白质装配体的跨物种视图,并提供了解释植物遗传学和突变表型的机制与生化框架。
论文ID
实验设计
首先研究者通过速冻离心提取天然蛋白质,提取物通过过筛进行HPLC色谱分离。之后提取将拟南芥,水稻,小麦,西兰花,大豆,番茄,蕨类和江南卷柏的叶和/或芽裂解液,并使用CelLytic PN试剂盒进行新鲜西兰花和青椰子细胞核提取,超声处理提取莱茵衣藻裂解细胞核。
研究者进行了蕨转录组Illumina HiSeq 4000测序,使用Velvet,Oases进行转录组装配,基于与UCLUST的聚类计算非冗余蛋白质序列集,要求>97%的氨基酸同源性。
在DionexUltiMate3000 HPLC系统上分离裂解液进行色谱分析。使用BioSep-SEC-s4000每45 s收集一次馏分。分子尺寸在流动相进行筛选后。Poly CATWAX A进行1小时盐梯度洗脱,并收集馏分进行梯度洗脱离子交换。使用Agilent 3100OFFGEL分离器进行等电聚焦。BioRad蛋白测定法确定该可溶部分保留了透析前量的约35%,然后将其用OFFGEL储备液稀释以聚焦。
质谱分析使用超滤和溶液内消化或蛋白质的SP3珠结合以及珠上消化,以96孔板形式制备样品进行质谱分析。在孵育步骤中,将板用透明膜密封。将提取物片段化并进行尺寸筛选,分使用三种Orbitrap Elite,Fusion和Lumos热质谱仪之一系统反相色谱进行120分钟梯度洗脱。从网上数据库下载实验物种的已知数据作为参考,使用ProteomeDiscover对LC-MS分析结果进行分析。
使用eggNOG-mapper对每个植物蛋白质组针对的绿色植物数据库进行常规群HMM进行搜索。使用XlinkX进行的蛋白间交联鉴定,将同一个同源群中的肽的肽谱匹配(PSMS)相加,得出同源群PSM计数。
研究者按分数评价的装配的同源群的洗脱矩阵,按物种分类将32个实验的训练集分为几组,即所有双子叶植物,单子叶植物,被子植物,维管植物和绿色植物实验。其中将玉米作为保留品种单独提出。接下来,他们针对所有46种训练矩阵在同源群洗脱曲线之间计算了一系列分数,要求潜在的相互作用表现出一定程度的可复制性和进化保守性。
研究中使用了来自CORUM数据库的已知人类蛋白质复合物,作为积极稳定的蛋白质-蛋白质相互作用的金标准集。通过对拟南芥蛋白的正向杂交,将人类蛋白质标识符转换为virNOG同源群标识符。从CORUM数据中补充了大量已知成对相互作用,例如,共结晶,共免疫沉淀,直接证明了从TAIR收集的稳定的蛋白-蛋白相互作用。
研究者通过监督scikit-learn机器学习从阳性阴性测试集识别相互作用蛋白,之后高于阈值的交互作用得分被输入到R igraph cluster_walktrap中以定义相关蛋白复合物。将同源群之间的Walktrap重加权值画为树状图,并每隔一段时间进行切割以获嵌套结构。研究者基于包含大豆尺寸排阻实验拟合了一个线性模型,计算了每个组分的分子量。从外部数据库数据对于组分进行相互作用功能注释,用脚本进行蛋白质百万分率(PPM)计算,使用SWISS-MODEL的预先计算的3D同源性模型评估与交联数据的一致性。
拟南芥SALK T-DNA突变体种子和野生F1进行了开花,果实量的表型分析与基因型鉴定,最后通过PCR进行进一步鉴定。
实验结果
1. 来自13种植物的大量蛋白质富集和共纯化数据集
研究者从跨越11亿年绿色植物进化的13个物种中生成了一个庞大,多样且具有代表性的蛋白质组学数据集(图1A)。研究者结合了拟南芥,芸苔,大豆,大麻,茄属(番茄),藜麦,玉米,水稻,粳米,小麦,椰子,蕨菜,卷柏和衣藻的蛋白质组学数据。研究者成功克服了其中一些物种技术难关,例如成功增加西兰花、椰子的细胞核,小麦、大麻的胚胎组织的实验产量。同时,研究了无种子植物(蕨类卷柏)和单细胞绿藻(衣藻)的早期进化学特征。该研究的数据集结合了多种物种和细胞类型,从而使整个茄科植物表达的蛋白质具有较广比较范围。
图1.用于确定稳定的植物蛋白复合物的整体共馏质谱(CF-MS)工作流程
(A)所选物种代表了广泛的进化时间。时间跨度约一百万年。(B)将天然提取物进行色谱分离,并通过MS鉴定每个馏分中的蛋白质。(C)蛋白质的CF分析是物理关联的依据。(D)首先使用隐马尔可夫模型(HMM)将来自每个物种蛋白质组的蛋白质分配给直系同源群(OG)。(E)不使用匹配多个OG(浅灰色文本)的肽;但是,唯一匹配单个OG的肽可用于定量各个色谱馏分中OG的丰度。每个OG的洗脱曲线显示为山脊线或热图(蓝色表示归一化的丰度)。(F)完整的丰度测量数据集的热图,涵盖了13个物种所有分馏物中的23,896个检测到的OG。热图下的虚线描绘了每个分级实验。(G)(F)的放大部分,显示了六种众所周知的蛋白质复合物(名称在右侧)的亚基(的强共洗脱。颜色强度(蓝色为阳性信号)描绘了35种总分离物中两个不同色谱分离(顶部标记)中每个OG(左侧标记)的测量的丰度。
研究者通过一些生物物理特性(尺寸排阻色谱法(SEC),离子交换色谱法(IEX)或等电聚焦(IEF))将每种天然的非变性蛋白提取物进行了分离(图1B和1C),进行MS分析。研究者总共从2,111个单独的馏分中收集了14,520,970个可解释的肽质谱图,每个图谱都捕获了天然植物蛋白和蛋白装配体的不同子集。全面蛋白质组分析对于解决植物生物化学和功能的各种问题具有重要的价值,例如可用来解决不同物种或组织如何调节高丰度蛋白质表达,蛋白质如何修饰等等问题。
进化信息策略可提高蛋白质组学的功能覆盖率,并能在不同倍性水平的物种之间进行比较。由于直系同源性,将来自不同生物的蛋白质观察结果整合起来非常复杂。由于植物基因组通常很复杂,多倍体性以及过去的全基因组重复,因此这个长期存在的问题在植物中更为严重。例如,大多数种植的小麦是六倍体的,包含超过100,000个基因,这使得与模型二倍体(例如具有约35,000个基因的拟南芥)的比较变得复杂。多个几乎相同的蛋白质的存在还减少了找到与单个蛋白质唯一匹配的肽可能性,从而降低了通过标准蛋白质组学方法回收的蛋白质的含量。当前统计方法往往会在高度冗余的基因组上出现不稳定现象,因为实际上,相似蛋白质之间会半随机地分配共享多肽。因此,研究者开发了一种进化相关的蛋白质分组方法,该方法通常适用于来自任意数量不同物种的蛋白质组学数据分析。
研究者的策略是根据同源群而不是单个蛋白质来解释质谱观察。直系同源群(OG)是现代生物中的一组基因,这些基因源自这些生物的最后共同祖先的相同原始基因。研究者首先将每种植物物种中的所有蛋白质编码基因分配给预定的OG,将高度相关的蛋白质序列分成组(图1D)。然后,研究者将来自任何OG成员蛋白的质谱图作为其OG丰度的证据(图1E),这使OG中多个蛋白(但不是单个蛋白独有)共享的肽有助于定量。重要的是,OG与蛋白质不同,具有一致的标识符,可以用作整合多种物种数据的关键。因此,研究者将拟南芥中核糖体蛋白L36 OG中的这三种蛋白折叠到与其他物种中OG的表现直接比较。例如,小麦中该OG中的七个蛋白质的集合。图1F直观地总结了研究者整合到该比较系统进化框架中的跨植物物种的超过200万种蛋白质丰度测量值,图1G突出显示了来自图1F中数据的复合物的具体示例。
与倍性水平一致(图2A),二倍体生物(如拟南芥和衣藻)显示出每个OG含有一种蛋白质的峰。相反,四倍体藜麦和大豆每个OG均显示两种蛋白质的峰(两个亚基因组中的每一个),而六倍体小麦以同样的方式显示三种蛋白质的峰。有趣的是,穗状苔藓(Selaginella moellendorfii)基因组可能是温室杂交种,每个OG包含两个蛋白质或每个亲本基因组包含一个蛋白质。
图2.通过将蛋白质分配给OG增强的高倍性物种中的蛋白质组学
(A)每种植物物种每个OG分配的蛋白质数量,根据倍性着色。左侧的阴影椭圆形代表亚基因组组织。(B)鉴定独特OG与独特蛋白质的肽谱匹配的增加倍数(x轴)。每个条形图代表对左侧命名的物种进行的单个分级实验,并按(A)中的倍性进行颜色编码。(C)与蛋白质组中可能的总和(灰色)相比,实验观察到的蛋白质(左图)或OG(右图)的数量(蓝色)。请注意,本研究中每个物种的相对覆盖率是从该物种收集的数据量的函数。(D)该数据集足以识别这种方法可能产生的大多数OG。每个点代表n个实验的子样本(x轴)中已识别的OG数量(y轴),每n采样重复十次。(E)具有多于两种蛋白质的OG几乎均等地可能会由单一显性蛋白质代表,而不考虑倍性。(F)质谱观察到的OG(绿色)表示更高的mRNA丰度(TPM,每百万转录本,对数转化; 数据来自(Panch,2014)),例如衣藻。灰色代表该研究中未观察到的OG。(G)对数转化的蛋白质丰度(y轴)显示了衣藻中与RNA丰度(x轴,TPM,与F中相同)的预期相关性,但有许多异常值,特别是RuBisCo(绿点)。
这种基于OG的蛋白质组学分析策略将六倍体小麦的高度冗余蛋白质组的特异光谱计数的回收率提高了300%以上,而不会严重影响具有小二倍体基因组的生物,例如衣藻(图2B)。同样,观察到的OG的覆盖范围比观察到的跨物种蛋白的变化范围小(图2C)。因此,将进化相关蛋白质的集合折叠为OG是一种灵活且广泛适用的解决方案,可用于跨物种蛋白质组学分析,尤其是在具有不同倍性水平的植物之间。
2. 表达植物蛋白质组的特征
实验数据代表了来自不同物种和提取物中的141,910多种独特蛋白质和23,896种OG,这是迄今为止进行的最大的植物蛋白质组研究,涵盖了广泛的功能区域(图S1)。研究者充分捕获了可通过天然分馏MS观察到的蛋白质组,这可以通过使每个其他实验中观察到的新OG数量饱和来证明(图2D),这表明更多的样品不太可能显着改善保守的蛋白质组覆盖率。总共观察到11,339个最保守的绿色植物OG中的96.7%。因此,该实验数据集提供了有意义的绿色植物保守表达的蛋白质组图谱。
图S1:与图2相关的蛋白质组属性
(上)组织对COG功能类别的组织富集。用每个高级COG类别注释的每个组织的总光谱计数的比例。细胞核样品显示出丰富的信息与新陈代谢的却是。来自所有组织的光谱计数的15%–20%来自没有COG注释的直系同源群。(下)拟南芥mRNA与蛋白质丰度。观察到RuBisCo在拟南芥组织中具有相对中等的mRNA转录水平,但通常是实验中最丰富的蛋白质。
蛋白质集折叠的OG掩盖了单个蛋白质的特征,因此研究者检测OG内旁系同源物的特点。具有三个或更多成员蛋白的OG约有一半包含一种相对于其他成员高度表达的优势蛋白(图2E)。相似的的集合具有在成员之间更均匀地共同的蛋白质表达。这些趋势在具有广泛变化的基因组大小的多个物种中是一致的(图2E)。因此,在约50%的多基因OG中,通过差异表达测得的某种程度的功能差异是显而易见的。
研究者观察到的蛋白倾向表达更丰富的mRNA的产物(图2F)。在其他生物中的研究表明,蛋白质丰度与RNA转录水平之间存在不完善的相关性,这在很大程度上归因于转录后,翻译和降解速率对稳态蛋白质水平的影响。一个值得注意的异常值是RuBisCo酶,它是地球上最丰富的蛋白质,也是实验中35个中的16个中最丰富的蛋白质。RuBisCo在蛋白质水平上的含量比根据其转录本水平所预期的要丰富得多;例如,在衣藻(图2G)或拟南芥组织(图S1)中。
3. 稳定的蛋白质-蛋白质相互作用的系统鉴定和评分
在许多情况下,已知复合物的亚基共洗脱模式容易被肉眼观察到,例如20S蛋白酶体,前折叠蛋白和TSET / TPLATE复合物的亚基也一样,它们分别以独特的复合物特异性洗脱模式共洗脱(图1G)。但是,必须有一个计算框架才能系统地并以高通量鉴定共同洗脱的蛋白质。
为了定量评估表明稳定相互作用(非瞬时)蛋白的共洗脱行为,基于已知复合物的观察数据采用了监督式机器学习方法。蛋白质-蛋白质相互作用仅源自蛋白质在多个正交生化分离实验中的协调分离行为。分类器为每种潜在的蛋白质-蛋白质相互作用分配了介于0和1之间的概率CF-MS评分,其中1表示根据观察到的高度协调的蛋白质洗脱曲线,存在物理关联的可能性很高,而0表示没有相互作用的证据。
研究者接下来想严格评估物理蛋白质之间相互作用的统计置信度,针对完全隐含的886种已知蛋白质相互作用的测试集进行评估。通过其CF-MS评分对蛋白质相互作用进行排名,可以准确地得到此符合条件的隐含测试集(图3A),并使其能够评测分类系统的错误率。对于CF-MS得分超过0.50的相互作用,研究者观察到90%的准确性(即≤10%的假阳性相互作用)和23%的重复。CF-MS得分高于0.2的相互作用在重复率为51%时显示了50%的准确度,因此在许多情况下仍可提供有用的信息(图3B)。相互作用往往是高度保守的,但是当任何一个互动对象的光谱数少于200个时,则不太可能发现已知的相互作用(图S2)。尽管如此,这个研究得到的图谱与人类MS复杂图谱相比有很大进步。
图3.蛋白质复合物相互作用的推算和整体验证
(A)CF-MS评分的蛋白质-蛋白质相互作用(PPI)在886种已知相互作用中的精确重复被从训练集中除去。(B)与(A)中相同的保留集的错误发现率(FDR)与CF-MS得分。(C)在训练集除去的物种(玉米)中,具有较高CF-MS分数(FDR <10%)的PPI高度相关性。(D)具有较高CF-MS分数的蛋白质相互作用很容易在拟南芥中被AP和酵母双杂交鉴定,并很可能在拟南芥和水稻中共表达。(E)三种蛋白质复合物的CF-MS PPI(黄色)与AP(蓝色)和酵母双杂交相互作用(红色)的一致性。
4. 通过独立分析和化学交联确认CF-MS相互作用
研究者测得的高可信度蛋白质相互作用与独立的蛋白质相互作用观察结果一致。通过验证CF-MS支持的相互作用是否与玉米的独立生化分离形状一致,但玉米并不在训练集中。CF-MS得分较高(> 0.5,比较自非玉米植物)的直向同源物对在玉米芽中显著共洗脱(图3C)。研究者还将观察到的相互作用与其他独立的植物蛋白相互作用数据集进行了比较,发现具有较高CF-MS得分的蛋白对更有可能一起亲和纯化,通过酵母双杂交体相互作用,并在拟南芥,大米中表现出协调的mRNA表达(图3D)。高可信度的评分和酵母双杂交结果相互支持。
为了使用正交方法进一步独立地验证衍生蛋白复合物,实验中采用了两种无针对性的大规模生化方法。对于第一种方法,研究者在代表性的拟南芥大小排阻实验中将预期的单体质量与观察到的质量作图,并证明相当大比例的蛋白质被洗脱后的质量大大高于其单体质量,这表明内源性复合物在其的实验条件下保持完整(图4A;STAR方法)。
图4.通过校准的分子质量测定和直接化学交互验证的蛋白质复合物
(A)在代表性拟南芥尺寸排阻色谱法(SEC)分级分离中观察到的质量对预测的单体质量。阴影反映了每个六角形框的OG数量。(B)与未交互的观察到的蛋白质相比,来自大豆和衣藻的交联的蛋白质更有可能具有较高的CF-MS得分(绿线,对数似然)。(C和D)亚基间交联仅出现在复杂亚基共洗脱的部分中。大豆T-复合物伴侣蛋白(CCT)的洗脱曲线和亚基间交联在(C)中显示,衣藻光系统II(PSB)在(D)中显示。(E和F)具有观察到的亚基间交联(黑线)的复合物的3D同源性模型(STAR方法)。大豆CCT(E)用亚基着色,衣藻光系统II(PSB)(F)用蓝色,红色和黄色分别突出显示PSBB,PSBC和PSBO亚基。
第二种验证方法进行了全局化学交联以分馏大豆芽和衣藻蛋白提取物中的相互作用蛋白,鉴定了来自大豆的194个异源蛋白-蛋白质相互作用和来自衣藻的228个异质蛋白-蛋白相互作用(表S3)。交联还原了31个保留的测试集的正向交互作用和一个负向交互作用,凭经验估计错误发现率为3%。CF-MS得分高的蛋白质对被交联的可能性更大(图4B)。
此外,观察到的交联结果与已知蛋白质相互作用的物理限制一致(图4C–4F)。该实验数据证实了CCT复合物在所有个植物中都是保守的,并表明植物中的3D亚基组织类似于动物。同样,在衣藻中观察到CF和光系统II复合物的交联,观察到的蛋白间交联位于适当的相邻溶剂可及的亚基界面处(图4D和4F),这是可以预计到的极为复杂的天然构象。共分离的亚基之间多个结构上连贯的亚基间交联的还原提供了实验证据,表明CF-MS的确捕获了蛋白质组装体。
结合使用独立生化方法(独立生物中的CF,校准的SEC和化学交联)进行的实验验证以及与文献中确定的蛋白质相互作用的比较,提供了有力的物理学证据。
5. 多蛋白复合物的鉴定证实了由基因含量的推测并揭示了其他装配过程
因为CF-MS数据集忠实地捕获了许多大型的多蛋白装配体(图1G,4A和4C–4F),接下来研究者通过基于测得的成对相互作用进行蛋白质聚类,来系统确定高等植物蛋白复合体(图5)。未选择单个聚类临界值来定义离散复合物,而是选择了多个临界值来反映相互作用蛋白的层次结构和精确重复的取舍。例如,一个截断位置定义了80S核糖体,而更精细的截断位置则区分了其40S和60S亚复合体(图5)。表型充分鉴定的复合物中的OG以深绿色标注, 另外发现了一些以前未报道的亚基和相互作用体,它们有可能丰富对这些已知复合物在植物中的功能的理解。令人兴奋的是,观察到许多复合物,这些复合物由新的相互作用(图5,黄色)以及植物中未表征的蛋白质组成(图5,黑色)。
图5.保守进化的植物蛋白复合物的概述
细的同心圆显示了四个聚类阈值中,每个聚类阈值根据PPI的聚类层次分解为复杂的聚类。),蛋白OG(实心圆圈)被涂成绿色因为之前有对任一物种的报道的信息,而对于本研究中首次报道的蛋白,则为黄色。粗体轮廓表示植物中未表征的蛋白质,当OG中的所有蛋白质均缺乏拟南芥基因符号和UniProt功能注释时,定义为未表征。
内部阳性对照鉴定了文献中报道的117种复合物。这些某些真核蛋白质复合物,例如保守的寡聚高尔基(COG)复合物,SRP68 / 72异二聚体以及TRAnsport蛋白颗粒(TRAPP)和BRCC36异肽酶(BRISC)复合物,仅在以前根据植物的基因含量才被推断出来。研究发现仅在非植物物种中报道的复杂的直系同源物,例如MAA3(酵母蛋白Sen1和人类Senataxin的植物直系同源物)与RNA聚合酶III,这是最近在酵母中发现的一种调节RNA聚合酶III终止的相互作用。
同样,尽管植物中存在酵母和哺乳动物寡糖基转移酶(OST)复合物亚基的同源物,但尚未通过化学方法分离出完整的复合物。研究观察到植物OST复合物与酵母和哺乳动物OST复合物重叠,并且在大豆中检测到HAP6和OST48之间的交联,这表明该植物OST复合物类似于其他真核生物。研究者确定了潜在的OST成分Stomatin样蛋白1(SLP1),SPC25和EMC1。研究者还确定了起始因子(eIF)2B复合体的成分,其中eIF2Bγ/ε和eIF2Bβ/δ二聚体显然彼此共纯化(图1G),但eIF2Bα亚基似乎不稳定。eIF2B复合物在植物中的存在一直是推测性的,因为该复合物尚未从植物中鉴定和分离。
蛋白质相互作用提供了一种通过关联谬误来预测蛋白质功能的方法。研究者发现了几个实例,可以在文献中确认与未鉴定蛋白的最高得分相互作用,作为其阳性对照。例如,与拟南芥蛋白AT5G14910最高可信的相互作用因子是叶绿体核糖体蛋白RPS1。研究者还观察到了蛋白质之间相互作用的实例,这些相互作用催化连续的酶促反应,例如OXP1和GEP之间的新型相互作用,即催化谷胱甘肽降解的最后两个步骤的酶。如果在严格的FDR鉴定出的复合物缺乏已知成员,则使用核心亚基来查询评分的相互作用通常会恢复预期的亚基和潜在的新型相互作用银子。稳定的相互作用可以更好地恢复,就像COP9核心小信号体恢复,而不是短暂恢复的COP1关联。研究者在http://plants.proteincomplexes.org提供了一种查询由于蛋白质相互作用功能的工具。
6. 植物谱系中明显的可替代多蛋白组装
对蛋白质复合物的分析表明,同源基因产物并非总是以相同的方式组装的。研究者发现许多情况下,植物似乎相对于其他谱系具有相互作用蛋白的替代排列。此外,研究者发现了一些案例中,植物表现出与其他谱系相似的蛋白质组装,通过相似的分子相互作用实现了相似的架构或功能。在两种情况下,仅蛋白质序列同源性不足以预测蛋白质复合物结构。
一个突出的例子是保守的tRNA多合成酶复合物(MSC)。尽管必需的氨酰基tRNA合成酶的功能组装在所有生物中似乎无处不在,但在动物,酵母,古细菌和细菌在内的生物体中,已经确认了其不同的结构,成员和辅助蛋白。它们通常是相关性较低且取决于条件,因此很难确定。研究者观察到一个保守的兆道尔顿级MSC,其结构和附属亚基不同于动物,真菌和细菌,但仍具有明显的相似性(图6A)。研究中的植物MSC包含ARC1的直系同源基因,它是酵母MSC的中央支架,但缺少人类MSC中使用的p38,p43和p18支架。这与最近报道的拟南芥中含有ARC1,赖氨酸和异亮氨酸tRNA合成酶的候选MSC一致。该研究中植物MSC复合体可能含有ARC1;Ybak;聚集的线粒体蛋白(CLU);WD40支架蛋白VIP3 / SKI8;谷氨酸,异亮氨酸和色氨酸tRNA连接酶(E,I和W)。外围成员可能包括缬氨酸,酪氨酸,组氨酸,天冬氨酸,脯氨酸,苏氨酸,亮氨酸,谷氨酰胺,赖氨酸和蛋氨酸的tRNA连接酶(图6A)。在20种真核tRNA连接酶中,组装这个特定组合结构可能有功能优势,理由是9种人类MSC连接酶中有8种与植物MSC都有此特征。
图6.动物多蛋白复合物在植物类似物中的替代组装
(A)植物多tRNA合成酶复合物(MSC)。左上方:在大豆和小麦尺寸排阻分离物中,在含有氨酰基tRNA合成酶的大分子量复合物中观察到的蛋白质洗脱图。右上方:与预测的单体质量(三角形)相比,在该实验数据集中所有植物大小尺寸分离中,左侧每种蛋白质的观测分子量(圆圈)。下图:代表性真核细胞谱系中MSC蛋白的结构域和结构示意图。(B)一种植物蛋白酶体组装伴侣复合物,其中植物PAC2与人类类似物PAC2的直系关系由双头黑色箭头指示。右图:PAC2-PAC2L相互作用的CF-MS得分(蓝色箭头)远远超过了PAC2或PAC2L与任何其他蛋白质相互作用得分的得分。灰色条表示所有其他蛋白质相互作用的合并的CF-MS相互作用评分。(C)植物转录反应模块,用双头黑色箭头指示RZ1B / C与人的类似物RBMX的同源性。右:RZ1B / C-VRN1交互的CF-MS得分(蓝色箭头);(B)中的灰色条。(D)叶绿体NADH脱氢酶样复合物(NDH)的新亚基。左:热图显示特定植物提取物中已知NDH亚基的共洗脱(紫色)以及三种新型相互作用物(下箭头)。中:通过相互作用线连接蛋白质(圆圈)的网络图;线宽反映了CF-MS得分。右:电子运输复合物中的保守分子结构和硫氰酸甲硫转移酶亚基模块的用法说明:两种植物特异性(NDH和FNR)和一种保守的线粒体(复合物I)。下:显示植物中已知NDH亚基的所有NDH亚基的所有CF-MS得分中位数,以及所有类硫氰酸酶蛋白。
正如直系同源物的存在不能预测植物MSC复合物一样,遗传上直系同源物的缺乏也不能预测功能相似的复合物的缺失。一个例子是蛋白酶体装配伴侣的复合物,在人类中,稳定的PAC1和PAC2异源二聚体有助于蛋白酶体α亚基环的组装。尽管植物缺少PAC1基因,但研究者发现了与PAC2相关的植物特异性PAC2样蛋白(图6B)。以前尚未在植物中描述蛋白酶体装配伴侣复合物,这表明类似PAC2 /PAC2的复合物可能具有此功能。
研究者还发现了植物利用谱系特异性亚基选取已知分子模块来发挥植物特异性功能。一个例子是保守的真核转录因子的异二聚体。在人类中,RBMX与SAFB相互作用,以结合SREBP1基因的启动子来调节肝脏中的固醇。研究者发现RBMX转录因子(RZ1B/C)的植物直系同源基因与植物特异性蛋白VERNALIZATION1(VRN1)的相互作用(图6C),已知两者均调节FLOWERING LOCUS C(FLC)基因并共同控制一个植物特有的关键事件:在适当的季节快速开花。
最后,叶绿体类似NADH脱氢酶(NDH)的复合物提供了一个更加复杂的例子,说明植物如何利用植物特异性蛋白质来适应保守的功能模块,从而达到植物特定的目的。NDH是叶绿体复合物,与线粒体的呼吸复合物I具有相同的结构,两种复合物均在电子流向中起作用。研究者鉴定了已知的NDH亚基,并发现了另外三个亚基:EGY1,EGY2和STR4A(图6D,左)。这些新的亚基在与NDH亚复合物B和L成员的相互作用中具有特别高的CF-MS得分,并且在某些情况下,其得分高于NDH复合物的已知成员之间的相互作用(图6D,网络)。EGY1和EGY2是叶绿体定位的膜内金属蛋白酶,其具体功能仍然未知。EGY1,EGY2和NDH复合物在C4植物束鞘叶绿体中的特异性富集说明这些金属蛋白酶与NDH在体内的结合。第三个新的亚基STR4A是功能未知的类硫氰酸酶。尽管已知线粒体复合体I与花红素结构域硫转移酶相互作用,但在结构上相似的植物NDH复合体中尚无此类亚基的报道。STR4A是拟南芥中的6种类硫氰酸酶结构域蛋白之一。但是,CF-MS得分表明在这六个中只有一个现实STR4A与NDH复合物的关联(图6D,右下)。关于STR4A作用的一个可能来自相关蛋白STR4,该蛋白是将光合铁氧还蛋白:NADP还原酶(FNR)复合物定位到叶绿体类囊体膜上所必需的。由于NDH,FNR和配合物I是电子传输复合体,因此硫转移酶也可能作用于电子传输中的某些共享功能。
这些观察结果突显了共享特征诸如直系亲缘关系和蛋白质复合物结构,仅仅能够提供有限信息,但是由于植物有选择地利用蛋白质及蛋白复合物,因此直接测量特定的蛋白质相互作用和组装对于理解植物蛋白质的功能性作用是必要的。
7. 表型相互作用:从蛋白质相互作用中发现蛋白质功能和表型
研究者发现了几个病原体防御和免疫基因之间通过蛋白质相互作用的重要联系。植物病原体抗性机制是一项重要的研究领域,因为病原体每年导致数十亿美元的作物损失。研究者发现了两种与植物-病原体相互作用有关的复合物。第一个由碱性内切几丁质酶B(CHIB)和渗透蛋白样蛋白34(OSM34)组成(图7A),代表两个不同的蛋白家族,致病相关蛋白3组(PR3)和致病相关蛋白5组(PR5)。每种蛋白质已被单独报道有真菌细胞壁靶向作用,并且在灰霉菌B. cinerea感染后都高度共表达。该观察结果支持蛋白质复合结构的稳定性,这是不同发病机制相关蛋白类别所无法预测的。这种蛋白质复合物的表型可以帮助制定防止真菌感染造成破坏性的农作物损失的保护策略。
图7.通过植物基因的相互作用将植物基因对应到的表型
(A)OSM34和CHIB形成复合物,与针对真菌感染的共表达证据一致(右下图)。(B)PIP和NUDT3在植物中形成复合物。通过III型分泌系统将PIP和NUDT家族的细菌成员注入植物细胞。(C)DOMINO1和LA1形成植物特异的核糖体RNA结合复合物,每个杂合子具有相似的拟南芥T-DNA插入突变表型,其异常白色种子含有捕获的胚胎。左下:来自基因型的长角果的代表性部分。右下:定量分析每种基因型的三个角果中的观测异常种子。正常种子与异常种子的比率反映了突变体表型的可变渗透性以及每个种群中纯合和杂合胚的存在。(D)与相同阶段的野生型植物相比,对拟南芥植物纯合的VDAC2 / 5或3βHSD/ D T-DNA插入突变体表现出开花延迟和可育长角果数量减少。下部图片显示了开花结束时主要花序的育性缺陷。尽管vdac2纯合子几乎不产生种子,但3βhsd/ d突变体显示出一定的育性水平,范围从几乎没有含种子的长角果的植物到仅早期长角果显示出育性缺陷的植物。
第二种新型病原体相关蛋白复合物包含脯氨酸亚肽酶(PIP)和Nudix水解酶3(NUDT3)(图7B)。这些蛋白在植物中的天然作用尚不清楚,但有趣的是,细菌类型的PIP和Nudix水解酶都是通过细菌III型分泌系统注入植物细胞以抑制植物免疫力。对复合物中已知病原体抗性蛋白的直接观察为解释先前的结果并检验其影响植物健康的机制创造了一个具体的框架。
研究者还验证了DOMINO1和LA1蛋白之间的新的相互作用,该作用证实了这个相互作用在胚胎发育中的作用。已知这些基因中任一个的功能丧失都会产生核仁肥大表型和不能存活的胚胎。尽管LA1是在各种真核生物中发现的RNA结合蛋白,但DOMINO1是一种植物特异性蛋白,其突变与核糖体生物发生缺陷和缓慢的胚胎生长有关。研究者在多种植物和组织中观察到了稳定的DOMINO1 / LA1复合物(图7C),并通过比较拟南芥的单个domino1或la1插入突变体系的表型,确认了这两个亚基都影响相同的生物过程。杂合domino1或la1突变植物系产生具有许多异常透明胚的长角果(图7C)。这些表型相似性支持DOMINO1和LA1蛋白在体内的功能复合物在核糖体生物发生中具有作用。
蛋白质相互作用也为预测全新的表型提供了基础。研究者利用这一趋势研究线粒体外膜孔蛋白VDAC2/5和3β-羟基类固醇脱氢酶/C-4脱羧酶(3βHSD/D)之间新的相互作用。由于vdac2突变体具有晚开花和不育表型,通过相互作用预测3βhsd/d突变体将显示出相似的缺陷。探究者直接比较了VDAC2或3βHSD/D2功能丧失的T-DNA插入的拟南芥的表型。任一基因的破坏都延迟了开花,诱导了波浪状的叶片并降低了繁殖力(图7D)。这些共有表型的潜在缺陷可能与植物固醇的转运和修饰有关,因为3βHSD/D是一种固醇修饰酶,而VDAC2在小鼠中对于类固醇生成是必不可少的。
结论
通过使用MS蛋白质组学确定了植物之间共享的主要蛋白质复合物,构建了植物细胞基本生物化学“关系线图”的参考图谱。其深度挖掘的蛋白质组学数据从多个组织和不同物种中捕获了超过200万种蛋白质丰度数据,揭示了在超过10亿年的植物进化中得到了保存的稳定且丰富的蛋白质复合物。这项研究是一个植物蛋白质组的整体性全局徒步。尽管某些特定基因产物功能与表型的关联仅仅通过几个例子,理论数据稍显不足,但这项结果产生的庞大的数据集未来可以通过更加深入的方法进行探索,可以成为众多相关研究的重要实验基础。