【学术前沿】贾大/薛宇团队发现改变自噬选择性的人类癌症突变
细胞自噬(Autophagy)是重要的生物学过程,通过形成双层膜结构的自噬体,将包裹在其中的胞质内容物投递到溶酶体中,从而降解损坏的细胞器、错误折叠的蛋白质、聚集体和病原体等。2016年日本著名生物学家大隅良典(Yoshinori Ohsumi)教授因“细胞自噬机制的发现”获颁诺贝尔生理学或医学奖(【BioArt深度】“自噬”获诺奖为何只授予大隅良典?——梳理自噬领域重大发现历程)。自噬有非选择性和选择性之分。根据胞质内容物的类型进行划分,目前已发现超过20种不同类型的选择性自噬,如糖原自噬(Glycophagy)、线粒体自噬(Mitophagy)和脂类自噬(Lipophagy)等。自噬的选择性由自噬受体决定,许多自噬受体的蛋白质序列中包含LC3结合区域(LC3-interacting region, LIR),从而能够与定位在自噬体上的LC3蛋白结合,将胞质内容物转运到自噬体中。研究表明,自噬选择性异常与人类重大疾病如癌症高度相关,但导致自噬选择性异常的原因,及其如何参与人类癌症发生发展的机制仍有待研究。
近日,四川大学贾大教授团队与华中科技大学薛宇教授团队在Nature Communications在线发表了合作研究的新成果,论文题为Model-based analysis uncovers mutations altering autophagy selectivity in human cancer。在该工作中,两个团队整合公共数据库中已知的人类癌症突变数据,利用机器学习技术设计了LIR基序预测算法,构建了基于模型分析的LIR相关突变推断算法,结合多组学泛癌分析和体内、体外等实验方法,联合开发了一种全新的研究策略“癌症相关LC3结合蛋白推断”(inference of cancer-associated LC3-interacting region-containing proteins, iCAL),系统预测了148个蛋白质中222个改变LIR基序的相关突变。
根据预测,实验证实突变通过影响多个自噬相关蛋白如ATG4B、STBD1、EHMT2和BRAF的LIR基序改变自噬的选择性。泛癌分析表明糖原自噬受体STBD1可能具有潜在的抑癌功能,结肠癌临床样本的免疫组化结果也发现STBD1在癌症组织中表达下调。进一步研究表明STBD1的W203C突变通过破坏其LIR基序,削弱STBD1与LC3家族成员GABARAPL1和糖原的细胞共定位,并抑制胞内的糖原自噬和代谢过程。细胞增殖和小鼠移植瘤实验表明,过表达STBD1显著抑制癌细胞生长,而过表达突变体STBD1 W203C或敲低STBD1则促进肿瘤增殖。转录组测序分析表明,敲减或W203C突变导致癌症细胞的代谢重编程,结合靶向代谢组和代谢流分析发现敲减STBD1促进肿瘤细胞的糖酵解(Glycolysis),增强三羧酸循环与核酸代谢,从而促进肿瘤增殖。最后,根据iCAL预测的148个蛋白质,模拟了联接自噬选择性和肿瘤发生的分子网络,推测突变可通过影响9种自噬相关通路参与调控癌症。
本工作通过系统预测改变LIR基序的相关突变,揭示了癌症突变影响自噬选择性的作用机制,发现W203C通过改变STBD1的LIR基序,抑制糖原自噬和代谢过程从而促进肿瘤生长,首次阐明了糖原自噬参与癌症调控的分子机制,并为相关靶向癌症的自噬选择性调控研究和临床实践提供了新的计算方法和参考数据。
据悉,四川大学的研究生韩珠和华中科技大学的研究生张玮之为该论文的共同第一作者,共同通讯作者为薛宇教授和贾大教授。四川大学的陈路教授、清华大学代谢组学平台刘晓蕙博士等也为课题提供了大力支持。
原文链接:
https://www.nature.com/articles/s41467-021-23539-5
作者(薛宇)赘述——晃晃悠悠与迷迷糊糊
2016年10月19日上午,老马打电话过来,说他在美国西南医学中心做博后时的好朋友大教授来华科,问我中午是否有时间一起吃饭。那年我正在申请某人才项目,没有上会评,人迷迷糊糊的,就敷衍地回了句好。中午吃饭的时候也心不在焉,印象中某五大三粗的再世张飞晃晃悠悠地冲上来又是握手又是拥抱又是互加微信,完了拿出一张写得密密麻麻的A3纸出来让我给签个名儿。我隐约中瞄了一眼标题《晃晃悠悠与迷迷糊糊》,心说这作者也是够无聊的,写这种完全没有任何乐趣的文字,签就签吧,随后签个名儿——大菜鸟到此一游。
饭吃完了大家也就散了,后面那就是岁月静好,友圈点赞(编者:才吃一顿饭就开始点赞?也太不矜持了。),总之就是相安无事。主要是研究方向离得实在是太远了,我一搞生物信息学的,跟一实验学家能交流点儿啥?(编者:可以交流如何用最简单的实验验证或者校正预测模型是否靠谱)完全没地方下口嘛(编者:对刺猬没法下口不是那谁谁谁吗?)。日子一晃三个月就过去了,2017年1月17日下午14:36,大教授(编者:这da教授不是那da教授)微信上问了个问题,说他们现在做一个调控细胞自噬的重要蛋白质SNX27,发现这个蛋白质有个重要的磷酸化位点,问如何找到调控这个位点的激酶。我说这事儿简单,我有个GPS软件,专门预测激酶特异性的磷酸化位点【1】,自己下软件用用就得了。这类问题咱遇到的比较多,按惯例打发一下就得了(编者:打发人最高境界应该是王熙凤应付刘姥姥那段)。本来以为这事儿到此就为止了,结果晚上11点钟的时候大教授贴了预测结果,问究竟挑哪个激酶做实验?我一看这结果,好家伙,预测出来几十个激酶。怎么办?很简单,编喽,反正又不是我做实验,做出来那是算得准,做不出来那就是准确性有待提高。比方说,我忽悠大教授,预测的结果里面,激酶MAPK14参与调控自噬,MAPK11也调控自噬,那这俩没准儿会调控SNX27。大教授想了想,回复说谢谢,回去试试。
三个月之后大教授打电话过来,说实验很成功,这俩激酶都能够磷酸化SNX27的第51位丝氨酸位点。然后问了第二个问题:MAPK家族有很多成员,怎么知道这个家族的其他成员不磷酸SNX27?这种问题怎么可能难得到我?继续编嘛,反正又不是我做实验。我说,这个家族也就十几个成员,合成一下siRNA挨个做敲降(编者:一看就是没怎么做过siRNA实验的,siRNA合成首先不便宜,然后经常性的不work,然后还必须小心脱靶,对了还要用WB验证,抗体是难道是送的吗?十几个成员验证下来成本不低的,工作量嘛,就看siRNA是否work,抗体对不对咯。看来大教授也是不缺钱的主),完了测一下这个位点的磷酸化水平,如果有下降那就是能磷酸化,筛一下不就得了?某某岸冰教授不是讲了吗?当代生命科学的精髓就是:筛。大教授想了想,回复说谢谢,回去试试。再后来,这个工作投了拒,拒了又投,最终发表在细胞领域的顶级期刊Journal of Cell Biology上(编者:那细胞领域的权威杂志是?),主要讲激酶MAPK14和MAPK11响应饥饿等细胞外刺激,通过磷酸化SNX27从而调控内吞循环的作用机制(贾大/李国辉/戴伦治团队联合揭示内吞体运输的动态调控机制)【2】。这个工作出奇的精彩,由于方向离得比较远,论文我读得迷迷糊糊的,但大教授的研究风格很鲜明:一是研究手段特别丰富(编者:这个年代手段不丰富能发那个什么文章吗?),从生物信息学、蛋白质组、细胞生物学一直到结构生物学(编者:没有小鼠动物实验?),我数了半天也没数清楚究竟跨了多少个学科(编者:听说交叉学部申请项目至少要是真实的跨2-3次?);二是工作的纵深感特别好,一个磷酸化位点洋洋洒洒快20页,讲完上游讲下游,机制基本上说透了。这个风格也体现在大教授的另一个工作里,主要是结合各种各样的研究手段发现了一个可以结合SNX家族成员的一个结构性模体(Structural motif)SBM,预测了70个包含SBM模体、可以与SNX成员的蛋白质 【3】。这个工作里我们组打了下酱油,没有实质性的贡献。
故事讲到这里,那理论上就应该…开始正题了。所以啰嗦完闲话后,我们下面讲正题。
话说在做SNX27磷酸化的这个工作时,大教授意外地发现另一个内吞循环的调控因子TBC1D5可以和定位在自噬体膜上的LC3结合。2017年1月17日下午讨论到这个点的时候我怒了,说这工作不是在做SNX27吗?怎么脑洞会开到TBC1D5这个完全不相关的分子呢?这不是典型的滑哪儿做哪儿吗?大教授解释,内吞循环的调控机制有多种,细胞生物学的研究里,不光要证明SNX27的磷酸化调控内吞循环,还要看其他机制是不是也参与这个过程,如果只有SNX27调控内吞循环,那这个发现就是“重要的”。这里就可以看出实验学者和生信学者在思维方式上的区别。生信学者一般认为,我做了预测,能验证出来那就是对的(编者:确定不是玩马后炮?),验证不出来那就是错的。实验学家要在这个维度上加一个“重要性”,即研究重要分子的重要机制,做重要的发现。发现重不重要,是最最重要的问题(编者:在某实验室,每个进来的学生分发差不多的材料,最后能发10分还是3分,就看基因是否重要了,重要性决定文章档次这个是硬道理)。通过预测,TBC1D5上有四个潜在的LC3结合区域,也就是LIR模体。大教授验证其中的一个可以和LC3结合。然后问了第三个问题:能做个更准确的LIR模体预测工具吗?我跟他讲:技术做得好,五分发到老(编者:不是说NAR发到老吗?)。LIR模体预测之前别人已经做过工具了,算法改进没啥意思,所以既不值得做,也不值得认真做。
2017年3月21日下午,大教授发来个信息,说LIR模体附近如果有氨基酸被磷酸化或者发生其他修饰的话,有可能会改变与LC3的结合力,问这事儿我感不感兴趣?次日,大教授转了一篇BioART的学术推荐过来《胡荣贵组揭示泛素调控自噬的新机制》。荣贵兄我俩都很熟,这个工作讲的是两个泛素结合酶(E2)UBE2D2和UBE2D3通过促进自噬受体SQSMT1/p62第420位赖氨酸位点的泛素化,使其发生解聚暴露出N端的LIR模体,从而与LC3结合【4】。我读完文章不干了:大教授,这坑挖得过分了哦,泛素化位点是K420,LIR模体是第338到341位的WTHL,俩之间的距离差了几十个氨基酸,没法算。我很客气的建议大教授:哪儿好玩儿,去哪儿玩儿吧!
迷迷糊糊中,我琢磨着这事儿,貌似是可以做的。在实验研究中,由于磷酸根带负电,实验学家往往将发生磷酸化修饰的丝氨酸(S)、苏氨酸(T)或酪氨酸(Y)替换成酸性的天冬氨酸(D)或谷氨酸(E),这样如果先构建一个LIR模体预测工具,然后对原始的序列和替代后的序列进行打分。如果LIR模体的分值差别很大的话,那就可以推测这个替代/磷酸化很有可能会影响与LC3的结合。后来我们按这个思路做了,做不出来,做不出来的原因是实验太复杂。按这个思路做,我们需要找到一个调控自噬的重要激酶、一个调控自噬的重要磷酸化底物,底物上要有一个重要的LIR模体,还得有一个重要的、并且调控自噬的磷酸化位点,并且这个磷酸化位点还得是调控LIR模体。计算好做,实验没法做。磷酸化位点还必须得是单个,如果是多个位点协同发挥功能的话,位点特异性的磷酸化抗体就没法做了。能同时找到这五个要素的计算方法,我没有本事做得出来。
话说大家一筹莫展的时候,大教授出了个好主意:我来武汉,一起吃顿小龙虾吧?后来的事情证明,小龙虾是这个工作的胜负手,意义重大,后来论文投稿的时候,我们觉得应该把小龙虾作为共同通讯作者(编者:小龙虾的单位署名可以写上口味,那么问题来了,是写上油焖还是蒜香还是清蒸还是麻辣还是十三香?),以体现其重要性。其间最大的争议在于,小龙虾应该署成The crayfish还是The crayfishes,主要是2017年4月14日晚大家吃掉了十几盆小龙虾(编者:腿没抽筋?十几盆在我钓虾的年代也就值十几块钱罢了),所以肯定不能是单数。但如果按The crayfish 0, The crayfish 1,…, The crayfish N来署名的话,这又不太严谨,理论上先得给每只小龙虾起个名儿办个身份证儿再署名,但是操作上有难度,因此只能作罢。回忆起当天的情况有好多个版本,大教授的版本是大家小龙虾就啤酒从晃晃悠悠喝到迷迷糊糊,又从迷迷糊糊喝到晃晃悠悠,临别的时候突然想明白了:费那些事儿干啥,直接看癌症突变如何影响LIR模体不就得了吗(编者:是灵机一动还是抽风导致的)?
考虑突变如何影响LIR,实验上只需要找到一个重要的、调控自噬的基因,上面有一个突变,能够改变一个邻近的LIR模体。这样就可以把五个要素简化成三个要素。实际在做的时候,STBD1是已知的糖原自噬(Glycophagy)受体,所以事实上就只需要再探索两个要素即可。问题想清楚了,那具体该怎么实现?第一步当然是先做一个LIR模体预测的工具。这样问题就来了,究竟该用经典的机器学习算法,还是深度学习算法?当训练数据少的时候,深度学习算法并不比经典的机器学习算法准确。我们做这个工作的时候,总共已知的LIR模体就127条,数据量太小了,所以改一下已有的GPS算法,这个工具就做成了,准确性不错。所以该用什么样的算法,取决于究竟要解决什么问题,不必硬凑热点(编者:凑热点就是发NAR)。
第二个问题,原始序列和包含突变的序列分别打分,分值差别多大的时候是“显著的”?广义上来讲,这个问题就是科学研究中的“重复实验”问题,也就是说,在做实验的时候,要不要做生物学或者技术重复。如果是研究单个分子,生物学重复是必须的,并且往往还得在不同的细胞、动物体系里重复验证,确保结果的可靠性。问题在于:做组学的时候,要不要做重复?如果不做重复的话,怎么估随机误差和数据的分布?咱做组学从来不做重复,原因在于:没钱(编者:错,原因在于很多组学的重复性较差,不行可以玩个蛋白组学试试看看)。没有重复的组学鉴定,和本工作要解决的问题是一样的:就突变前和突变后俩序列,这咋能估出数据的分布捏?这个问题相当有难度,我打个比方:王二麻子年薪3万,今年公司员工的待遇有调整,王二麻子的年薪变成了6万,问王二麻子的加薪在统计学上是“显著的”吗?这就需要找一个合理的参照系。把公司员工的工资从大到小排序,总经理去年年薪10亿,今年多挣了一个小目标,变成11亿,拿王二麻子这点儿加薪跟总经理比,那明显不合理。但跟王二麻子年薪差不多的张三,从29999元涨到30001元;李四的年薪从30001元降到29999元。如果考虑王二麻子“邻近的”张三和李四的年薪变化,不需要任何统计学知识也能看得出来王二麻子的加薪必须是显著的,所谓的统计学也就是加个p值,不会违反这么明显常识。所以这个问题的解题思路,就是当没有重复样本的时候,借邻近的数据估分布,然后算p值就行了。中国科学院上海营养与健康研究所邵振研究员,做过一个无重复蛋白质组的差异蛋白质检测算法MAP 【5】,哈佛大学刘小乐教授找影响泛素化降解子(degron)的工作里,用蒙特卡洛模拟的方法来求分布【6】。要解决的问题是一样的,解题的思路差不太多,但具体的解法那就是杀猪杀屁股,各有各的招了。
第三个问题,预测出来148个候选蛋白质之后,挑哪个做后续的验证?这么多蛋白质全筛一遍那是不可能的,这就得用到咱生信领域经常做的泛癌分析,一是看候选蛋白质跟癌症有没有关,二是看跟哪种癌症有关。这一步做完之后,前期的生信分析就结束了,后面就是大教授的事了。
然后咱就在目瞪口呆中看着大教授天神下凡一般地解决了战斗。两家一起汇总数据、写论文的时候,我的第一个问题是:这148个蛋白质,你为啥选STBD1?答:STBD1是已知的糖原自噬受体,糖原自噬目前在肿瘤里研究的比较少,所以做这个可能会有比较明显的新意(编者:玩新蛋白有风险,超级大佬们发个新蛋白在CNS都说这玩意有新意,开启新的范式转移,年轻PI做全新蛋白有可能一些杂志不送审,原因你懂的 )。后来我读了相关文献,发现被忽悠了:什么叫研究的比较少啊,之前就没有发表的糖原自噬参与肿瘤的文章好不好?大教授辩解:我们读了文献,确实没有找到,但是也保不齐看漏了。我说做研究得严谨,是就是,不是那就不是,我们这个工作是首次建立糖原自噬与肿瘤关联的工作吗?答:理论上来说,应该是的。我……好吧,第二个问题:为啥要关注结肠癌?答:你预测的那个W203C突变,是从肠癌临床样本里测到的,当然要做相关的癌种喽。好吧,剩下的实验咱基本能看得懂,构建质粒证实STBD1的LIR模体,以及W203C突变对LIR的影响,临床样本中的表达验证、多种细胞中的功能验证、小鼠实验,看起来STBD1应该具有抑制肿瘤的活性,W203C破坏STBD1的正常功能,从而促进肿瘤生长,生物学效应与敲低STBD1相似,该有的实验一个不缺。啧啧,当真是高手。
不对,等会儿,为啥冒出来个转录组测序,这是什么情况?大教授解释:光做STBD1讲不清楚事儿啊,还得看STBD1能调控哪些下游分子。我当时冷汗就下来了:咱是搞蛋白质和修饰的,转录组不怎么熟啊(编者:难怪菜鸟教授说自己不会写代码)。大教授说你不熟没关系啊,我请高手来指导你。所以在四川大学陈路教授的指导与合作下,转录组分析那部分就顺风顺水的完成了。然后就是第四个问题:怎么又多出个代谢组来?靶向代谢组我还迷迷糊糊的能看懂,这个碳13的同位素示踪标记(Isotope tracing analysis)是个什么鬼?大教授嘿嘿一笑,说他也不知道,找行家喽。清华大学代谢组学平台刘晓蕙博士帮我们做的代谢组检测,给我们解释说同位素示踪标记就是看碳源从哪里来,跑哪儿去。结合我们的数据就可以发现,敲低STBD1之后,碳源主要进入糖酵解通路,然后进入三羧酸循环促进肿瘤细胞的营养代谢,还进入核酸生物合成通路,为细胞增殖提供核酸分子。这样故事的主线就很清楚了,W203C突变通过破坏STBD1的LIR模体,改变糖原自噬的选择性,从而促进肿瘤的生长(编者:做了这么多组学一看就是奔着CNS去的)。
最后,做一下总结:1)生物信息学与实验生物学的思维方式相反,生信需要先确定目标、建立模型、设计算法,然后做靠谱或者不靠谱的预测,预测究竟靠谱不靠谱,就看逻辑推理是否严密、合理。当然缺点很明显,预先考虑的模型里有那就能预测到,没有那就不能预测,所以理论上来讲,生信预测不太可能出现惊喜。实验生物学是探索性质的,实验做出来那就有,做不出来就没有,根据已有文献推导出的各种假设,要么不成立,要么不那么重要,所以思维得高度发散,直觉是至关重要的。当然缺点也很明显,根据已有的接着做很难有突破,找新的又无异于大海捞针。所以逻辑和直觉,哪个好?结合起来更好。2)因此,生物信息学应当与实验生物学紧密合作,计算和实验,究竟哪个重要?结合起来更重要。3)好的合作,对合作的各方事实上都是很好的提升。从这个合作中,我大致能明白实验生物学发现的逻辑,大教授差不多也理解生信究竟能提供什么样的工具和参考信息,具体的技术细节不那么重要,相信自己的伙伴就好。4)科研旅途中,大家失败多、成功少,通常的状态要么是晃晃悠悠,要么是迷迷糊糊,论文发表的时候(编者:错,应该是论文接受的时候),眼神会亮那么一下,然后又是继续埋头前行。所以志同道合的合作者、好朋友尤为珍贵,科学需要继续前行,科学家也需要继续前行。
最后的最后,感谢大教授的合作,感谢大教授的天才学生韩珠博士(编者:君不见“天才论”被猛批过?),感谢我的学生张玮之、宁万山、王晨玮博士和邓万锟博士,感谢陈路教授和刘晓蕙博士,感谢本工作的所有作者,感谢投稿过程中许多朋友给予的指点和建议。还要特别地感谢武汉的小龙虾(编者:原产地搞清楚了吗?)。
参考文献
1. Wang C, Xu H, Lin S, Deng W, Zhou J, Zhang Y, Shi Y, Peng D, Xue Y*. (2020) GPS 5.0: An Update on the Prediction of Kinase-specific Phosphorylation Sites in Proteins. Genomics Proteomics Bioinformatics, 18(1):72-80.
2. Mao L, Liao C, Qin J, Gong Y, Zhou Y, Li S, Liu Z, Deng H, Deng W, Sun Q, Mo X, Xue Y, Billadeau DD, Dai L*, Li G*, Jia D*. (2021) Phosphorylation of SNX27 by MAPK11/14 links cellular stress-signaling pathways with endocytic recycling. J Cell Biol, 220(4):e202010048.
3. Yong X, Zhao L, Deng W, Sun H, Zhou X, Mao L, Hu W, Shen X, Sun Q, Billadeau DD, Xue Y, Jia D*. (2020) Mechanism of cargo recognition by retromer-linked SNX-BAR proteins. PLoS Biol, 18(3):e3000631.
4. Peng H, Yang J, Li G, You Q, Han W, Li T, Gao D, Xie X, Lee BH, Du J, Hou J, Zhang T, Rao H, Huang Y, Li Q, Zeng R, Hui L, Wang H, Xia Q, Zhang X, He Y, Komatsu M, Dikic I, Finley D, Hu R*. (2017) Ubiquitylation of p62/sequestosome1 activates its autophagy receptor function and controls selective autophagy upon ubiquitin stress. Cell Res, 27(5):657-674.
5. Li M, Tu S, Li Z, Tan F, Liu J, Wang Q, Zhang Y, Xu J, Zhang Y, Zhou F, Shao Z*. (2019) MAP: model-based analysis of proteomic data to detect proteins with significant abundance changes. Cell Discov, 2019, 5:40.
6. Tokheim C, Wang X, Timms RT, Zhang B, Mena EL, Wang B, Chen C, Ge J, Chu J, Zhang W, Elledge SJ*, Brown M*, Liu XS*. (2021) Systematic characterization of mutations altering protein degradation in human cancers. Mol Cell, 81(6):1292-1308.e11.
来源:BioArt