本文首发于知乎:https://www.zhihu.com/question/31042431/answer/3604018623
在生物化学,质谱分析在进入组学时代后,有两个关键突破。一个是利用质谱对化合物进行高精度化学结构分类,另一个是我提出的利用质谱数据进行代谢方向判断。
先介绍利用质谱对化合物进行高精度化学结构分类。
大家去医院经常会做各种血液检查。血液检查的项目大部分是各种分子,比如尿素,血糖,胆红素,三酸甘油酯,胆固醇等等。目前纳入体检项目的关键分子多达上百种,而传统上,检验每种分子的存在以及含量,通常需要一个专门的试剂。反复抽血做各种项目自然十分不便,那么有没有一种办法可以一次性将上百种甚至上千种分子全部检测出来呢?其实这种方法在二十年前就已经开发出来了,叫基于质谱的高通量组学方法。
简单来说,血液里有许多分子,先用过滤等方法将大的蛋白质细胞过滤出来,只剩下小分子。然后用层析法(俗称过柱子,基本原理是小的分子会比较快地通过柱子,而大的分子会慢一些),将血液中的分子根据重量分类。先通过柱子的液体会被一点点送入质谱仪中,形成多个质谱图。这个步骤在自动化后可以非常迅速,一次可以形成上千张质谱图。
质谱仪的原理在高中有学过,就是将一个分子在撞击裂解后不断加速再经过磁场偏转,最后落到不同的位置。因为不同的分子有不同的结构,裂解的方式也不一样,所以每个分子都会形成一个独特的质谱图,就像它的指纹一样。
在过去,科学家和工程师会先用纯的标准样品打出一系列质谱图,形成一个质谱图数据库,然后再用这些标准质谱图去和使用血液样本打出的质谱图做对比,如果相似度很高,那么就会判断血液样本中的质谱图是对应数据库中的质谱图所对应的分子。
可是在高通量质谱仪诞生的那一天起,就有一个困扰所有质谱分析者的问题,已知天然化合物的种类有上百万种,而质谱图数据库中的质谱图的种类数通常是几千最多一万,因为高纯度的标准品通常是极其昂贵的,例如绿原酸是一种在植物中普遍存在的酚类化合物,5mg的标准品在丁香园上就要近千元(https://www.biomart.cn/infosupply/111554768.htm?from=search_1),形成一个质谱数据库的开销动则上千万。这意味着,通过高通量质谱法得到的几百张甚至几千张质谱图里,只有10%-30%的质谱图是能找到在数据库中相似度比较高的质谱图的,其余大多数的质谱图在实践中则被废弃掉了,没有产生任何价值。如果不能找到对应的质谱图,那唯一能从质谱图中简易获取的信息就是该分子的相对分子质量(通常是质谱图中质量最高或者次高的峰)。
如何利用这些未能识别的质谱图是质谱分析领域近半个世纪的热点问题。在1977年,S. R. Lowry等人提出一种相似性算法对质谱图进行归类。这种基于相似性的网络分类法后面被不断完善,直到今天也是一种热门方法。其核心是每个网络节点代表一张质谱图,而节点之间比较相近的,意味着质谱图的相似度非常高,远的,就相似性很低。相似性高的节点会形成簇,虽然大多数的质谱图无法识别,可每个簇里面有几十个节点,对应几十张质谱图,只要有一张质谱图能识别,那么这个质谱图对应的分子的结构就可以用来推理其他质谱图对应的结构。也就是说,既然这些质谱图是相似的,那么他们对应的分子结构也应该是相似的。即使不是完全准确,大致做化学结构分类是没有问题的。
另一种思路则是Sebastian Böcker团队在2015年提出的,主要是使用机器学习去学习数据库中的质谱图来预测新的质谱图,形成一个大型人工合成质谱图数据库,然后用这个数据库作为标准库去识别分子。这种方法的问题在于准确度极低,不被业界接受。但同样的,用这种方法得到的结果,大致做化学结构分类是没有问题的。
以上两种方法都是间接方法,准确度有限。在2020年,Sebastian Böcker团队推出了CANOPUS,这是一种直接基于深度学习的质谱图分类方法,可以将质谱图以99%左右的准确度进行化学结构分类。这个成绩是和当时深度学习的重大突破有关的。和众所周知的谷歌在2020年利用AlphaFold预测蛋白质结构达到极高准确度是十分类似的。
在2021年10月,Mingxun Wang博士向我介绍了他正在开发的MassQL,这是一种质谱语言。不同于前面所有的方法,它允许人为根据分析化学的知识去设置质谱图的分类方法。理论上它可以突破现有化学结构分类的限制,去做任意分类。
然后介绍如何进行代谢方向判断。
我在2018年初的时候从PNAS的一系列评论第一次了解可再现性(replicability)的准确定义。美国国家科学院对可再现性的定义是:在不同的实验中,它们都致力于回答相同的科学问题,而所有实验的结果呈现一致性 (obtaining consistent results across studies aimed at answering the same scientific question, each of which has obtained its own data)。简而言之,可再现性强调的是同类型但不同时间地点的实验结果的一致性。我当时意识到这是一个极其本质的新概念。它在科学基本方法的层面突出了一致性的重要性。随后我从多个角度多领域深入思考了如何提高科学研究的可再现性,主要是统计和生物。
经常看生物相关新闻的都知道,生物研究的可再现性通常是很差的。同类型的实验经常会出现不同的结果,经常出现过往的研究结果被推翻。 在代谢组学中,我此前一直认为,要提高研究的可再现性,就要多采用化学结构分类的方法去研究代谢化合物的变化,要看整体而不是看单个分子。单个分子的变化从概率上看,可再现性会比较差,但是多个分子合在一起看,概率就会收敛。
而在代谢组学中,除了化学结构分类,还有另一种分类法,代谢通路分类。1932年,Krebs和Henseleit发现了尿素循环:由氨(NH3
)生成尿素((NH2)2CO)。尿素循环将高毒性氨转化为尿素排泄。这是人们第一个发现的代谢循环。代谢有两个方向,合成和分解,这是一个合成代谢。往后至今九十多年,科学家已经发现大量新的代谢通路。可研究这些代谢通路的变化存在许多障碍。
生物上经常会对比两组样本中相同代谢通路中化合物的浓度变化,相关术语是某个通路上调或下调。这些上调下调的定义其实是完全照搬化学平衡移动原理中的平衡向左向右移动。例如尿素循环的总方程式为:
根据这一方程式,按照传统化学反应的知识,如果实验组样本的尿素或 延胡索酸或ADP或Pi的浓度比对照组高,而NH3 ,CO2 ,天冬氨酸,ATP ,H2O 的浓度比对照组低,在生化上,生物化学家就会说尿素循环上调了。这实际上和化学反应上说平衡向右移动是类似的,只不过由于是不同样本进行对比,而且这是一个不可逆反应,不能这样讲而已。由于尿素循环是一个合成反应,那么有时候也会说,合成代谢过程占优势。而反之,则是下调,分解代谢过程占优势。
我在2015年前刚学分子生物学的时候就意识到这个定义是有问题的,因为细胞中的化学反应和实验室烧杯中的化学反应是有极大区别的,细胞中的化学反应是互相关联的,是一个网络,例如在这里,尿素虽然是尿素循环的产物,但它也可以是别的代谢通路的产物,例如精氨酸(Arginine)作为一种含氮氨基酸,就可以在L-arginine amidinohydrolase的催化下转变为鸟胺酸(L-ornithine)和尿素。这意味着,在如果实验组样本的尿素浓度增多,有可能是实际上是这个精氨酸到鸟胺酸的代谢通路上调,而不是尿素循环上调。另外,尿素也是很多代谢通路的起始物料。例如它可以直接排除体外,也可以转化为二氧化碳,还可以合成脲基甲酸。这意味着如果在实验组样本中这些下游反应如果因为某些原因被阻断,那实验组样本的尿素浓度也可以升高。
简而言之,单个在代谢通路中的化合物的浓度升高或降低完全无法用来准确判断该代谢通路实际的方向变化,到底是合成代谢过程占优势还是分解代谢过程占优势。实践中通常需要有多个化合物做对照才会下结论,但这样的结论仍然是有疑问的。在PNAS的相关评论突出可再现性的重要性后,我在做代谢组学分析的时候主要就采用化学结构分类法去判断化合物的上升或下降,代谢通路相对少一些。但代谢通路很重要,是生化的基础,大部分的论文都会以代谢通路为主,化学结构分类为辅,所以这个定义问题一直困扰着我。需要注意的是,这个定义问题并没有引起学界的重视,是我自己提出的问题。
在2022年1月,我当时没了课业压力,在出租屋里休息,开始思考重新如何提高统计和组学的可再现性(replicability)。当时Mingxun Wang的MassQL和Sebastian Böcker团队的高精度化学结构分类让我意识到,单纯采用化学结构分类的方法去提高代谢组学的可再现性这条路已经走到头了。而要更进一步,直接通过质谱图预测小分子结构,并达到类似蛋白质结构的准确性,则理论上存在许多障碍,在可见的未来是一个无法解决的难题。下一个方向就是如何提高判断代谢方向的可再现性。
当时,Naijia Xiao等人的工作让我思考是否有可能通过某种数学定义去解决这一问题。在思考了几天后,我意识到分解代谢和合成代谢的核心是分子平均质量的变化。
假设一共只有三个分子,质量分别为1,2,3。根据拉瓦锡的质量守恒定律可知,分解反应在反应前,只有一个分子,分子平均质量为3,而在反应后,有两个分子,分子平均质量为1.5,分子平均质量从3下降到了1.5。而合成反应则相反。
通过这一简易模型,可以重新定义代谢通路上调和下调(分解代谢过程占优势和合成代谢过程占优势)。
在一个代谢通路中,分别计算其对照组和实验组中该代谢通路所有相关化合物的分子平均质量。如果实验组的分子平均质量比对照组的分子平均质量低,则在该代谢通路中分解代谢过程占优势。如果实验组的分子平均质量比对照组的分子平均质量高,则在该代谢通路中合成代谢过程占优势。
为了使表达更为简单,可以定义分解和合成为两个代谢方向:如果实验组的分子平均质量比对照组的分子平均质量低,则代谢平衡向分解方向移动。如果实验组的分子平均质量比对照组的分子平均质量高,则代谢平衡向合成方向移动。
这一定义可以进一步拓展,不局限于一个代谢通路,而可以是很多相关的代谢通路合在一起组成的代谢网络。当然目前相关数据库的代谢通路数量通常在几百种左右,相关化合物一万多种。这个数量和质谱图数据库的大小是差不多的,显然也远远不足以让大多数化合物找到对应的代谢通路。做过代谢通路富集分析,例如KEGG,GO,BioCyc,的人都知道,从生物体样本中鉴定出来的化合物,通常超过一半是无法在代谢通路数据库中找到相应的代谢通路的。而理论上说,催化代谢通路的酶就是蛋白质,而光人编码蛋白质的基因就接近三万个,这意味着代谢通路的数量是非常庞大的,如果要穷尽所有以蛋白质催化为主的代谢通路,虽然理论上对单个物种有可能,但所耗费的人力物力财力是极其高昂的。
可是这种方法本身并不受限于代谢通路富集分析,它可以直接用化学结构分类法得到的化合物组来计算分子平均质量的变化。每一张质谱图都可以很容易识别出其对应分子的相对分子质量。由于同一类化学结构天然在代谢网络中就是互相关联的,这种方法可以有效利用未能识别的质谱图。例如,可以说,芳香醇相关代谢通路向合成(分解)方向移动。
在实践中,由于代谢网络经常有极端情况,分子平均质量的计算最好有一定的稳健性。由于分子平均质量的计算是将所有的相关分子放在一起,统计上可以将其视为一个分布,这个问题就变为了计算分子质量分布的平均值。我在我的论文里阐述了如何利用霍奇斯-莱曼估计(Hodges-Lehmann estimator )来得到具有稳健性的分子平均质量。Infer metabolic directions and magnitudes from moment differences of mass-weighted intensity distributions
我们还可以定义两个新的代谢方向,双向(duobolic)和中心(centrabolic)。这两个代谢方向的定义是将计算分子质量分布的平均值变为计算分子质量分布的标准差。如果标准差升高,那么意味着相对分子质量在分布中央的分子会同时朝分解和合成两个方向进行代谢,所以叫代谢平衡双向移动,如果标准差降低,那么意味着相对分子质量较高的分子会倾向于分解代谢,而较低的分子会倾向于合成代谢,相对分子质量在分布中央的分子会增加,所以叫代谢平衡中心移动。我在我的论文里也阐述了如何利用毕克尔-莱曼散度(Bickel-Lehmann spread)来得到具有稳健性的分子质量分布标准差。Infer metabolic directions and magnitudes from moment differences of mass-weighted intensity distributions
我在2022年1月底几天内就完成了这些工作。这背后其实是我对代谢方向和可再现性这两个问题的长期思考。这一方法直接解决了生物化学近百年来对合成和分解这两个基本代谢方向的定义模糊不清的问题。我立刻意识到这是一篇潜在的诺贝尔奖级论文。但是那时我的精神状态很差,我有自闭症谱系障碍,天然就不善于理解社交中的各种暗示。而我是属于阿斯伯格综合征,本身还是有一些社交愿望的,可我那段时间又有创伤后应激障碍(PTSD),就把我的一点社交愿望也整没了。我当时是一种与世隔绝的状态。我完全没有准备去面对公众。我害怕诺贝尔奖会毁掉我的正常生活。于是,我把和代谢方向有关的资料都转移到一个U盘里,并删除了电脑里所有的相关资料。此后我没有向任何人以任何形式提及过这一成果。
后续我发展了一套基于矩差和稀疏性的矩阵相异性 (Matrix dissimilarities based on differences in moments and sparsity)。再后来,我的主要时间都花在理论统计学上,研究矩的稳健估计。我的理论统计学论文进一步说明了为什么霍奇斯-莱曼估计是最优的非参稳健平均值估计(Robust estimations from distribution structures: I. Mean),也说明了为什么毕克尔-莱曼散度是最优的非参稳健标准差估计 (Robust estimations from distribution structures: II. Central Moments)。相关理论统计学研究值得两个菲尔兹奖,而由于菲尔兹奖此前从未颁发给理论统计学成果,我直到2024年4月才意识到。此前我一直以为这些成果最高可以拿考普斯会长奖。
由于资料被意外泄密,相关论文面临抄袭危险,我在2023年11月被迫将代谢方向相关论文提交预印本平台,并于今年2月提交到arXiv。
Lowry, S. R., Isenhour, T. L., Justice, J. B., McLafferty, F. W., Dayringer, H. E., & Venkataraghavan, R. (1977). Comparison of various K-nearest neighbor voting schemes with the self-training interpretive and retrieval system for identifying molecular substructures from mass spectral data. Analytical Chemistry, 49(12), 1720-1722.
Dührkop, K., Shen, H., Meusel, M., Rousu, J., & Böcker, S. (2015). Searching molecular structure databases with tandem mass spectra using CSI: FingerID. Proceedings of the National Academy of Sciences, 112(41), 12580-12585.
Dührkop, K., Nothias, L. F., Fleischauer, M., Reher, R., Ludwig, M., Hoffmann, M. A., … & Böcker, S. (2021). Systematic classification of unknown metabolites using high-resolution fragmentation mass spectra. Nature biotechnology, 39(4), 462-471.
National Academies of Sciences, Policy, Global Affairs, Board on Research Data, Information, Division on Engineering, … & Replicability in Science. (2019). Reproducibility and replicability in science. National Academies Press.
Xiao, N., Zhou, A., Kempher, M. L., Zhou, B. Y., Shi, Z. J., Yuan, M., … & Zhou, J. (2022). Disentangling direct from indirect relationships in association networks. Proceedings of the National Academy of Sciences, 119(2), e2109995119.
Hodges Jr, J. L., & Lehmann, E. L. (2011). Estimates of location based on rank tests. In Selected Works of EL Lehmann (pp. 287-300). Boston, MA: Springer US.
Bickel, P. J., & Lehmann, E. L. (2011). Descriptive statistics for nonparametric models IV. Spread. In Selected Works of EL Lehmann (pp. 519-526). Boston, MA: Springer US.
Leave a Reply