半个世纪以来,预测一种蛋白质如何折叠成其特有的三维形状一直困惑着科学家,也是生物学的重大挑战之一。
但专家们宣布,这个生物界最大谜团之一现在基本上已经被人工智能AI破解。
总部在伦敦的英国人工智能公司DeepMind(深度思考)称,他们“基本上解开了这一难题”。
更好地理解和预测蛋白质形状对未来新药的开发起到关键作用。谷歌旗下的DeepMind所取得的科技进步预期有望加速对包括新冠在内等一系列疾病的研究。
一些来自美国的独立科学家表示,DeepMind系统对蛋白质形状预测的准确性可以跟那些昂贵和耗时的实验室方法相媲美。
加利福尼亚大学戴维斯分校的克雷什塔夫维奇博士(Andriy Kryshtafovych)是科学评审团成员之一,他形容DeepMind取得的这一成就“非常出色”。
克雷什塔夫维奇博士表示,快速和准确地弄清蛋白质的形状有着彻底改变生命科学的潜能。
蛋白质存在于所有生物体中,是细胞生存的基础。它们在生命必不可少的化学过程中发挥着核心作用。
蛋白质由氨基酸按一定顺序结合形成的多肽链组成,它们以无数方式折叠成各种精致形状,而这是它们在身体中发挥重要角色的关键所在。
许多疾病都与蛋白质所扮演的角色有关,比如,它们可以成为催发化学反应的酶、抗击疾病的抗体或是作为化学信使的荷尔蒙胰岛素等。
美国马里兰大学的莫尔特博士(Dr John Moult)是科学评审团的主席。他解释说,这些蛋白质分子哪怕是微小的重新组合排列都会对人们的健康产生灾难性的影响。因此,要了解疾病和找到新治疗手段就要研究蛋白质。
莫尔特进一步解释,仅人类蛋白质就有成千上万种,其他物种的蛋白质更是多达几十亿,包括细菌和病毒的蛋白质。而目前人类只是试图破解一种蛋白质的形状就需要数年的时间和昂贵的仪器设备
预测竞赛
1972年,美国生物学家克里斯蒂安·安芬森(Christian Anfinsen)曾因为对氨基酸序列与生物活性构象之间关联的研究获得诺贝尔奖。
安芬森认为,应该有可能根据蛋白质的组成成份氨基酸的序列来确定蛋白质的形状。
自那以后,每两年全球20多个国家的几十个研究团队都会尝试让电脑通过氨基酸序列来预测大约100种蛋白质的形状。
与此同时,生物学家们在实验室中则使用诸如X射线晶体学(X-ray crystallography) 和核磁共振光谱法( NMR spectroscopy)这样的传统技术确定蛋白质的三维结构,以了解蛋白质分子中每一原子的相对位置。
之后,由科学家组成的专门CASP小组(相当于全球蛋白质结构预测竞赛评审团,the Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction) 对这些团队用电脑所预测的蛋白质三维结构与使用实验室方法得出的三维结构结果进行比较。
CASP评审小组使用从0-100的测量方法对各团队预测结果的准确性进行对比。 DeepMind的人工智能AlphaFold获得了90分,与实验室预测结果相当。
在最新一轮预测结果中(Casp-14),AlphaFold所预测的三分之二蛋白质形状准确性与实验室结果一致,另外一些预测结果虽然得分也很高,但准确性没有达到相同水平。
AlphaFold使用深度学习算法,来学习和研究全球数据库中所保存的已知蛋白质的三维形状。这些折叠蛋白质的结构以空间图的方式呈现。
BBC科学事务记者布里格斯(Helen Briggs)表示, AI的学习速度惊人,它用几天的时间就能达到实验室几十年的研究水平。
用途和意义
明确蛋白质的三维结构对开发新药以及了解包括癌症、失智症以及传染性疾病至关重要。
以新冠为例,科学家一直在试图研究新冠病毒表面的刺突蛋白是如何与人类细胞中的受体相互作用的。
伦敦大学学院的马丁教授告诉BBC记者,了解蛋白质序列如何折叠成三维形状其实是生物学最基本的问题之一。他解释说,蛋白质的功能完全取决于它的三维结构形状,而蛋白质功能则关系着我们健康与疾病的一切。
因此,了解了蛋白质的三维结构有助于人们设计新药、防治疾病,无论是遗传疾病还是感染疾病。
生物学最大谜团之一
欧洲生物信息研究所桑顿教授(Prof Dame Janet Thornton)表示,蛋白质折叠成独一无二的美丽三维结构堪称是生物学上最大的谜团之一。
她解释说,如果能更好地了解和预测蛋白质结构就意味着人类将能更好地了解生命、进化以及疾病和健康等问题。
接下来,更多的科学家希望能检测这些数据以确定AI方法到底有多准确、多细致。
目前,人类对蛋白质的知识仍存在缺口,包括多种蛋白质是如何组合到一起的,以及蛋白质如何与其他分子,例如脱氧核糖核酸(DNA)和核糖核酸(RNA)相互互动。
克雷什塔夫维奇博士表示,现在基本上解决了单一蛋白质的结构问题。它为未来找到蛋白质复合体结构形状的新方法打开了一道大门。正是这些众多蛋白质复合体的共同作用才形成了生命的主要机制以及其他功能。