2021年7月24日讯/生物谷BIOON/—2021年7月22日,DeepMind宣布与欧洲分子生物学实验室(EMBL)合作,为人类蛋白质组的预测蛋白质结构模型建立迄今为止最完整、最精确的数据库。这将涵盖人类基因组所表达的全部约20000种蛋白质,并且这些数据将免费向科学界公开提供。该数据库和人工智能系统为结构生物学家提供了探究蛋白质三维结构的强大的新工具,并提供了一个宝贵的数据宝库,可能开启未来的进步,并预示着人工智能驱动的生物学的新时代。
AlphaFold于2020年12月被蛋白质结构预测关键评估(Critical Assessment of protein Structure Prediction, CASP)的组织者认可为解决蛋白质结构预测这一具有50年历史的巨大挑战的方案,这对该领域是一个惊人的突破。AlphaFold蛋白质结构数据库建立在这一创新和几代科学家的发现之上,从早期的蛋白质成像和晶体学的先驱,到后来成千上万的花了数年时间对蛋白质进行实验的预测专家和结构生物学家。该数据库极大地扩展了积累的蛋白质结构知识,使科学家们可用的高精度人类蛋白质结构的数量增加了一倍以上。推进对这些构成生命的基石(即蛋白)的理解,将有助于各个领域的研究人员加速他们的工作。这些基石支撑着每种生物中的每一个生物过程。
Alphafold是去年12月宣布的支持这些结构预测的先进人工智能系统。2021年7月15日,Nature期刊公布了Alphafold最新高度创新版本背后的方法及其开放源代码(Nature, 2021, doi:10.1038/s41586-021-03819-2)。7月22日的最新成果以论文的形式发表在Nature期刊上,论文标题为“Highly accurate protein structure prediction for the human proteome”。该论文提供了构成人类蛋白质组的蛋白质的最完整图片,并发布了来自另外20种对生物研究很重要的有机体的蛋白质结构图片。
DeepMind创始人兼首席执行官Demis Hassabis博士说,“我们DeepMind的目标一直是建立人工智能,然后将其作为一种工具,帮助加快科学发现本身的步伐,从而推进我们对周围世界的理解。我们使用AlphaFold生成了人类蛋白质组的最完整和最准确的图片。我们相信,这代表了迄今为止人工智能对推进科学知识的最重大贡献,并很好地说明了人工智能可以为社会带来的各种好处。”
AlphaFold已经在帮助科学家们加速发现
通过基于氨基酸序列在计算上预测蛋白质形状的能力–而不是通过多年艰苦、费力且往往昂贵的技术进行实验来确定–已经帮助科学家们在几个月内实现了以前需要花费数年的时间才能完成的任务。
全链结构预测,图片来自Nature, 2021, doi:10.1038/s41586-021-03828-1。
EMBL总干事Edith Heard说,“AlphaFold数据库是开放科学良性循环的一个完美例子。AlphaFold是利用科学界建立的公共资源中的数据进行训练的,所以它的预测结果公开是有意义的。公开和自由地分享AlphaFold的预测结果将使各地的研究人员能够获得新的见解并推动发现。我相信AlphaFold确实是生命科学的一场革命,就像几十年前的基因组学一样,我非常自豪EMBL能够帮助DeepMind实现对这一卓越资源的开放访问。”
AlphaFold已经被合作伙伴使用,如被忽视疾病药物倡议(Drugs for Neglected Diseases Initiative, DNDi),旨在推动对那些严重影响世界贫困地区的疾病的救命疗法的研究;酶创新中心(Centre for Enzyme Innovation, CEI),正在使用AlphaFold来帮助设计更快的酶,以回收我们一些污染最严重的一次性塑料。对于那些依赖实验性蛋白质结构测定的科学家们来说,AlphaFold的预测有助于加速他们的研究。例如,科罗拉多大学博尔德分校的一个研究团队发现,利用AlphaFold预测研究抗生素耐药性是有希望的,而加州大学旧金山分校的一个研究团队则利用它们来增加对SARS-CoV-2生物学的了解。
AlphaFold蛋白质结构数据库
AlphaFold蛋白质结构数据库建立在国际科学界的许多贡献上,以及AlphaFold复杂的算法创新和EMBL欧洲生物信息学研究所(EMBL-EBI)在分享世界生物数据方面几十年的经验。DeepMind和EMBL-EBI正在提供对AlphaFold预测的访问,以便其他人可以将该系统作为一种工具来启用和加速研究以及开辟全新的科学发现途径。
EMBL副总干事和EMBL-EBI主任Ewan Birney说,“这将是自人类基因组图谱绘制以来最重要的数据集之一。让国际科学界能够获得AlphaFold预测,开辟了许多新的研究途径,从被忽视的疾病到用于生物技术的新酶以及两者之间的一切。这是一种伟大的新科学工具,它是对现有技术的补充,并将使我们能够推动我们对世界的理解的边界。”
除了人类蛋白质组之外,该数据库还推出了约35万个蛋白质结构,包括20个具有生物学意义的有机体,如大肠杆菌、果蝇、小鼠、斑马鱼、疟原虫和结核菌。对这些有机体的研究已经成为无数研究论文和众多重大突破的主题。这些结构将使各种领域的研究人员–从神经科学到医学–能够加速他们的工作。
AlphaFold的未来
随着我们继续投资于AlphaFold的未来改进,该数据库和系统将定期更新,在未来几个月内,我们计划将覆盖范围扩大到几乎所有科学上已知的被测序的蛋白质—超过1亿个蛋白质结构,涵盖大部分的UniProt参考数据库。(生物谷 Bioon.com)
参考资料:
Kathryn Tunyasuvunakool et al. Highly accurate protein structure prediction for the human proteome. Nature, 2021, doi:10.1038/s41586-021-03828-1.
John Jumper et al. Highly accurate protein structure prediction with AlphaFold. Nature, 2021, doi:10.1038/s41586-021-03819-2.
版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。