又一个卡脖子技术:中国的AlphaFold在哪儿?

又一个卡脖子技术:中国的AlphaFold在哪儿?

徐诗露

·7月底,DeepMind公司称,AlphaFold预测出了2亿多个蛋白质结构。

·“有人在说AlphaFold开源了,我们国家不用搞了,这是大错特错。第一,他们所谓的开源,只是表层结构开源了,底层技术没有开源……”复旦大学复杂体系多尺度研究院院长马建鹏在受访中表示。

在马建鹏看来,AlphaFold是又一个卡脖子的核心技术。

几乎预测了整个蛋白质宇宙

2022年7月28日,英国DeepMind公司表示,AlphaFold已经预测了全球几乎所有的蛋白质结构,短短一年时间,他们的蛋白质结构数据库中的数据从200万个扩增到超2亿个。

AlphaFold也是继AlphaGo(阿尔法狗)之后,DeepMind重磅打造的一款智能人工系统,主要被用来预测蛋白质结构。那么,AlphaFold运行基本原理是怎样的?

它运用了机器学习算法,配置了深度学习神经网络,并且接受了蛋白质三维结构数据库(PDB)以及其他数据库中数十万个实验确定的蛋白质结构和序列的训练。

经过训练后,AlphaFold在面对一个新的基因序列时,首先在数据库中寻找相关基因序列,然后经过大量的计算和比对,对新基因序列对应的蛋白质3D结构进行预测,它的预测结果具有非常可观的精确度。

回溯到一年前,2021年7月,也就是AlphaFold发布蛋白质数据库和开源代码初期,DeepMind就已经用AlphaFold预测了98.5%的人类蛋白质结构,相关结果发表在《自然》杂志上。

在很多专家看来,AlphaFold还只是对未来的“惊鸿一瞥”,它将生物学带入了一个数字时代,并且它将改变全球生物医学研究现状。

目前,DeepMind与被忽视疾病药物倡议(DNDI)合作,来推进他们的研究成果。同时,DeepMind还对被世界卫生组织(WHO)确定为高度优先研究的生物体进行了结构预测,帮助科学家进一步研究麻风病和血吸虫病等顽疾。

DeepMind创始人Demis Hassabis。 视觉中国 资料图

对此,DeepMind创始人兼首席执行官戴密斯·哈萨比斯(Demis Hassabis)发出感慨,“AlphaFold已经对我们一些最大的全球挑战产生了令人难以置信的影响。我们希望这个扩展的数据库将帮助无数科学家完成他们的重要工作,并为科学发现开辟全新的途径。”

AlphaFold给全球生命科学领域学者的科研工作提供了便利,我国学者正在致力于探索“属于中国的AlphaFold”。但做得怎么样,有无自己的原创技术?

如何打造一款中国的AlphaFold?

国内对AlphaFold的关注,是最近两年的事。

2020年底,冰洲石生物科技(AccutarBio)宣布完成了近亿美元融资,致力于运用通过深度学习和物理建模的方式在海量数据上进行训练得到的计算模型来替代生物学和化学实验,以此来加速创新药的研发。

AccutarBio创始人范捷博士表示,他们的愿景是用AI全面提升创新药物研发的速度和效率,推出拥有全球专利的药物产品,致力于利用颠覆性技术的力量不断去改变药物发现行业。

致力于AI跨界融合的团队并非个例。2021年12月,北京深势科技推出一款蛋白质结构预测工具Uni-Fold,并同时开源训练代码和推理代码,供各界科学家和企业家测试使用。

由于AlphaFold只是开源了模型推理代码,并没有开源训练代码,因此科研人员只能按照AlphaFold设计好的流程进行使用,而不能对其训练过程做出调整,来迁移至更多的应用场景。

中科院院士、北京大学教授鄂维南表示,“尽管DeepMind开源了推理代码,但模型的训练技术才是核心的竞争力”。

复旦大学教授马剑鹏。

同样,2021年12月,复旦大学复杂体系多尺度研究院马剑鹏教授的团队和上海人工智能实验室合作,在《生物信息学简报》(Briefings in Bioinformatics)上发表了一篇名为“OPUS-Rota4: agradient-based protein side-chain modeling framework assisted by deeplearning-based predictors”的论文,简述了他们开发的算法成果。

研究团队研发出的具有自主知识产权的OPUS系列算法,这个算法可以用于预测蛋白质主链和侧链的三维结构,值得一提的是,其中的蛋白质侧链预测算法即OPUS-Rota4算法,精度比AlphaFold更胜一筹。

具体而言,研究人员使用AlphaFold得到了15个蛋白的预测结构,并利用不同方法根据预测出的主链结构对其侧链进行重新建模。其结果显示,OPUS-Rota4的结果显著优于其它侧链建模方法,而且比AlphaFold2预测的侧链更接近天然构象。

不同侧链建模方法对CASP14-AF2(15)的性能。

就在前不久,又有一家国内AI制药企业华深智药宣布,在AI和生命科学结合领域实现了一个重要进展,在蛋白质结构预测方面开发出新的技术——OmegaFold。

总的来说,利用AI推动生命科学发展的研究正在国内遍地开花。各大企业和高校团队在不断推进AI和生物制药的跨界融合,他们正在努力赶超DeepMind公司的AlphaFold。很显然,这一领域的源头创新并不在我们手上,怎样做才能保持优势呢?

“我们必须从底层技术做起”

蛋白质结构预测早已不是一个新的领域,科学家已经做了五十多年,但是直到AlphaFold的出现,这一领域的研究才出现突破性成果。

在很多业内专家看来,它的出现某种程度上是靠科学家个人去发挥他们的创造性。但我国在这一领域发展也有一定优势,这就是计算机系统工程。科学问题的工程化,AlphaFold也是非常典型的例子之一。

目前,我国还没有能够完全超越AlphaFold的核心技术,要实现真正“从0到1”的突破,或许还需要一些时间。

马建鹏在受访中表示,“有人在说AlphaFold开源了,我们国家不用搞了,这是大错特错。第一,他们所谓的开源只是表层结构开源了,底层技术没有开源。第二,你把它拿来你只能做他们的东西,你没有办法提高,就像航空发动机你买来可以,你能往前再进一步吗?”

马建鹏认为,我们必须从底层技术做起,掌握核心算法。

参考资料

1. 对标AlphaFold2!深势科技发布Uni-Fold蛋白结构预测工具,并开源训练代码.深势科技.

https://mp.weixin.qq.com/s/Zhn3HJpLnznLM1bpu6D1ew

2. OPUS-Rota4: a gradient-based protein side-chain modeling framework assisted by deep learning-based predictors.Briefings in Bioinformatics.

https://academic.oup.com/bib/article/23/1/bbab529/6461160

3. 超越谷歌“AlphaFold2”,为新药研发提供利器:复旦复杂体系多尺度研究院团队发表全新蛋白质侧链预测成果.复旦大学.

https://mp.weixin.qq.com/s/idWh_IO66Nhry4LfeITmIA

https://www.sohu.com/a/510336879_629135

4. 全球首个! 华深智药完成单条序列蛋白质结构预测最后一块拼图.华深智药.

https://mp.weixin.qq.com/s/DY3I13k_9QsIpCmyvQBlPg

5. AlphaFold reveals the structure of the protein universe.DeepMind.

https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe

6. 对话复旦复杂体系多尺度研究院院长:蛋白质结构预测为何突破.新浪科技.

https://finance.sina.com.cn/tech/2021-11-01/doc-iktzqtyu4671024.shtml

7. Finally, an answer to the question: AI — what is it good for?.VOX.

https://www.vox.com/future-perfect/2022/8/3/23288843/deepmind-alphafold-artificial-intelligence-biology-drugs-medicine-demis-hassabis

责任编辑:吴跃伟 图片编辑:张同泽

校对:施鋆