科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

Michael Levitt:蛋白质折叠、结构预测与生物医学 | 浦江AI评论第①期

AI如何帮助破解生命的秘密?


什么是“终极智能“?


创业公司如何通过AI为人类健康作出贡献?


在“2021世界人工智能大会-科学前沿全体会议“上,2013年诺贝尔化学奖获得者、斯坦福大学计算生物学教授、复旦大学复杂体系多尺度研究院荣誉院长Michael Levitt分享了他的洞察。作为一位从事生物研究超过55年的科学家,他通过AlphaFold举例说明了开源对于科学研究的重要性——而就在他结束演讲后的两周,AlphaFold2、华盛顿大学蛋白质设计研究所的RoseTTAFold先后宣布开源。

“我现在每天还在写程序,感觉自己就像是一个孩子进到了玩具店一样;AI的进步让我感到十分兴奋。“74岁的Levitt教授认为,我们应该庆幸生活在这样一个时代。


画板1.png

Michael Levitt 教授在2021世界人工智能大会上作主题演讲:Protein Folding, Structure Prediction & Biomedicine


今天我要讲的主要内容是蛋白质折叠、结构预测以及生物医学。今天我们听到了很多经济学、科学的内容,但是我觉得人类的健康才是我们面临的最为关键的前沿问题。 


学习,是生命的秘密

我今天想和大家分享关于“学习”的话题,这其实是我们生命的秘密。生物学是一位“终极”老师,我们生活当中很多的东西既不是由人类的智能创造的,也不是由机器的智能创造的,而是由生物的智能创造的。在生物学中,至关重要的一点,就是蛋白质折叠以及蛋白质的结构,它在我们的系统中自我组装。一个系统如果可以自我创建、自行发展,就可以称之为终极版的“智能制造”了吧。而自然界已经解决了这个问题,途径是通过氨基酸——它们不是连接在一起,而是自主地折叠成3D结构,就像造一栋楼一样,只需要用一根线把它们连起来,接下来就可以进行自我创建了,这简直令人赞叹! 万物生生不息,主要是源自于生物的“自我组装”。

蛋白质可以说是建筑的材料,下图展示了一个非常小的蛋白质。它就像是组装起来的3D拼图,成为一个整体结构。所以研究蛋白质折叠的问题,关键是要了解单链的蛋白质是如何折叠的。如图中所示,一个很长的单链如何折叠成复杂的结构。同时,我们还要研究如何预测蛋白质折叠的结构。


画板2.png

蛋白质折叠使生命成为可能

AI如何帮助破解生命的秘密?

接下来我想介绍一下我是如何开始这方面的研究的——我从事这项研究已经有55年。虽然我不是专门研究AI的,但我从很早开始就非常关心AI的发展。我和我的几位同事共同创立的高分子多尺度模型,在2013年获得了认可(诺贝尔化学奖),但我们很早就认识到蛋白质折叠的重要性——那是在1975年,已经是超过45年前的事情了。在这个模型中我们写了一个电脑程序,把蛋白质的单链进行折叠,当中还巧妙地运用了物理原理,如牛顿第二定律等。

我们来看一下目前在上海开展的一些研究,例如,复旦大学马剑鹏教授的研究成果。我们在复旦大学复杂体系多尺度研究院共同合作,他采用了一个名为“OPUS-X”的系统来折叠蛋白质。下图展示了一个非常大的系统的一部分,其中牵涉到很多步骤和复杂的通道,通过该系统我们可以理解蛋白质是如何折叠的。这是一项了不起的工作,这项成果出自三位非常优秀的科学家。


画板3.png

OPUS-X摘要

这里有一个视频展示了蛋白质是如何折叠的:蓝色部分是已经折叠的蛋白质,红色部分是正在折叠的部分,这个视频模拟了蛋白质折叠的过程。  


蛋白质折叠的过程

马教授在研究中大量运用了机器学习。机器学习也会产生一些问题,例如,它对资源的要求很高,包括计算资源和人员资源——我们需要很多专业的人员来解决遇到的各种问题。

几年前,谷歌DeepMind的人工智能程序AlphaFold在全球蛋白质结构预测竞赛中夺冠,成功地预测了蛋白质折叠的三维结构。他们有一个庞大的团队,大概有30-40人。AlphaFold的成绩非常突出,得分远远高于第二名。第二名团队的资源少得多,如果我们把竞赛成绩和投入的CPU、科学家数量进行平均再比较的话,AlphaFold的成绩看上去可能就没那么惊人了,但因为竞赛是在很短的时间内进行的,所以资源量的多少就尤为重要。

这项竞赛始于上世纪90年代初,已经有30多年的历史了。比赛的成绩不断提高,但毫无疑问AlphaFold的水平达到了一个新的高度。他们引入了神经网络。从下图可以看到,这里的网络已经不是简单的网络结构,而是像蛋白质之间的网络结构,他们通过调节该网络,让它看上去像蛋白质结构,用以帮助理解蛋白质折叠的问题。


画板4.png

神经网络的连接具有三维结构


他们的另一个特点是研究对象——不是对蛋白质链,而是对一个个独立的单元进行研究,这样他们就拥有了更大的自由度。同时,这也意味着,对于任何不同大小的单元,都可以用同样的方法对它进行研究和预测。

需要强调的是,我们在这里谈了很多机器学习的话题,但是相较于其他科学,机器学习更有赖于已有的研究成果,因为机器学习需要范例。比如,要进行蛋白质结构预测,它需要许多实验人员用X射线晶体学、核磁共振和冷冻电镜来取得结构范例,需要许多分子生物学家和生物信息学家通过测序方法来确定蛋白质序列,还需要许多理论化学家和物理学家研究出方法论并找到最佳表达……所有这些结合在一起,再加上强大的算力,才有可能取得重大的突破。所以我们必须认识到,如果没有基础科学的支撑,我们是没有办法取得现在的成果的——这好比,你自己和自己打游戏是很难提高的。

关于AlphaFold还有一个非常有趣的点——它是开源的。他们发表了一篇关于其方法的论文,并声称正着手探讨如何让其他团队更好地利用他们提出的结构预测,并准备发表一篇同行评议论文——这篇论文出自一个30人的科学家团队。进行这项研究所需要的投入是巨大的,光是电力的成本估计就要几百万美元,更别提算力方面的投入,不过谷歌拥有强大的计算机网络。因此这更让我们认识到开源的重要性,开源的方式使得理论框架可以和AI实验室结合起来。包括马教授所做的项目,也是可以从中得益。


AI创业公司开创新局面

最后我们再来讨论另一个相关话题。当我们谈论AI科学,它的贡献并不仅局限于科研成果,也可以通过创业公司来体现。我们有幸和一个初创公司英矽智能(Insilico Medicine)有所接洽,它的创始人是亚历克斯·扎沃龙科夫 (Alex Zhavoronkov) 。这家公司要做的不仅仅是药物开发,同时它也很好地改进了药物发现与开发的全过程。

就像很多AI的项目一样,它的任务有好几方面,它们之间是紧密相连的。如下图中所示,最左边一栏是疾病靶点发现,即找到身体中哪一种蛋白质需要被攻击或抑制才能治疗疾病;中间一栏的任务是生成全新分子先导化合物;最后,对临床试验结果进行预测。


画板5.png


全集成自动化药物发现AI管道


这是个雄伟的项目,目前这家公司做得非常好。他们的研发周期非常短,而且成本也远远低于传统的药物研究方法。传统的方法是先进行学术研究找到靶点,然后需要很多医生,进行大量的测试,整个过程大概需要四五亿美元。而英矽智能的研发流程大概只需要11个月,花费仅需200万美元,所以他们得到了很多支持。就在上个月,这家公司刚刚获得了华平投资领投的一笔2.55亿美元的融资。这家公司的成功更使我们确信,AI将促进人类疾病从发现到治愈的全过程。

AI的进步让我感到十分兴奋,每天我都非常庆幸可以生活在这样一个时代:我们所需的所有信息就在指尖,科学不断取得众多重大突破。我现在每天还在写程序,感觉自己就像是一个孩子进到了玩具店一样,非常激动。

感谢大家的聆听。





comm@pjlab.org.cn

上海市徐汇区云锦路701号西岸国际人工智能中心37-38层

沪ICP备2021009351号-1