科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

赵国屏:生物医学研究范式的转变——大数据+人工智能的机遇和挑战 | 浦江AI评论第④期

生物医学大数据加上人工智能,将碰撞出怎样的“火花”,又将带来怎样的机遇和挑战?

在“2021世界人工智能大会-科学前沿全体会议”上,中科院上海营养与健康研究所生物医学大数据中心首席科学家、中国科学院赵国屏院士从生命世界的复杂性谈至生命科学研究体系之繁复,论述当代生物医学研究及精准医疗的发展,及其与大数据时代深刻交融的机遇与挑战并存的现实。而针对基础性工作的前置,他提出将复杂生物医学大数据标准化整合与大规模生成标准化定量多维研究数据相结合,构建高效开源的数据仓库、知识图谱和生物医学数据信息操作系统,基于人工智能复杂系统的跨层次“功能涌现”或将实现生命科学研究与科学技术发展的有机结合,从而进一步推动人类社会迈向新的发展阶段。

今天给大家讲的题目叫《生物医学研究范式的转变——大数据+人工智能的机遇和挑战》。先说一说生命体系的复杂性,以及在如此复杂的体系中怎么能用好人工智能,推动生命科学、现代医学和生物技术的发展,为人民健康提供保障。


复杂的生命世界和复杂的生命科学

生命科学是研究生命世界的一门自然科学。19世纪以前的历史上,只有“生物学”而没有“生命科学”,因为当时的人类,只能研究肉眼能够看到的动物和植物,以及借助光学显微镜能够看到的微生物,而对这些生物的研究,还基本上处于形态描述阶段。典型的事例,就是瑞典博物学家林奈在18世纪中叶创立的“分类学”。当然,科学研究除了源于人类对自然规律的探索使然之外,另一个重要驱动就是为人类生存发展提供知识;譬如,李时珍的《本草纲目》就是对植物(含部分动物和大型真菌)药用功能的经验性/相关性的“研究”。

19世纪,科学界对生物本质的认识有了革命性的突破:所有生物最基本的功能结构是细胞(细胞学说),所有生物的物种是变化而且在一定的自然规律下进化(进化论),所有生物都按照一定的遗传规律代代相传(遗传学)。同一时期,由于合成化学的贡献,“生命力学说”被打破,生理过程中的有机化学反应机制被逐步解析,从微生物的发酵到酶催化反应的认识,终于形成了认识新陈代谢的分子机理的学科——生物化学,这也是生物学研究走向分子(化学的传统领域)的起步。这一系列学说及相关学科的建立,有力地将生物学推到了研究生命共同规律的新高峰——生命科学由此在20世纪登上了历史舞台(图1)。

生命科学研究让人们对于生物体系的认识从生物形态的表象深入到理化机制的本质,从而更深刻地认识了其超越理化的复杂性。无论从空间还是时间尺度上看,生命系统既具有化学分子和物理学微观粒子的共性,以及与地学(甚至天文学)在生态-进化宏观尺度上的密切交集;又有其自身在不同层次上“功能涌现”的特有复杂性。虽然“理化天地生”这五门自然科学学科中,都蕴含着“数”的规律。可是,在过去的很长时期里,数学一方面为生物学的实验工作提供了非常有力的分析工具(譬如遗传学),另一方面,却又像是皇冠上的宝石一样,既让生物学家敬仰,又不知如何发挥它的作用,更遑论“主导作用”了(图1)。

1.png

图1 复杂的生物世界和复杂的生命科学研究

20世纪中叶,当遗传学与快速发展的生物化学、生物物理学有了深层次结合时,一次真正的革命发生了——人们终于解析了生命体系两个基本分子DNA和蛋白质的序列和空间结构。以此为基础,生命运动的“中心法则”和基因表达调控等基本理论迅速形成;一系列基因操作的工具也随之被开发应用,于是就有了分子生物学,而且在此基础上,定量生物学、系统生物学等“理论科学”学科逐步形成,并获得了一定的发展(图2)。

上世纪90年代,人类基因组计划开始实施。由于技术的不断突破,经过短短的10多年,该计划于2002年基本完成。此后,不仅形成了基因组学,而且采用基因组学同样的策略,转录组学、表观遗传组学、蛋白质组学、代谢组学及代谢物组学等各种“组学”相继发展起来,生命科学的研究体系也逐步从还原论向系统论的方向发展,而研究的对象也越来越从“模式生物”转向对“人”的集中,也就是说,跟医学的关系越来越密切(图2)。

通过上述两个革命,生命科学逐步从实验科学走向理论科学甚至计算科学,即诞生了“计算生物学”。与此紧密相关,基因组学测序技术的发展以及从基因组测序一开始就采用的测序数据实时公开共享政策的实施,迅速将“数据”推向了生命科学研究重要(甚至是关键)的一极。在人类基因组计划完成的本世纪初,公共数据库的序列数据已经达到了TB级,此后,结合多组学研究以及转化医学研究。到2007年,生物医学数据达到了PB级;2015年之后,生物医学的数据量已经达到了EB级,意味着生物医学研究已经有条件进入所谓“数据密集型研究范式”的新阶段了,即进入了“大数据的时代”(图2)。当然,这绝不意味着我们已经是在新的研究范式下开展工作了;恰恰相反,虽然我国近年来对生命科学和医学研究资助的力度迅速增长以及在这方面研究力量的不断增长,生物医学数据的产出巨大;但是,我们离大数据驱动研究还有一段艰难的道路要走,因为,要将我们手中的“数据大”转化为“大数据”,还必须做好一系列基础性工作:要以基础设施为基地,建立完整安全的数据管用技术体系,坚持高水平的数据积累科学活动;建设公益性的数据服务工程平台,提供先进适用的数据链服务;形成研发人才和服务队伍成长基地,培育交叉型的数据研究开发人才。

2.png

图2 生命科学研究从实验科学范式向数据驱动范式发展的路径



大数据时代下的生命科学研究,离不开海量数据的有效治理与共享

生物医学这个领域的数据复杂程度非常高,它不仅包括医学、药学,更包括了作为基础的生物学、生态学、环境科学以及社会科学(如心理学和环境暴露)等方面的问题,所以它的大数据最大的特点就是如前所述的那样——多尺度、高维度、异质性的复杂体系。而另一方面,它还难以避免由“合作与竞争”“安全与利用”等社会体系中常见的矛盾场景所带来的“碎片化”“孤岛化”和“烟囱化”等各方面的复杂的体制、机制与思想问题。面对这样复杂的体系,我们最重要的手段,就是想办法把其中研究型的数据,主要是系统生物医学、比较医学、转化医学和精准医学的研究型数据和生命科学中的生物组学、生物化学、细胞生物学和遗传学等研究的数据结合起来,成为核心的数据。如果我们能够把核心数据整理好、整合好,再把各个方面的终端数据,即生物群体客观世界数据和个人真实世界数据与核心数据结合起来计算分析,这样的大数据利用效率就会提高了。

这几年,中国科学院开始推动国家生物信息中心的建设,在这个预研的过程中,我们正在尝试的就是建立这样的一个体系的雏形,其核心就是在“安全管理、信息共享、标准增值、技术创新、尊重产权”的原则指导下,利用标准化和质控手段,把数据治理为高质量的海量数据,建立以整合为导向的数据库以及以交互使用为导向的搜索系统;同时建设适应不同应用场景的知识图谱,为机器学习与人工智能等先进信息技术提供有效的学习集。当然,这个设施还必须有一定的快速专业计算的能力,为社会工程应用和科研知识挖掘提供支撑(图3)。为了更好地向全社会提供开源的应用生态,还要开发生物医学数据信息操作系统,将常用的操作软件,建成工程化的模块,帮助使用者采用自主的参数系统,快速进入使用状态。

3.png

图3 生物医学大数据“三位一体”的治理服务体系


落实到终点医院:精准医学和多组学研究及相关数据系统

我们与上海交通大学胸科医院合作,就此进行了有益的尝试。在该医院的HIS系统(Hospital Information System,医院信息系统)上建立一个临床科研数据仓库RDR(Research Data Repository),有了这个仓库以后就可以把病人临床的数据和对该病人所做的多组学检测数据进行整合,还能整合多中心研究中各个科研团队产出的数据(图4)。

4.png

图4 利用临床科研数据仓库RDR整合管理免疫治疗患者多组学研究数据

利用这个系统的第一个实例,就是肿瘤免疫治疗的临床试验。对一个一个参与试验病人的“多组学”研究,即从基因组、转录组、免疫组、代谢组一直到微生物组的检测都各有相应的团队负责。虽然病人不是太多,但每个病人治疗的各阶段,都会得到各种组学的数据,因此,总体的数据量是巨大的。因此,这是一种“小样本,大数据”的研究。因为建立了这样一个数据系统,所有团队能够在数据系统上方便地协作,就不同的研究目标,整合相应的数据,经过综合分析,挖掘规律。如此,对于免疫治疗中特应性的特征谱和预测的指标以及在免疫治疗中肠道微生物组的多样性及其疗效之间关系的研究,都很快产出了研究的成果。

这个工作也发现了一些问题。那就是,我们明明建立了一个多组学研究的大数据平台,但实际上并没有能力把多组学的数据整合在一起进行分析和挖掘,这就是我们对人工智能的一个衷心的呼唤:希望能够在这次会议以后和更多人工智能专家一起来发展这方面的工作。

5.png

图5 定量合成生物学策略和对跨层次“功能涌现”的理解

在此基础上,我们将综合传统的与现时的两种方法。传统的方法,也可以称为白箱模型(White-box Models)。就是先通过实验来收集数据,建立唯象模型(Phenomenological Model),在唯象理论(Phenomenology)构架上建立模型,最后用工程的方法进行验证。这些工作现在已经开展了,但是它实际上能解决的问题相对生物“功能涌现”的复杂系统而言,还是简单了很多,而且它的效率还是比较有限。

另外一个方法就是,也就是采用机器学习的方法。AlphaFold2的成功,给了人们很大的信心。它在端到端训练(End-to-End Training)的模式、通过自监督(Self-supervised Learning,自监督学习)训练的全部4000万MSA数据大大增加可用的数据信息,以及通过数据自监督训练更好地利用三维结构附近局域的扰动来建设模型等三个方面,都给出了很成功案例,展现了人工智能或机器学习可以自己产生更有效的数据利用方式的巨大潜力。      

当然,基于人工智能研究复杂系统的跨层次“功能涌现”需要相应的数据和知识图谱,而以往就是缺少这方面系统的收集。因此,只能靠我们自己来获取。我们正在深圳先进技术研究院(Shenzhen Instutites of Advanced Technology)建立机器实验的体系,这样就可以快速产生大量设计过的数据,这些数据与机器学相结合,就是黑箱模型的基础。


6.png

图6 运用“白箱”与“黑箱”结合的策略实现研究力突破

合成生物学在本世纪初诞生以来,已经过去了二十年,其本身到了向定量合成生物学发展的新起点(图2)。而这二十年里大数据带来的人工智能研究也正在展现其巨大的潜力。这两个技术突破叠加,通过开源平台的共享,将极大地推动人类能力的提升(图6)。这就让我想起开场时看到的科大讯飞的一句话,“生命是复杂的,因爱(AI)而能。”


comm@pjlab.org.cn

上海市徐汇区云锦路701号西岸国际人工智能中心37-38层

沪ICP备2021009351号-1