上海AI实验室推出ViraHInter,病毒-宿主互作预测全面超越AlphaFold 3,突破病毒泛化难题
来源:上海人工智能实验室| 2026-04-22
新冠疫情暴发时,科学家们用了数月时间才初步厘清新冠病毒如何入侵人体细胞——它靠刺突蛋白抓住人体细胞表面的ACE2受体,像钥匙插入锁孔。每一次新病毒出现,这个“找锁”的过程都要再来一遍。但人体有约2万个编码蛋白的基因,其中任何一个都可能成为病毒的攻击目标,实验筛选如同大海捞针。并且不同病毒家族之间序列差异巨大,一种病毒的经验也难以迁移至另一种。如果能在病毒大规模传播之前,就提前知道它会盯上哪些人体蛋白,是否就能找到那些被多种病毒共同利用的关键宿主蛋白,从而研发出一种可以对抗多种病毒的广谱抗病毒药物呢?
近日,上海人工智能实验室(上海AI实验室)、复旦大学、上海交通大学医学院附属瑞金医院及上海市病毒研究院联合团队推出的ViraHInter模型,让这一想法有了可行路径。相关论文“ViraHInter: a dual-modal artificial intelligence framework for predicting virus-host interactions”已在arXiv平台公开。
论文链接:https://arxiv.org/abs/2604.02842
一分钟速览
问题:病毒如何“劫持”人体细胞,是研发抗病毒药物的关键,但这一过程涉及海量蛋白质相互作用,靠实验逐一测试如同大海捞针。
突破:上海AI实验室联合团队推出ViraHInter——一款融合蛋白序列与结构双模态的AI预测模型,不用开展湿实验就能预判出病毒将“劫持”哪些人体蛋白。
关键成果:
在严苛的人类蛋白基准测试中,预测精度(AUPR 0.44)全面超越AlphaFold 3(0.23)、RoseTTAFold2-PPI(0.28)、RF2-Lite(0.10);
面对病毒-人类蛋白相互作用时,模型精度高达0.50,比AlphaFold 3高4.5倍 (0.11),比其他方法高6倍以上;
锁定33个跨流感亚型共享的宿主因子,为广谱抗流感药物研发提供全新靶点。
意义:将抗病毒药物研发从逐个病毒应对的模式,推进到针对多病毒共性宿主因子的系统化靶点发现模式。
核心创新:让AI同时读懂病毒的“形”与“码”
病毒入侵人体的关键机制,核心在于病毒蛋白质与人体蛋白质之间的相互作用:病毒通过自身编码的少量蛋白质劫持宿主复杂蛋白网络,实现信号操控、免疫逃逸及代谢重塑,为自身复制创造条件。如果能提前知道病毒会“劫持”哪些宿主蛋白质,将有助于快速了解病毒感染机制、发现潜在抗病毒靶点,以及开发药物阻断这些相互作用。问题在于,实验筛选这些相互作用耗时耗力,并且不同病毒家族间序列差异大,现有知识难以迁移。
传统方法预测蛋白相互作用,要么只分析氨基酸序列(病毒的遗传密码),要么只分析三维结构(病毒的立体形态)。ViraHInter的突破在于——让AI同时精准掌握这两种信息:
结构分支:生成病毒-宿主蛋白复合物的全原子三维结构,精准刻画界面上每一个原子如何贴合,为药物设计打下基础;
序列分支:借助蛋白语言模型,从海量蛋白进化信息中识别保守模式,即使病毒快速变异也能抓住不变的模式。
两种信息通过注意力机制深度融合——面对结构清晰的蛋白,模型更依赖结构信息;面对快速变异或无序的病毒蛋白,则更依赖序列信息。这种自适应融合,正是ViraHInter跨病毒家族泛化能力的关键。

在最接近真实筛选场景的1:1000正负样本极度不平衡评测中,ViraHInter AUPR达0.44,显著超越RoseTTAFold2-PPI(0.28,2025年发表于Science)、AlphaFold 3(0.23,2024年发表于Nature)、RF2-Lite(0.10,2024年发表于Nature Microbiology)
更关键的考验在于面对“陌生”病毒的能力——这直接关系到模型是否适用于新发病原体。在序列同源性严格受控的测试中(即测试病毒与训练集中病毒的序列相似度不超过60%),ViraHInter的AUPR达到0.50,比 AlphaFold 3(0.11)高4.5倍,比其他方法高6倍以上。
值得注意的是,这一差距甚至超过了常规测试下的优势,说明当训练数据中缺乏同类病毒参考时,ViraHInter的双模态架构优势更为突出——这恰恰是应对新发病原体时最需要的能力。

研究人员利用SARS-CoV-1/2及MERS-CoV编码的蛋白对ViraHInter的预测效果进行了测试:ViraHInter在不同排名阈值下,ViraHInter对有实验证据支持的高可信病毒-宿主互作对的富集曲线持续高于AF3和随机基线;在前10%的预测中,模型找回了27.8%的高可信互作对,达到2.78倍富集。
识别33个核心共享宿主因子,助力新型广谱抗流感药物研发
所谓共享宿主因子,是指被多种不同病毒共同利用、以完成其感染和复制周期的宿主细胞蛋白、酶或通路。例如,甲型流感病毒有多种亚型(如H1N1、H3N2、H7N9亚型等),不同亚型感染的细胞类型、引起的症状各不相同,但它们往往依赖一些共同的宿主蛋白完成感染和复制。如果一种药物能够靶向这些共享宿主因子,就可能同时对抗多种流感亚型——这正是广谱抗病毒药物的核心思路。
流感病毒的表面蛋白不断变异是季节性流感疫苗需要每年更新、大流行难以预防的根本原因。但ViraHInter揭示了一个值得关注的现象:尽管H1N1、H3N2、H9N2三种流感亚型的表面蛋白(如血凝素)序列差异显著,它们所依赖的人体宿主蛋白却高度重合。
科研团队利用ViraHInter,在人类全蛋白组范围内对这三种流感亚型的10个关键病毒蛋白(包括PB2、NS1、NP、HA、PA等)进行了系统筛选,最终锁定33个被三种亚型共同靶向的核心宿主因子。其中:
12个因子在已有研究中已被证实参与流感感染过程,但从未在任何病毒-宿主互作数据库中被记录,反映出ViraHInter能够识别传统实验方法难以捕捉的相互作用;
RAB11A蛋白是三种亚型血凝素共同的结合伙伴,且结合模式高度一致。针对 RAB11A与血凝素相互作用界面开发的药物,有望对多种流感亚型同时起效。
另外,在冠状病毒研究中,ViraHInter也发现了类似规律:针对SARS-CoV-1、SARS-CoV-2和MERS-CoV的分析显示,RAB8A蛋白与病毒非结构蛋白NSP7的结合界面在三种冠状病毒中高度保守,提示RAB8A可能是多种冠状病毒共同依赖的关键宿主因子,可作为广谱抗冠状病毒药物研发的靶点。
本研究受到新发突发与重大传染病防控国家科技重大专项(2025ZD01903700)、上海市通用人工智能大模型基础研究专项(2025SHZDZX025D04)的资助,以及“AGI4S攀登者行动计划”的支持。
近日,上海AI实验室发布面向重大科学研究突破的“AGI for Science珠穆朗玛计划”(AGI4S珠穆朗玛计划),全面开放算力、数据、模型、平台、场景、项目、人才全维度合作通道,旨在构建“科学智能创新中枢”,打造领先的AGI4S基座能力,汇聚科学智能创新全要素,助力全球科学家攀登科学高峰。ViraHInter是该计划发布以来,取得的第一个重要原创突破,未来,联合科研团队将以此为基础,攀登生命科学领域更多高峰。


