首页 > 详情

你好,上海

202376日,上海,世界人工智能大会开幕式,汤晓鸥教授《你好,上海》演讲实录


WAIC演讲1.jpg


你好,上海!


这个标题虽然是我的心里话,但却并不是我的原创,这个标题的原创非常昂贵:54亿元人民币,这是2021年春节的期间我陪父母看的一部原创电影《你好,李焕英》的票房。


中国的票房是从1994年开始统计,当年的票房冠军是《亡命天涯》,共计2500万。我想,今天一部中国家庭剧能够创造54亿票房奇迹的一个最主要原因是,和30年前相比,我们大家都买票看电影。当原创的作者能够赚到钱,也能吃饱饭时,就有力气拍下一部电影了。中国的文艺创作者要求并不高,就是希望给口饭吃,给点阳光就灿烂。现在,中国的科技原创者也开始看到了曙光,正骑车走在去食堂的路上,希望也有口饭吃。


我今天显然不是来讲电影,大家最想听的肯定是人工智能和大模型。说起大模型就肯定离不开 Transformer,大家可能会问变形金刚这张照片和Transformer有什么关系?一点关系都没有,他们只是英文名字是一样。我把它(电影海报)放在这里主要是想吸引大家的注意力,用英文讲就是get your attention,因为谷歌在2017年发表的那篇Transformer的文章题目就叫《Attention is All You Need》。


Transformer是一种新型的网络架构,通过基于注意力也就是Attention机制的计算方式,在单个计算层内捕捉非常长距离的关系,目前几乎被AI领域里所有大模型所采用,成为大模型的基石。


在大模型领域,中国学者做了哪些原创的贡献?我想介绍一下我的三位学生在各自岗位上,于过去10年对深度学习的原创贡献。


首先,我先回顾一下几个历史事件:2010年三位图灵奖获得者Geoffrey Hinton、Yann LeCun、Yoshua Bengio共同开启了他们花了很多年研究出来的深度学习的大门。


开启这扇大门的第一声门铃,是Hinton和微软的邓力在2011年深度学习语音识别上划时代的突破。2012年,Hinton和他的学生Alex Krizhevsky和Ilya Sutskever设计了AlexNet,在图像识别ImageNet比赛中取得了另一个划时代的突破。Sutskever本人是今天OpenAI的联合创始人和首席科学家。 


在2011年到2013年深度学习刚刚兴起的时候,中国学者做了什么?


我想讲的第一个学生王晓刚。他是中国科大少年班和00班的第一名,在我的实验室攻读硕士,博士学位于麻省理工学院(MIT)取得,师从MIT前校长Eric Grimson教授,2009年回到我在香港中文大学的实验室做教授。2011年至2013年,CVPR和ICCV两个计算机视觉领域最重要的学术会议上,全球共有29篇深度学习领域论文入选,其中14篇出自我们的实验室。我们在18项工作中于全世界首次将深度学习方法运用到视觉问题上,包括人脸识别、人脸检测、人脸重建、物体检测、人体姿态、图像超分、三维形状识别等计算机视觉最核心的问题。人工智能学者Andrew Ng曾经评价说,你们颠覆了计算机视觉。在深度学习的大门上,我们按了18次门铃。


王晓刚第二项工作在人脸识别领域,首次Facebook之前,让机器人脸识别能力超过人眼,这便是DeepID系列成果。


王晓刚的第三项工作,是在2015年带队取得了中国学者第一个ImageNet世界冠军,当年的对手是谷歌。


我想讲的第二个学生是何恺明。他是2003年广东高考状元,本科就读于清华大学物理专业,硕士及博士学位是在我香港中文大学实验室里获得的。何恺明在读硕士期间发表的第一篇文章,就取得了CVPR最佳论文奖。这是CVPR25年历史上从亚洲出来的第一篇最佳论文,这是2009年。


我一直跟何恺明开玩笑:你的一出手就到了巅峰,从此以后你的学术生涯就只能往下走了。欣喜的是,他去了微软和Facebook工作后,成绩一路走高。第一项工作ResNet是在微软亚洲研究院做的,在2015年之前,全球深度学习最多只能训练到20多层,ResNet在网络的每一层引入了一个直联通道,从而解决了深度网络梯度传递的问题。该项成果的论文《Deep Residual Learning for Image Recognition》也获得了CVPR 2016最佳论文,是计算机视觉历史上被引用最多的论文,超过17万次。从此,就可以有效地训练超过百层的深度神经网络,何恺明把网络打得非常的深。


在大模型时代,以Transformer为核心的大模型,包括GPT系列也是普遍采用了ResNet结构,以支撑上百层的Transformer的堆叠。总结起来就是:何恺明把网络做深了,谷歌把网络的入口拉大了,又深又大,才成为今天的大模型。


恺明第二项工作Mask R-CNN是在Facebook做的,首次提出了一个真正高性能的物体检测算法框架,获得了ICCV 2017年最佳论文。何恺明应该是世界上唯一一个在毕业不到10年内,三次以第一作者身份获得CVPR、ICCV最佳论文的人。Masked AutoEncoders是在Facebook做的,首次把基于掩码的自编码思想用于视觉领域的非监督学习,开启了计算机视觉领域自监督学习大门,并被推广到三维、音频,甚至是AI for Science领域。


今天早上我收到何恺明的邮件,告诉我他会有一个比较更震撼的动作,以后大家会看到。


第三位我想讲的学生是林达华。他本科毕业于中国科大,硕士就读于香港中文大学,博士在MIT同样师从Eric Grimson教授。2010年在MIT攻读博士期间,获得NIPS最佳学生论文,这是机器学习顶会最高奖。2014年,达华回到我的实验室做教授。他的第一项工作OpenMMLab,在2018年从一个小团队开始,在没有推广投入条件下,以口口相传的形式成为国际上最具影响力的视觉算法开源体系。在GitHub上累计获得了8万多个星标,目前用户遍及全球140多个国家和地区,60%用户来自海外。其星标数已经超过了PyTorch。达华的第二项工作是“书生·浦语”,这是国内首个将正式发布的千亿参数语境长度达8K的多语种大语言模型,具体评测细节今天下午会在科学前沿论坛正式发布,我这里就不剧透了。


林达华的第三项工作是“书生·天际LandMark”。2021年12月,林达华团队首次提出了CityNeRF的技术,早于谷歌把NeRF技术从物体级拓展到城市级,“书生·天际”是全球首个城市级实景三维大模型,拥有2000亿参数,建模可达100平方公里,今天下午会正式发布。


回头看,王晓刚在深度学习兴起的最初几年,撒下了很多原创的种子;何恺明将深度学习的根基打得非常牢,打得很深;林达华通过开源和大模型让其枝繁叶茂。


让我非常欣慰的是,这棵大树已经开始开花结果:就在两周前,我们的自动驾驶大模型从9155篇文章中脱颖而出,获得了CVPR 2023最佳论文奖。根据谷歌学术统计,这是改革开放40多年来,第一篇全部由中国学者完成的国际计算机视觉三大顶会的最佳论文。这篇文章的牵头作者是李弘扬,他是王晓刚带出来的博士,OpenMMLab是林达华带出来的博士陈恺做出来的。


当年,我们实验室另一篇机器识别超过人眼的人脸识别文章作者陆超超,也从剑桥大学完成博士学业回到了上海,正在和中国唯一的图灵奖获得者姚期智先生合作,从事AI基础理论研究。


新一代的学生已经在上海成功起步,我想再一次感谢上海,说一声“上海,你好”!我想对王晓刚、何恺明、林达华、陈恺、李弘扬、陆超超以及所有我曾经合作过的学生、老师们,还有今天上海在座的朋友们讲一句,“我不是在最好的时光遇见了你们,而是遇见了你们才有了这段最好的时光”。


WAIC演讲2.jpg


这句话非常优美且富有诗意,也发自我的内心,可惜它也不是我的原创。这句话是于谦老师的原创,是他在电影《老师好》中的一句经典台词。


每天晚上睡觉前,我都是一边听着于谦老师的相声,一边想:机器怎么可能超过这样有趣的灵魂?我不信。


谢谢大家,我们一起努力,上海加油。

版权所有 上海人工智能实验室
地址:上海市徐汇区云锦路701号西岸国际人工智能中心37-38层
联系方式:comm@pjlab.org,cn