潘云鹤：AI的走向——知识的登台与升级 | 浦江AI评论第⑧期 & WAIC 2022

2022世界人工智能大会科学前沿全体会议上，中国工程院院士、浙江大学教授潘云鹤作了题为《AI的走向：知识的登台与升级》的演讲。他认为，跨媒体智能已成为备受关注的发展方向，此技术可应用于图像识别及视觉生成，其中知识发挥了重要作用；大数据和跨媒体智能、跨媒体知识表达相结合，将形成人工智能第四次创新方向，这一方向由数据和知识双轮驱动。

潘云鹤院士作主题演讲

很荣幸在2022世界人工智能大会上讨论人工智能发展的前沿。今天，我想和各位分享的主题是“AI的走向：知识的登台与升级” ，主要讲两个方面的内容：一是，认识人工智能发展的指向；二是，人工智能正走向数据与知识的双轮驱动。

【人工智能发展的指向，知识再一次登上舞台的中央】

近年来，人工智能发展热潮形成的主动力之一来自深度学习技术提高图像识别精度等应用发展。2016年5月，美国白宫发表的《为人工智能未来做好准备》（Preparing for the Future of Artificial Intelligence）报告提到：鉴于人工智能在医学以及图像语音理解方面将对社会生活起到史无前例的影响，要在美国国家科技委中设立“人工智能和机器学习委员会”，以协调指导全美各界的行动。

图像识别为何能产生如此大的影响？因为图像识别技术不仅推动了人脸识别、指纹识别、医学图像识别等的发展，还有一系列非常广泛的应用，比如智能汽车、安全监控、机器人、无人机、智能制造等。

那么深度学习为何会兴起？主要因为它在多媒体大数据智能的识别上实现了突破。要看到，这一项技术之所以在全世界产生巨大影响，因为它不仅是新模型，还在应用中填补了人工智能1.0的重要空白，就是对多媒体大数据的处理。

2020年7月，《日本经济新闻》报道，一项可能预示着人工智能未来走向的技术亮相，这种技术被称为“多模态人工智能”。就像人类通过五感理解周围环境一样，多模态人工智能可以通过图像、声音和文件等多种数据做出高水平判断。在日本有企业家表示，多模态人工智能无疑是新一代人工智能的核心技术。

人工智能业内人士都知道，多模态人工智能就是多媒体人工智能，而且多媒体人工智能和人类的认知过程是吻合的，人的认知过程有多种不同的智能形式。美国IBM（美国国际商用机器公司）和MIT（麻省理工学院）设立“Watson AI Lab”，进行尖端的多模态人工智能技术研究。而中国在2017年《新一代人工智能发展规划》中提出了大数据智能、跨媒体智能、群体智能、混合增强智能、自主智能系统等智能技术形态，其中明确指出了跨媒体智能的发展方向。

跨媒体人工智能、多媒体人工智能的应用将不仅仅局限于图像识别，还将用于视觉生成。这次大会大家讨论的中心问题——“元宇宙”，它的产生不但要涉及到大量的视觉识别问题，还涉及了大量的视觉生成问题。

元宇宙的本质是建立在互联网上的可体验的虚拟世界，它是在人类世界从两元空间（人类社会和物理空间）转向三元空间（人类社会、物理世界和信息空间）的过程中产生的。到了三元空间，就可以把物理世界和人类社会投射到信息空间中，这就是元宇宙的重要基础。元宇宙的发展受到世界众多国家和机构的重视，如英国、欧盟、美国等各大公司都投向这一方向的探索：英国商业、能源和工业战略部于就元宇宙等信息物理前沿创新向社会各界咨询意见；欧盟议会发布了题为《元宇宙：机会、风险与政策含义》的简报；美国《时代周刊》指出国际顶尖科技公司，如苹果、谷歌、微软等已在积极探索元宇宙技术。

元宇宙一方面要模拟物理世界，一方面要模拟人类社会，而其中的关键技术是数字人。表面上数字人是有数字化外形的虚拟人，不但要表现人的外观、人的动作、人的感知、人的认知能力，还要表现人的个性化数据。因此，数字人本身需要一个人的跨媒体知识表达。

以人体视觉知识为核心的数字人技术，必须要形成一种跨媒体的知识表达，不但要有个性化的数据结合人体形态、结构、运动的数据与知识，而且能构建结构清晰、可解释、可推演的虚拟形象，这样才能在元宇宙中发挥更大的作用，获得更加广泛的应用前景。

数字人的各类应用

目前，我们已经看到了数字人有各种各样的应用，比如虚拟形象构建、人体数字化重建和数字人体驱动等基础应用，以及数字主播、虚拟社交、智慧诊疗、人体工学等产业应用。现在各个大学也在纷纷进行数字人应用。要注意的是，数字人是AI和Graphics结合的产物，中间的桥梁就是视觉知识。

“丛林自主集群飞行机器人”演示视频

同时，群体智能系统也呼唤视觉理解与控制。在视频中可以看到，由浙江大学控制科学与工程学院FAST实验室研发的“丛林自主集群飞行机器人”，可以在无GPS、无动作捕捉、无远程计算和无预先建图的情况下，在超低空、强密集、无规则的未知环境中实现智能性、灵巧性、协同性、鲁棒性集群飞行，并且即将面向实际应用场景所涉及的大规模、高可靠、抗干扰、强适应、超感知等方向迈进。

更进一步，这些无人机如果想要对障碍物进行分辨，就需要更深入地用到视觉知识。例如，当无人机经过一根垂直障碍物的时候，想区分这是水泥杆还是竹竿，就要通过知识来判断，比如被风吹时，竹竿是会摇动的，而水泥杆则不会摇动。

在视觉识别领域，同样需要视觉知识。深度神经网络依靠数据取得了巨大成绩，现在也在使用视觉知识向更加智能的方向发展。从海康威视的实例效果对比可以看到，原来用数字技术做的视觉识别，往往在人表现不全的情况下，会混淆人和动物，但是在使用了视觉知识后进行的识别，就不容易发生混淆。

海康威视在视觉识别中使用知识

同样，在停车场里也取得了很好的结果：即使在人受到较多遮挡的情况下，仍能较好地检出漏检。可以看到，使用了视觉知识以后，视觉识别效果提升明显，正确率至少可以提高4.5%，而在最复杂难辨的情况下，正确率能提高12.8%。如果视觉知识能得到更好的表达，还可以进一步提高。

在停车场里人受到较多遮挡的情况下，仍能较好地检出漏检

【人工智能走向数据与知识的双轮驱动】

回顾60余年来人工智能的主流核心技术，已有了三次创新：第一次创新，是上世纪五六十年代，人工智能诞生之初，由规则和逻辑驱动，典型的代表人物是Simon和Newell，目标是实现通用问题求解；第二次创新，是在上世纪六七十年代，人工智能进化到了由知识和推理驱动，知识不但使用逻辑，而且使用比逻辑更加广泛的人类经验，代表人物是斯坦福大学的Feigenbaum，他做了化学专家系统，然后上升为知识工程和专家系统；第三次创新，到了2006年，知识工程很快被深度神经网络替代，人工智能进入由数据和深度神经网络模型驱动的阶段。

第三次创新到来，是由于当时只能处理符号型的人工智能，仅可以表达人类的符号知识、语言知识，而深度神经网络的出现，实现了在视觉识别、听觉识别、文字识别、多媒体人工智能方面的极大突破。与此同时，其诸多缺点也逐渐显露，这就是现在大家常讲的不可解释、不可迁移使用，且大量数据依赖标识。

所以，大数据和跨媒体智能、跨媒体知识表达相结合，将是人工智能第四次创新方向，这一方向由数据和知识双轮驱动。这其中，开路先锋很可能就是视觉知识、文字知识等的多重表达，并且要进行对象的识别，识别之后再进行分析，接着进行模拟。

视觉知识、多重知识表达、视觉理解和DNN（深度神经网络）、知识图谱相结合，将生成双轮驱动的人工智能大潮。要记住，大数据、大模型固然重要，但是大知识同样很重要。我们要在大知识中提早布局，并且取得快速推进。

谢谢各位！

comm@pjlab.org.cn

上海市徐汇区龙文路129号国际传媒港L1楼

沪ICP备2021009351号-1

科研动态

潘云鹤：AI的走向——知识的登台与升级 | 浦江AI评论第⑧期 & WAIC 2022

网站地图