新闻动态

Dynamics

首页 >  新闻动态  > 详情

首期“DI极客说”:决策AI的研究与应用|活动回顾

8月14日,第一期“DI极客说”线上技术沙龙成功举办。本期技术沙龙以“决策AI的研究与应用”为主题,邀请到多位业内专家分享决策AI领域的最新研究成果。

上海人工智能实验室科学技术发展部部长、研究员乔宇表示,OpenDILab(开源决策智能平台)是上海人工智能实验室重点布局发展的开源平台,未来上海人工智能实验室还将持续投入建设新一代人工智能生态,推进科技创新、产业发展和人才培养形成合力,促进人工智能发展。

强化学习:走出游戏,改变世界

2222.png

俞扬作《环境模型学习——让强化学习走出游戏》主题分享

当前,针对强化学习的研究大多被限制于游戏环境中,尚处于“好看不好用”的境地,原因之一是强化学习样本效率低下。南京大学教授,南栖仙策创始人俞扬认为,基于环境模型的强化学习将是解决这一难题,“让强化走出游戏”的主要途径。

俞扬在“DI极客说”中分享了环境模型学习的研究进展,及其在真实强化学习应用中的效用。一旦有了良好环境模型,强化学习的大量试错可在环境模型中完成,从而极大的减少了在真实环境的试错采样的数量,使得强化学习更具可用性。然而,以往环境模型学习的理论与实验均难以支持这一想法,使得研究主流逐渐抛弃对学习良好环境模型的期待。俞扬认为,在实践需求中可以看到,环境模型具有难以替代的应用优势,强化学习将是改变世界的技术。

4444.png

 高阳作《Mastering Atari Games with Limited Data》主题分享

如何让强化学习应用于更多的实际场景?

清华大学交叉信息研究院助理教授高阳分享了Efficient Zero强化学习算法,该算法有助于从高维图象观测环境中学到有效策略,从而将强化学习推向在真实世界中更有用的场景。高阳介绍,Efficient Zero算法是由Muzero算法改进而来,针对Muzero算法的监督训练信号问题、环境动力建模问题及异策略偏差问题,相应解决方案分别为:self modellearner、valueprefix、off-policy correction。Efficient Zero算法在经典学术环境上可以快速达到人类水平,并在部分环境上超越人类,而且整个环境训练过程,其数据效率相较于DQN算法有大幅提升。

OpenDILab:致力破解“标准化”难题

在题为《从感知AI的发展到理解决策AI的未来》的报告中,上海人工智能实验室青年科学家、OpenDILab开源决策智能平台负责人刘宇分享了从感知AI到决策AI技术体系的整体发展趋势,包括感知AI、强化学习和决策AI在计算流上的异同,以及计算机视觉在深度学习时代的发展。

222.png

刘宇作《从感知AI的发展到理解决策AI的未来》主题分享

自2012年以来,AlexNet的广泛应用使得计算机视觉发展有了质的飞跃;在2014-2016阶段,由于FaceNet、DeepID等细分领域算法的突破,计算机视觉在几个拥有海量数据的领域达到超越人类水平的高度;在2017-2020阶段,计算机视觉有了更进一步的发展,产生了如AutoML、NAS、HPO等半自动AI模型的训练和生产的流程;最近一两年,基于通用预训练模型的算法突破,使得一个计算机视觉模型可以解决大多数相似而长尾分布的任务。

刘宇认为,环境革新和算法革新两大核心动力正带动决策AI快速发展,但决策AI目前仍面临着“标准化难”的瓶颈。而OpenDILab将致力于从环境多样性、计算复杂性以及计算尺度多样性等方面着手,提高训练过程标准化水平,从而推动决策AI的发展。

3333.png

牛雅哲作《从零到一,坚持做正确的事——通用决策AI平台的开拓创新之路》主题分享

上海人工智能实验室OpenDILab核心研发人员牛雅哲从平台设计和工程实现的角度进行解读,分享了OpenDILab为提高决策AI在环境、算法、计算规模的通用性而储备的一系列技术解决方案。OpenDILab作为通用决策智能平台,可高效地处理解决AI技术遇到的各种复杂性问题,为决策AI生态圈提供基础技术支持。

“DI极客说”系列技术沙龙由上海人工智能实验室主办,全球高校人工智能学术联盟承办,商汤科技作为支持单位,AI研习社作为直播平台,PaperWeekly作为合作自媒体共同打造。“DI极客说”系列技术沙龙将通过邀请多元化技术嘉宾,介绍决策AI相关领域的前沿科技成果,分享科研和产业化应用经验,一起共建“知识共享”的决策AI开源技术生态。


comm@pjlab.org.cn

上海市徐汇区云锦路701号西岸国际人工智能中心37-38层

沪ICP备2021009351号-1