首期“DI极客说”：决策AI的研究与应用｜活动回顾

8月14日，第一期“DI极客说”线上技术沙龙成功举办。本期技术沙龙以“决策AI的研究与应用”为主题，邀请到多位业内专家分享决策AI领域的最新研究成果。

上海人工智能实验室科学技术发展部部长、研究员乔宇表示，OpenDILab（开源决策智能平台）是上海人工智能实验室重点布局发展的开源平台，未来上海人工智能实验室还将持续投入建设新一代人工智能生态，推进科技创新、产业发展和人才培养形成合力，促进人工智能发展。

强化学习：走出游戏，改变世界

俞扬作《环境模型学习——让强化学习走出游戏》主题分享

当前，针对强化学习的研究大多被限制于游戏环境中，尚处于“好看不好用”的境地，原因之一是强化学习样本效率低下。南京大学教授，南栖仙策创始人俞扬认为，基于环境模型的强化学习将是解决这一难题，“让强化走出游戏”的主要途径。

俞扬在“DI极客说”中分享了环境模型学习的研究进展，及其在真实强化学习应用中的效用。一旦有了良好环境模型，强化学习的大量试错可在环境模型中完成，从而极大的减少了在真实环境的试错采样的数量，使得强化学习更具可用性。然而，以往环境模型学习的理论与实验均难以支持这一想法，使得研究主流逐渐抛弃对学习良好环境模型的期待。俞扬认为，在实践需求中可以看到，环境模型具有难以替代的应用优势，强化学习将是改变世界的技术。

高阳作《Mastering Atari Games with Limited Data》主题分享

如何让强化学习应用于更多的实际场景？

清华大学交叉信息研究院助理教授高阳分享了Efficient Zero强化学习算法，该算法有助于从高维图象观测环境中学到有效策略，从而将强化学习推向在真实世界中更有用的场景。高阳介绍，Efficient Zero算法是由Muzero算法改进而来，针对Muzero算法的监督训练信号问题、环境动力建模问题及异策略偏差问题，相应解决方案分别为：self modellearner、valueprefix、off-policy correction。Efficient Zero算法在经典学术环境上可以快速达到人类水平，并在部分环境上超越人类，而且整个环境训练过程，其数据效率相较于DQN算法有大幅提升。

OpenDILab：致力破解“标准化”难题

在题为《从感知AI的发展到理解决策AI的未来》的报告中，上海人工智能实验室青年科学家、OpenDILab开源决策智能平台负责人刘宇分享了从感知AI到决策AI技术体系的整体发展趋势，包括感知AI、强化学习和决策AI在计算流上的异同，以及计算机视觉在深度学习时代的发展。

刘宇作《从感知AI的发展到理解决策AI的未来》主题分享

自2012年以来，AlexNet的广泛应用使得计算机视觉发展有了质的飞跃；在2014-2016阶段，由于FaceNet、DeepID等细分领域算法的突破，计算机视觉在几个拥有海量数据的领域达到超越人类水平的高度；在2017-2020阶段，计算机视觉有了更进一步的发展，产生了如AutoML、NAS、HPO等半自动AI模型的训练和生产的流程；最近一两年，基于通用预训练模型的算法突破，使得一个计算机视觉模型可以解决大多数相似而长尾分布的任务。

刘宇认为，环境革新和算法革新两大核心动力正带动决策AI快速发展，但决策AI目前仍面临着“标准化难”的瓶颈。而OpenDILab将致力于从环境多样性、计算复杂性以及计算尺度多样性等方面着手，提高训练过程标准化水平，从而推动决策AI的发展。

牛雅哲作《从零到一，坚持做正确的事——通用决策AI平台的开拓创新之路》主题分享

上海人工智能实验室OpenDILab核心研发人员牛雅哲从平台设计和工程实现的角度进行解读，分享了OpenDILab为提高决策AI在环境、算法、计算规模的通用性而储备的一系列技术解决方案。OpenDILab作为通用决策智能平台，可高效地处理解决AI技术遇到的各种复杂性问题，为决策AI生态圈提供基础技术支持。

“DI极客说”系列技术沙龙由上海人工智能实验室主办，全球高校人工智能学术联盟承办，商汤科技作为支持单位，AI研习社作为直播平台，PaperWeekly作为合作自媒体共同打造。“DI极客说”系列技术沙龙将通过邀请多元化技术嘉宾，介绍决策AI相关领域的前沿科技成果，分享科研和产业化应用经验，一起共建“知识共享”的决策AI开源技术生态。

comm@pjlab.org.cn

上海市徐汇区龙文路129号国际传媒港L1楼

沪ICP备2021009351号-1

科研动态

首期“DI极客说”：决策AI的研究与应用｜活动回顾

网站地图