DI极客说：决策AI的研究与应用 | 活动预告

从强化学习到 MCTS，从星际争霸 AI 到自动驾驶，决策 AI 发挥了关键作用，是“弱人工智能”迈向“强人工智能”的重要突破点，它将帮助人类更好地去追寻星辰大海，探索无限可能。

“DI极客说”系列技术沙龙由上海人工智能实验室主办，全球高校人工智能学术联盟承办，商汤科技作为支持单位，AI研习社作为直播平台，PaperWeekly作为合作媒体联合打造。“DI极客说”将通过邀请多元化的技术专家，介绍决策AI相关领域的前沿科技成果，分享科研和产业化应用经验，共建“知识共享”的决策AI开源技术生态。

第一期“DI极客说”将于8月14日拉开帷幕，报名成功的小伙伴们均可免费参加！高校学者、业界专家以及众多关注AI的同行将齐聚线上，一起讨论交流关于“决策AI的研究与应用”的最新前沿知识！

参与本期技术沙龙，你将收获：

产学研界专家团的专业讲解与实时互动；

掌握决策AI相关知识及前沿技术动态；

学习认证证书；

画板@3x.png

嘉宾及分享内容

画板@1x.png

乔宇博士

上海人工智能实验室科学技术发展部部长、研究员

乔宇博士从事计算机视觉、深度学习、机器人等领域的研究开发。开发了轨迹卷积特征、时序分割模型、中心损失、多任务级联检测等方法，显著提升了多类别行为检测分类、超大规模人像识别、复杂场景识别等任务的性能，相关技术被华为、中兴、腾讯、商汤等企业广泛使用。发表学术论文200余篇，论文累计被引两万六千余次，h-index为64。获授权发明专利40余项。入选万人计划领军人才，科技部中青年科技创新领军人才、中科院百人计划等。入选AI2000人工智能全球最具影响力学者、爱思唯尔高被引学者等。十余次在ChaLearn, LSun, ActivityNet, EmotionW等国际评测中取得第一。以第一完成人获广东省技术发明一等奖、中科院卢嘉锡青年人才奖等，获人工智能旗舰会议AAAI2021杰出论文奖。

俞扬博士

南京大学教授、南栖仙策创始人

俞扬博士为国家万人计划青年拔尖人才，主要研究领域为机器学习、强化学习，近期专注于开放环境强化学习的理论、技术与落地应用。获2020CCF-IEEE“青年科学家奖”，入选2018年IEEE Intelligent Systems杂志评选的“国际人工智能10大新星”，获2018亚太数据挖掘"青年成就奖”，受邀在IJCAI’18作关于强化学习的"青年亮点"报告。获2013年全国优秀博士学位论文奖、2011年CCF优秀博士学位论文奖。

报告题目：环境模型学习——让强化学习走出游戏

强化学习研究大多被限制在游戏环境中，尚处于“好看不好用”的境地。基于环境模型的强化学习被认为是有望解救强化学习样本效率低下的主要途径。一旦有了良好环境模型，强化学习的大量试错可在环境模型中完成，从而极大的减少了在真实环境的试错采样的数量，使得强化学习更具可用性。然而，以往环境模型学习的理论与实验均难以支持这一想法，使得研究主流逐渐抛弃对学习良好环境模型的期待。报告人在实践需求中看到，环境模型具有难以替代的应用优势，并在环境模型学习上开展了研究。本次报告将汇报环境模型学习的研究进展，及其在真实强化学习应用中的效用。

高阳博士

清华大学交叉信息研究院助理教授

高阳博士在美国加州大学伯克利分校获得博士学位，师从Trevor Darrell教授。他还在伯克利大学与Pieter Abbeel等人合作完成了博士后工作。高阳主要研究计算机视觉与机器人学。在此之前，高阳从清华大学计算机系毕业，与朱军教授在贝叶斯推理方面开展了研究工作。他还在2011-2012年在谷歌研究院进行了自然语言处理相关的研究工作、2016年在谷歌自动驾驶部门Waymo的相机感知团队实习。他在2018年与VladlenKoltun博士在英特尔研究院在端到端自动驾驶方面进行了研究工作。

报告题目：Mastering Atari Games with Limited Data

Reinforcement learning has achieved great success in many applications. However, sample efficiency remains a key challenge, with prominent methods requiring millions (or even billions) of environment steps to train. Recently, there has been significant progress in sample-efficient image-based RL algorithms; however, consistent human-level performance on the Atari game benchmark remains an elusive goal. We propose a sample efficient model-based visual RL algorithmbuilt on MuZero, which we name EfficientZero. Our method achieves 180% meanhuman performance, or 84.8% median performance on the Atari 100k benchmark with only two hours of real-time game experience. This is the first time an algorithm achieves super-human mean performance on Atari games with such little data. EfficientZero's performance is also close to DQN's performance at 200million frames, however we consumes 500 times less data. EfficientZero's low sample complexity and high performance can bring RL closer to real-world applicability. Unlike previous MCTS-based RL algorithm, our algorithm can run on a single machine instead of requiring a distributed system. We implement our algorithm in an easy to understand manner, and will open-source it upon publication. We hope it will accelerate the research of MCTS-based RL algorithms in the wider community.

刘宇博士

上海人工智能实验室青年科学家、OpenDILab开源决策智能平台项目负责人

刘宇博士毕业于香港中文大学MMLab，研究方向为大规模深度学习优化问题和决策AI，发表人工智能领域顶会顶刊30余篇，总引用量2000+，2019年Google PhD Fellowship得主，在ImageNet2016、OpenImage2019、MMIT2019、LFR2019、ActivityNet2020等人工智能重量级世界竞赛中获得冠军。

报告题目：从感知AI的发展理解决策AI的未来

感知与决策是通用人工智能的两大基石。感知类 AI 诸如计算机视觉、语音识别、自然语言处理等领域在过去 10 年享受了深度学习所带来的性能红利，而决策 AI 随着诸如强化学习与深度学习的结合在近年也表现出了很高的想象空间。本次分享将回顾计算机视觉在深度学习时代的发展，从 ImageNet 等单一学术问题的革命性突破到真正实现大量复杂场景可用可落地的发展过程，围绕环境标准化、算法平台化、模型通用化等几大议题，分析和畅想决策类 AI 在未来大规模落地和发展可能性。

画板@1x.png

牛雅哲

上海人工智能实验室、OpenDILab开源决策智能平台核心研发人员

牛雅哲主要负责平台引擎DI-engine的设计和开发，统筹研发一系列决策AI平台底层效率优化组件，并为相关大规模分布式强化学习应用提供技术保障和支持，构建决策智能技术和系统工程结合的完整工具链。

报告题目：从零到一，坚持做正确的事——通用决策AI平台的开拓创新之路

近年来，决策AI技术接连突破人类对于通用人工智能的想象，但其在各种复杂环境和计算场景上的通用性问题仍是真正实现技术变革的巨大阻碍。多模态，低信息密度的数据流，算法设计和实现逻辑高度耦合的计算模型，不断动态变化的问题场景，AI+System的协同优化，都体现出了相关系统和平台设计的复杂性。从零到一，设计构建通用决策智能平台OpenDILab，优雅且高效地处理决策AI技术遇到的各种复杂性问题，为整个决策AI生态圈提供基础技术支持。

画板@3x.png

扫码填写信息，即可报名参加

截止时间：2021年8月13日（周五）18:00

报名后可添加“DI极客说”小助手（微信号：OpenDILab）进入活动讨论群，获取相关信息。

OpenDILab（开源决策智能平台）于 2021 年 7 月 8 日世界人工智能大会的开幕式和科学前沿全体会议上正式发布。该平台作为上海人工智能实验室开源平台体系OpenXLab的重要组成部分，是国际上首个覆盖最全学术界算法和工业级规模的决策AI平台，具备一套完备的决策 AI 训练与部署框架，自顶而下涵盖了包括应用生态层，算法抽象层，异步分布式管理层和最底层的分布式执行层，适配从单机到万 CPU/GPU 联合训练的全尺度调度系统优化。具体开源代码实现详见 GitHub：https://github.com/opendilab/

comm@pjlab.org.cn

上海市徐汇区龙文路129号国际传媒港L1楼

沪ICP备2021009351号-1

科研动态

DI极客说：决策AI的研究与应用 | 活动预告

网站地图