InternGPT：点击鼠标，让AI更懂视觉任务

来源：上海人工智能实验室｜ 2023-05-18

近日，上海人工智能实验室OpenGVLab团队推出基于光标指令的多模态交互系统InternGPT。用鼠标点一点，即可精确传达指令，让AI执行7种视觉任务。

InternGPT为实验室研究成果通用人工智能模型“书生”（Intern）的延展，同时代表着interaction（交互）和nonverbal（非语言）方向的最新成果。不同于Visual ChatGPT、MM-REACT、HuggingGPT等仅支持语言指令的传统多模态交互系统，InternGPT在基于语言的交互方式之外进一步引入了基于光标的交互方式，使用户可以通过点击、框选、拖动等更便捷的方式与系统进行交互。

此外，InternGPT可结合诸多当下最受欢迎的API，如Stable Diffusion、miniGPT4、LLaVA和Husky_[1]等，实现一键抠图、一键识别图中文字进行问答，以及一句话修图等七大功能。通过提供丰富的对话和生成能力，InternGPT把人机互动模式创新性地提高到了新的水平，降低了AI视觉任务的门槛，让AI成为万千大众都能使用的生产工具。

论文：

https://arxiv.org/abs/2305.056622

DEMO（适配PC端）：

https://igpt.opengvlab.com/

开源链接：

https://github.com/OpenGVLab/InternGPT

应用举例

视觉任务中，常常需要在复杂的画面上进行物体编辑，如何让AI精准感知用户的意图尤为重要。以使用Visual ChatGPT为例，假设要把其中一个葫芦娃抠掉，可打字输入“把穿绿裤子的男孩去掉（Remove the boy in green pants）”。

没有成功。

换个更精确的指令？有点词穷……换为使用InternGPT，鼠标点一点，直接在图片上和ChatGPT互动！点击葫芦娃，输入“remove it”，轻松完成抠图！

葫芦娃9.43M.gif

【七大功能】

InternGPT集成了七大功能：视觉问答、一键抠图、物体替换、风格迁移与图像生成、图片中的文字识别和交互、交互创作、视频截取与文案撰写。

功能1 视觉问答

先来看一项传统的视觉任务——视觉问答。

示例图片中有狗、椅子、电扇，远处似乎还有山和水系，有点复杂，交给 InternGPT来看图：

输出结果：这张照片显示了一只白色的狗坐在草地外面的床上。这只狗戴着一条皮带，拴在床边的背包上。旁边还有一个风扇，这表明狗的主人可能用它来给狗降温，让它在炎热的天气里保持舒适。桌子上还可以看到一个喷雾器，这表明狗的主人可能用它来给狗降温。

(The image shows a white dog sitting on a bed outsideon grass. The dog is wearing a leash, which is attached to a backpack that is placed near the bed. There is also a fan nearby, suggesting that the dog's owner might be using it to cool the dog down, keeping it comfortable in the hot weather A sprau bottle can also be seen on the table, suggesting that the dog's owner might be using it to cool the dog down.)

非常精准！

功能2 一键抠图

点一点即可抠图，轻松又无痕。

狗7M.gif

或者在目标区域上随手画条线，抠图效果同样好。

猫8M.gif

功能3 一句话替换物体

点一点，即可替换图中物体。

下图演示了灯塔“变”成埃菲尔塔（指令：Replace it with the Eiffel Tower）。

灯塔7M.gif

面对图中物体很多的复杂情况也没问题，想改哪里点哪里（指令：Repace it with a yellow dog）。

狮子8.47M.gif

功能4 风格迁移与图像生成

把打篮球的男孩图片修改成奥特曼，只要拖拽奥特曼素材到相应位置，就可以生成图片并且下载了。再换个风格：背带裤、平底锅（指令：An Ultraman wear in overalls is holding a pan in his hand ）。

功能5 图片中的文字识别和交互

再也不担心妈妈出国旅游看不懂菜单了！上传菜单图片，点一点菜名查看解释，还可以输入要求，问问InternGPT的点菜建议。

功能6 交互创作

在白板功能上随手画上山、树、太阳、水流，点击save，然后告诉InternGPT想生成什么，就可以得到一张大片级别的山川瀑布图了。

功能7 一句话剪辑视频与生成文案

上传一个男生打篮球的视频片段，输入“剪辑出运球的画面”，即生成可下载的视频片段，并自动配解说“注意看，这个帅气的男孩叫小帅，他不但是一个很好的舞者，还是一个很棒的篮球运动员”。

【效果对比】

通过对比InternGPT和使用键盘交互的agent可以看出，使用InternGPT获得了更好的效果。

在执行物体编辑的任务时，能够精准识别用户的意图尤为重要，但以往都是使用键盘交互的agent。Visual ChatGPT是在这个领域中的代表性工作之一，它和InternGPT一样，任务是接收用户的指令，根据指令编辑指定图片，如添加、删除和替换物体等，但是在用户测试的特定的情况下, InternGPT表现更出色。

在单个物体的场景中，InternGPT和Visual ChatGPT都可以非常准确地识别并抹去图片中的狗。然而，在更复杂的场景中，InternGPT似乎更善于掌握现有物体的特征，以及准确地完成更换物体的操作，替换的内容能够维持图片当前的风格。

在有两个物体的图片上，执行移除物体指令时，Visual ChatGPT需要更长的指令来明确指定要删除的物体，而InternGPT仅需轻点一下鼠标就能完成。在更多物体的图片中，InternGPT的优势更加明显。例如，InternGPT可精确地修改多辆车中的某一辆，而Visual ChatGPT则会将图中的所有物体都抹去。

尽管在更复杂的场景中，InternGPT也会面临一些挑战，但它仍能够正确分割和移除对应的物体，而Visual ChatGPT无法准确地识别出指令。综上所述，虽然在物体编辑任务中，InternGPT和Visual ChatGPT都表现得非常出色，但在复杂场景中，或在面对更复杂的用户交互时，InternGPT表现更出色。

【方法介绍】

InternGPT主要由三个模块构成：作为控制器的大型语言模型，作为光标指令感知单元的视觉基础模型，以及作为后端的其他视觉基础模型和工具。下图展示了InternGPT的整体工作流程。

具体而言，用户在对话开始时上传一张图片，随后在每一轮的对话过程中，用户可以传入点击、框选和拖动等光标形式的指令和语言形式的指令。针对光标形式的指令，InternGPT通过SAM模型对物体进行分割提取，通过OCR模型对选中区域的文本内容进行提取。对于生成任务，还会将用户的光标指令作为笔画输入后端的AIGC模型。针对语言形式的指令，由大型语言模型对其进行语义理解和任务拆分。随后系统根据拆分得到的各个子任务来调度后端模型，将用户上传的图片和光标信号感知单元的解析结果作为输入，逐个完成全部子任务后，将结果反馈给用户。

未来，研究团队计划在多模态交互的基础上加入InternImage和InternVideo中的基础模型。InternGPT是一次创新性的尝试，研究人员希望藉此将人工智能视觉任务的使用门槛不断降低，让所有人都可以通过点击等简单操作，轻松完成传统复杂任务，一起创造更有想象力的工作！

[1] Husky为OpenGVLab全新研发的模型，目前已被VQA（视觉问答）采用，无需复杂的prompt设定即可完成多轮对话，相关代码开源地址请点击链接获取

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

InternGPT：点击鼠标，让AI更懂视觉任务

来源：上海人工智能实验室｜ 2023-05-18