给AI下指令的时候,总觉得和人交流不一样。
是的,虽然AI可以理解一些特定的人类指令,比如:
帮我从餐厅拿把椅子。
但如果改成只有代词和动词的模糊指令,AI会很困惑:
帮我找个能垫脚的东西。
现在,终于有研究人员提出了一种新的处理方法:AI不能学习理解动词吗。
动词本身和一些特定的名词绑定在一起比如抹黄油这个动作,肯定离不开刀叉之类的名词
只需要将它们进行匹配,无需刀叉等名词指令,AI也能准确找出目标对象:
目前,该论文正式收录于NeurIPS 2022,相关模型已经开源:
那么它是如何训练AI理解动词的呢。
盖名词,让AI看图找东西
本文提出了一个称为TOIST的框架。
TOIST面向任务的实例分割转换器,这是一种基于转换器的实例分割新方案。
实例分割不同于语义分割的全图切割,它还具有目标检测的特点。比如下图直接找出与名词两厢对应的对象:
此前,案件分割模型通常分为两步第一步是检测可能的目标,第二步是对可能的目标进行排序并预测最可能的结果
但与这种方式不同的是,TOIST框架直接采用了一个整体的Transformer框架,其中解码器中的自我关注机制可以建立候选目标之间的偏好关系。
TOIST框架分为三个部分。
其中,多模态编码器负责提取特征标记,变换器编码器负责聚合两种模式的特征,并基于变换器解码器中的注意机制预测最合适的目标。
随后,提出了一种新的名词—代词提取方法来训练模型。
具体来说,基于知识提炼框架,以无监督学习的方式训练AI通过上下文猜测名词原型。
比如原来的实例分割任务是用滑板挖洞,但是在训练模型的时候,名词滑板会被代词某物代替:
这种分割效果在实际案例中表现如何。
目标探测准确率提高10.9%
本文在大规模任务数据集COCO—Tasks上对TOIST进行了测试。
评价方法采用mAP,常见于目标检测等视觉任务。
简单来说,TOIST在例如分割和目标检测方面比以前的SOTA模型表现得更好,而添加了名词代词提取方法的增强版TOIST的表现比TOIST in好上一层楼。
与目前最好的Yolo+GGNN相比,增强版TOIST的决策帧精度图在目标检测任务中提高了10.9%,在案例分割任务中,mask精度比Mask—RCNN+GGNN提高了6.6%。
对于名词—代词提取方法,与TOIST的原始版本相比,实例切分的准确率分别提高了2.8%和3.8%。
在具体的案例表现上,模型效果也非常接近实际的分割真值。
比如图中,算法甚至识别出啤酒瓶盖可以用桌子打开,在理解上可以说是满分:
我们实验室其实是负责机器人的研究的,但是在平时的调查中发现,用户有时候更喜欢向机器人描述需求,而不是直接告诉他们该做什么。
换句话说,AI算法是用来让机器人想得更多,而不仅仅是一个听从命令的助手。
李鹏飞,清华大学智能产业研究院博士生,毕业于中国科学院大学他的研究兴趣是自动驾驶和计算机视觉
对大视觉—语言模型感兴趣的朋友可以试试这个新思路~
论文地址:
项目地址:
。郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。