>  资讯  >  正文

AI理解不了“他她它”咋办?动词成为新突破口,机器人听到抹黄油就知道拿刀

给AI下指令的时候,总觉得和人交流不一样。

AI理解不了“他她它”咋办?动词成为新突破口,机器人听到抹黄油就知道拿刀

是的,虽然AI可以理解一些特定的人类指令,比如:

帮我从餐厅拿把椅子。

但如果改成只有代词和动词的模糊指令,AI会很困惑:

帮我找个能垫脚的东西。

现在,终于有研究人员提出了一种新的处理方法:AI不能学习理解动词吗。

动词本身和一些特定的名词绑定在一起比如抹黄油这个动作,肯定离不开刀叉之类的名词

只需要将它们进行匹配,无需刀叉等名词指令,AI也能准确找出目标对象:

目前,该论文正式收录于NeurIPS 2022,相关模型已经开源:

那么它是如何训练AI理解动词的呢。

盖名词,让AI看图找东西

本文提出了一个称为TOIST的框架。

TOIST面向任务的实例分割转换器,这是一种基于转换器的实例分割新方案。

实例分割不同于语义分割的全图切割,它还具有目标检测的特点。比如下图直接找出与名词两厢对应的对象:

此前,案件分割模型通常分为两步第一步是检测可能的目标,第二步是对可能的目标进行排序并预测最可能的结果

但与这种方式不同的是,TOIST框架直接采用了一个整体的Transformer框架,其中解码器中的自我关注机制可以建立候选目标之间的偏好关系。

TOIST框架分为三个部分。

其中,多模态编码器负责提取特征标记,变换器编码器负责聚合两种模式的特征,并基于变换器解码器中的注意机制预测最合适的目标。

随后,提出了一种新的名词—代词提取方法来训练模型。

具体来说,基于知识提炼框架,以无监督学习的方式训练AI通过上下文猜测名词原型。

比如原来的实例分割任务是用滑板挖洞,但是在训练模型的时候,名词滑板会被代词某物代替:

这种分割效果在实际案例中表现如何。

目标探测准确率提高10.9%

本文在大规模任务数据集COCO—Tasks上对TOIST进行了测试。

评价方法采用mAP,常见于目标检测等视觉任务。

简单来说,TOIST在例如分割和目标检测方面比以前的SOTA模型表现得更好,而添加了名词代词提取方法的增强版TOIST的表现比TOIST in好上一层楼。

与目前最好的Yolo+GGNN相比,增强版TOIST的决策帧精度图在目标检测任务中提高了10.9%,在案例分割任务中,mask精度比Mask—RCNN+GGNN提高了6.6%。

对于名词—代词提取方法,与TOIST的原始版本相比,实例切分的准确率分别提高了2.8%和3.8%。

在具体的案例表现上,模型效果也非常接近实际的分割真值。

比如图中,算法甚至识别出啤酒瓶盖可以用桌子打开,在理解上可以说是满分:

我们实验室其实是负责机器人的研究的,但是在平时的调查中发现,用户有时候更喜欢向机器人描述需求,而不是直接告诉他们该做什么。

换句话说,AI算法是用来让机器人想得更多,而不仅仅是一个听从命令的助手。

李鹏飞,清华大学智能产业研究院博士生,毕业于中国科学院大学他的研究兴趣是自动驾驶和计算机视觉

对大视觉—语言模型感兴趣的朋友可以试试这个新思路~

论文地址:

项目地址:

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

聚焦新闻

今日热点

热点排行

经济快报

中国品牌网致力于信息传播并不代表本网赞同其观点和对其真实性负责,若有任何不当请联系我们删除。

Copyright 2018- www.hanxinne.top All Rights Reserved

本网站展示资料或信息,仅供用户参考,不构成任何投资建议。 备案号:皖ICP备2023005497号