计算机视觉研究人员利用运动来发现视频中的物体

卡内基梅隆大学机器人研究所的研究人员表明,计算机视觉系统比静止物体更容易检测运动中的物体,例如在街道上行驶的汽车或在人行横道上行走的人。

MartialHebert,卡耐基梅隆大学计算机学院院长、机器人研究所教授,机器人学博士。学生包志鹏与丰田研究院合作开展了该项目,丰田研究院赞助了这项工作。这项研究可以帮助计算机和机器人更好地自动检测视频中的物体。


【资料图】

物体识别是理解现实世界场景的基础,因此开发用于发现物体的运动引导方法可以改善自动驾驶。它还可能对零售机器人、机器人操作和家庭机器人有用。

卡耐基梅隆大学的研究人员与丰田、加州大学伯克利分校和诺伊大学厄巴纳-香槟分校的同事合作,开发了一个名为MoTok的框架,使计算机能够识别它看到的自行移动物体的特征。然后,MoTok使用这些特征来重建对象,使计算机能够以能够再次找到同一对象的方式发现该对象。

此后,研究人员扩展了这项工作,以便计算机能够以简化的虚拟化方式描绘这些特征。这一发展使计算机能够更好地识别高级特征,使计算机能够对对象进行分类,而不仅仅是识别特定对象。该论文目前可在arXiv预印本服务器上获取。

视觉化物体对人们来说是很自然的事——事实上,这种视觉是很自然的,很难反思。

“我们不知道如何做到这一点,”赫伯特说。

机器学习的进步有助于提高计算机识别物体的能力,尽管方式与人类有很大不同。然而,这些方法需要数万小时的包含标记对象的视频。它费力、昂贵,而且在实验室外容易出现故障。

“显然,这无法扩大规模,”赫伯特说。

我们需要的是一种通用方法,使计算机程序能够自行发现视频中的对象,而不需要标签或监督。正如MoTok所演示的,使用运动来引导对象发现是实现这一目标的一种方法。

“移动的物体很容易与静态背景区分开来,”鲍说,他在丰田研究所实习期间完成了这项研究。“运动还可以帮助定义具有多个运动部件的物体。车门可能会打开和关闭,车轮可能会旋转,但当汽车在街道上行驶时,所有部件一起移动可以帮助计算机程序更好地理解汽车的概念”。

该团队于6月在视觉与模式识别会议上发表了有关MoTok的论文。有关MoTok的更多信息请访问该项目的网站。

关键词:
图片版权归原作者所有,如有侵权请联系我们,我们立刻删除。
新化月报网报料热线:886 2395@qq.com

相关文章

你可能会喜欢

最近更新

推荐阅读