
地瓜机器东谈主团队 投稿
量子位 | 公众号 QbitAI
让机器东谈主精确执起透明物体,这个难题终于被处分了。
而且如故仅靠一张图、单观点那种款式。
效果是这么的:

这即是由地瓜机器东谈主和中科院自动化所等单元共同建议的一项新商讨——
MODEST,一个针对透明物体的单目深度臆想和语义分割的多任务框架。

MODEST算法框架算作通用执取模子的前置模块,即插即用,纯真高效,且无需依赖脱落传感器。
何况仅靠单张RGB图像,便可已毕透明物体的执取,效果上以致要优于其它双目和多视图的款式。
不错等闲诳骗于智能工场、现实室自动化、奢睿家居等场景,裁汰设立本钱并大幅援助机器东谈主对透明物体的操作才略。
值得一提的是,这项商讨还是入选人人机器东谈主领域顶会ICRA 2025(IEEE机器东谈主与自动化国外会议)。
如何作念到的?现时透明物体的执取中枢在于深度信息的获取,当今不管是深度传感器如故多视角重建的款式皆无法获取透明物体准确竣工的深度信息。
透明物体复杂的折射和反射特点给机器东谈主感知形成了很大周折。在大多半RGB图像中的透明物体经常短缺澄莹的纹理,而容易与布景混为一体。
此外,商用深度相机也难以准确捕捉这些物体的深度信息,导致深度图缺失或噪声过多,从而适度了机器东谈主在多个领域的等闲诳骗。
为了处分透明物体感知难题,传统款式大多依赖特殊传感设立或多视角图像,增多了时期和经济本钱,并经常受限于诳骗场景。
MODEST单目框架初度冲突了传统传感器处理透明物体时的适度,裁汰了设立本钱和使用复杂度,提供了愈加高效、经济和粗陋的透明物体感知决策。
△单目透明物体感知框架与其他款式之间的对比
MODEST主要聚焦于透明物体的深度臆想,通过贪图的语义和几何聚首的多任务框架,获取物体准确的深度信息,之后聚首基于点云的执取会聚已毕透明物体的执取。
畸形于在通用执取会聚前边增多一个针对透明物体的增强模块。
MODEST模子的举座架构如图所示,输入为单目RGB图像,输出为透明物体的分割收尾和场景深度瞻望。
会聚主要由编码、重组、语义几何交融和迭代解码四个模块组成。
输入图像当先过程基于ViT的编码模块进行处理,随后重组为对应分割和深度两个分支的多范例特征。
在交融模块中对两组特征进行夹杂和增强,临了通过屡次迭代冉冉更新特征,并获取最终瞻望收尾。
△基于语义几何交融和迭代战术的透明物体单目多任务框架
关于透明物体来说,语义分割任务不错为深度臆想提供语义和高下文信息,而雷同深度臆想不错为分割提供界限、名义等几何信息。
为了充分挖掘两个任务间的互补信息,MODEST 算法框架构建了基于谨慎力机制的语义几何交融模块,旨在同期援助两个任务的性能。
△语义几何交融模块结构
当东谈主类不雅察透明物体等不显赫物体时,咱们东谈主类会倾向于先谨慎物体的举座概括,然后是局部细节。受东谈主眼启发,MODEST框架建议了一种由粗到细的特征更新战术,进一步援助瞻望精度。
现实收尾为了测试MODEST全新算法框架的检测效果,团队登第了透明物体领域两个影响力等闲的公开仿真数据集Syn-TODD和真确数据集ClearPose。
在其上与当今起先进的透明物体双目款式SimNet、多视图款式MVTran以及多任务款式InvPT和TaskPrompter进行对比现实。
两个大领域数据集皆领有跳动100k的浩荡标注图像数据,何况包含了严重遮盖等极点场景。
1、公开数据集上的定性和定量对比现实
△仿真数据集Syn-TODD上的定性对比收尾
△真确数据集ClearPose上的定性对比收尾
通过在两个数据集上的定性对比收尾不错看出,由于透明物体会演叨地折射布景,何况在RGB图像中短缺纹理,因此SimNet、MVTrans等款式无法获取令东谈主安靖的瞻望,从而导致深度图和分割掩膜的大面积缺失。
有关词,通过有用的交融和迭代,在某些即使东谈主眼皆难以分析和判断的场景,团队的款式依然省略产生竣工和澄莹的瞻望收尾。
△仿真数据集Syn-TODD上的定量对比收尾
△真确数据集ClearPose上的定量对比收尾
从表格中的定量对比不错看出,MODEST算法框架在各神情的上皆要大幅跳动其他总计款式。
值得谨慎的是,尽管只使用单张RGB图像算作输入,MODEST在深度臆想和语义分割方面皆要显著优于其他双目以致多视图款式。
何况在Syn-TODD数据集上,与名轮番二的款式比较,MODEST算法框架在RMSE和REL两神情的有着跳动45%的援助,语义分割的精度也均跳动了90%。
2、真确平台执取现实
团队还将算法迁徙到真确机器东谈主平台,开展了透明物体执取现实。
平台主要由UR机械臂和深度相机组成,在借助MODEST款式进行透明物体精确感知的基础之上,收受GraspNet进行执取位姿的生成。
在多个透明物体上的现实收尾标明,MODEST款式在真确平台上具有浩荡的鲁棒性和泛化性。
One More Thing
值得一提的是,除了MODEST以外,地瓜机器东谈主主导研发的DOSOD灵通词汇标的检测算法,也入选了ICRA 2025。
MODEST是通过动态语义浮现框架援助复杂场景识别准确率,而DOSOD则是聚首几何建模与语义分析时间优化透明物体操作精度。
两项时间收尾均已在领域化营业场景中得到有用考据。
感兴致的小伙伴不错戳下方连接了解细目哦~
MODEST著作地址:https://arxiv.org/pdf/2502.14616
MODEST代码地址:https://github.com/D-Robotics-AI-Lab/MODEST
DOSOD著作地址:https://arxiv.org/abs/2412.14680
DOSOD代码地址:https://github.com/D-Robotics-AI-Lab/DOSOD?tab=readme-ov-file
— 完 —
量子位 QbitAI · 头条号签约
热心咱们ag九游会官方,第一时期获知前沿科技动态