Open Vocabulary Monocular 3D Object Detection

zhaoylee — Sun, 15 Mar 2026 21:14:37 +0800

🏛️ 会议/期刊：3DV
📅 发表年份：2026
💻 开源代码：UVA-Computer-Vision-Lab/ovmono3d
📄 论文题目：Open Vocabulary Monocular 3D Object Detection

研究背景： 传统的单目 3D 目标检测（M3OD）模型都属于“闭集（Closed-set）”学习。这意味着模型只能检测训练集中预先定义好的那几种类别（例如 KITTI 数据集里的车、人、自行车）。但在真实的自动驾驶或机器人场景中，会遇到无数的长尾目标（如遗落的轮胎、奇形怪状的施工路障、甚至是一只突然窜出的动物）。

VLM - 标签 - Zhaoylee's Blogs