zhaoyli's Blog

OCM3D: Object-Centric Monocular 3D Object Detection

Mon, 16 Mar 2026 09:12:18 +0800

🏛️ 会议/期刊：arxiv
📅 发表年份：2021
💻 开源代码：OBMO_GUPNet
📄 论文题目：OCM3D: Object-Centric Monocular 3D Object Detection

1. 文献背景、研究目的与核心问题

研究背景：单目 3D 目标检测（Monocular 3D Object Detection）是一个高度病态（ill-posed）的问题。主流方法通常依赖纯图像或将其转化为伪激光雷达（Pseudo-LiDAR）点云。然而，前者难以捕捉像素间的 3D 空间几何关系，后者则受困于单目深度估计带来的巨大点云噪声。

LR3D: Improving Distant 3D Object Detection Using 2D Box Supervision

Sun, 15 Mar 2026 22:23:00 +0800

🏛️ 会议/期刊：CVPR
📅 发表年份：2024
💻 开源代码：无
📄 论文题目：Improving Distant 3D Object Detection Using 2D Box Supervision

这篇由 NVIDIA 等机构的研究人员发表在 CVPR 2024 的重磅论文 《Improving Distant 3D Object Detection Using 2D Box Supervision》(简称 LR3D)，切入了一个目前高阶自动驾驶极其头疼的落地难题：远距离感知（Long-Range Detection）。它展示了如何用最廉价的标注，榨取单目视觉在远距离上的极限潜力。

StreamPETR-QAF2D：Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors

Sun, 15 Mar 2026 21:59:16 +0800

🏛️ 会议/期刊：CVPR
📅 发表年份：2024
💻 开源代码：nullmax-vision/QAF2D-CVPR 2024
📄 论文题目：Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors

这篇发表于 CVPR 2024 的论文 《Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors》(简称 QAF2D) 极具工程实用价值。它没有死磕 3D 空间中的特征提取瓶颈，而是打出了一套极其聪明的“降维组合拳”，巧妙地利用成熟的 2D 视觉技术来为 3D 检测器“引路”。

OBMO: One Bounding Box Multiple Objects for Monocular 3D Object Detection

Sun, 15 Mar 2026 21:59:12 +0800

🏛️ 会议/期刊：IEEE TIP
📅 发表年份：2023
💻 开源代码：mrsempress/OBMO_patchnet
📄 论文题目：OBMO: One Bounding Box Multiple Objects for Monocular 3D Object Detection

这篇发表于 IEEE TIP (2023) 的经典论文 《OBMO: One Bounding Box Multiple Objects for Monocular 3D Object Detection》 切入点非常犀利。它没有在复杂的网络主干上做文章，而是直击单目 3D 目标检测在“底层数学物理逻辑”上的痛点，提出了一种极其优雅的“即插即用（Plug-and-play）”训练策略。

Open Vocabulary Monocular 3D Object Detection

Sun, 15 Mar 2026 21:14:37 +0800

🏛️ 会议/期刊：3DV
📅 发表年份：2026
💻 开源代码：UVA-Computer-Vision-Lab/ovmono3d
📄 论文题目：Open Vocabulary Monocular 3D Object Detection

一、背景、研究目的与核心问题

研究背景： 传统的单目 3D 目标检测（M3OD）模型都属于“闭集（Closed-set）”学习。这意味着模型只能检测训练集中预先定义好的那几种类别（例如 KITTI 数据集里的车、人、自行车）。但在真实的自动驾驶或机器人场景中，会遇到无数的长尾目标（如遗落的轮胎、奇形怪状的施工路障、甚至是一只突然窜出的动物）。

MonoXiver： Monocular 3D Object Detection with Bounding Box Denoising in 3D by Perceiver

Sun, 15 Mar 2026 21:14:36 +0800

🏛️ 会议/期刊：ICCV
📅 发表年份：2023
💻 开源代码：Xianpeng919/monoxiver (ICCV'23)
📄 论文题目：Monocular 3D Object Detection with Bounding Box Denoising in 3D by Perceiver

这篇发表于 ICCV 2023 的论文 《Monocular 3D Object Detection with Bounding Box Denoising in 3D by Perceiver》(简称 MonoXiver)，提供了一个非常经典且极具工程价值的“自上而下（Top-down）”纠错思路。它并没有试图发明一种全新的主干网络，而是设计了一个强大的“插件”，专门用来拯救那些定位不准的预测框。

PLOT: Pseudo-Labeling via Object Tracking for Monocular 3D Object Detection

Sun, 15 Mar 2026 20:52:51 +0800

🏛️ 会议/期刊：ICLR
📅 发表年份：2026
💻 开源代码：无
📄 论文题目：PLOT: Pseudo-Labeling via Object Tracking for Monocular 3D Object Detection

一、背景、研究目的与核心问题

研究背景： 单目 3D 目标检测模型极度“吃数据”。然而，人工标注 3D 边界框极其昂贵且耗时，导致目前带 3D 标签的数据集规模很小，严重限制了模型的泛化能力。

Difficulty-Aware Label-Guided Denoising for Monocular 3D Object Detection

Sun, 15 Mar 2026 20:52:49 +0800

🏛️ 会议/期刊：AAAI
📅 发表年份：2026
💻 开源代码：MonoDLGD
📄 论文题目：Difficulty-Aware Label-Guided Denoising for Monocular 3D Object Detection

一、背景、研究目的与核心问题

研究背景： 在基于 Transformer 的单目 3D 目标检测中，通过向真实标签注入噪声并让模型去重构（即查询去噪 Query Denoising），能有效加速模型收敛并提升几何感知能力。

Mono3DV: Monocular 3D Object Detection with 3D-Aware Bipartite Matching and Variational Query DeNoising

Sun, 15 Mar 2026 20:36:42 +0800

🏛️ 会议/期刊：CVPR / ICCV / ECCV
📅 发表年份：2026
💻 开源代码：无
📄 论文题目：Mono3DV: Monocular 3D Object Detection with 3D-Aware Bipartite Matching and Variational Query DeNoising

一、背景、研究目的与核心问题

研究背景： 近年来，基于 Transformer（特别是 DETR 架构）的模型在 2D 目标检测中取得了巨大成功，并顺理成章地被引入到单目 3D 目标检测（M3OD）领域。这类模型依赖“查询（Query）”机制和“二分图匹配（Bipartite Matching）”来端到端地输出检测结果，无需繁琐的非极大值抑制（NMS）。

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

Sun, 15 Mar 2026 19:59:15 +0800

🏛️ 会议/期刊：IJCV
📅 发表年份：2026
💻 开源代码：GitHub 链接
📄 论文题目：Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

一、背景、研究目的与核心问题

研究背景： 单目 3D 目标检测本身是一个病态（ill-posed）问题，由于缺乏深度信息，模型极度依赖海量、多样化的训练数据来学习鲁棒的特征。

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

Sun, 15 Mar 2026 19:59:10 +0800

🏛️ 会议/期刊：CVPR / ICCV / ECCV
📅 发表年份：2026
💻 开源代码：无
📄 论文题目：SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

一、背景、研究目的与核心问题

研究背景： 在自动驾驶等领域，3D 目标检测是核心技术。其中，“单目 3D 目标检测”由于仅依赖单张图像，硬件成本极低，备受青睐。然而，传统基于人工神经网络（ANNs）的模型计算量大、能耗极高，给边缘计算设备的电池续航和散热带来了巨大压力。

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

Sun, 15 Mar 2026 19:38:47 +0800

🏛️ 会议/期刊：CVPR / ICCV / ECCV
📅 发表年份：2026
💻 开源代码：GitHub 链接
📄 论文题目：SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

1. 文献背景与研究动机

背景与现状

单目3D目标检测（Monocular 3D Object Detection）是自动驾驶和机器人视觉中的核心任务，旨在仅通过单张RGB图像预测物体的3D边界框。

DIGGING INTO OUTPUT REPRESENTATION FOR MONOCULAR 3D OBJECT DETECTION

Fri, 13 Mar 2026 15:27:43 +0800

🏛️ 会议/期刊：ICLR
📅 发表年份：2022
💻 开源代码：GitHub 链接
📄 论文题目：DIGGING INTO OUTPUT REPRESENTATION FOR MONOCULAR 3D OBJECT DETECTION

0. 一句话总结 (TL;DR)

(这篇论文用什么方法，解决了什么问题，达到了什么效果)

MonoCT: Overcoming Monocular 3D Detection Domain Shift with Consistent Teacher Models

Thu, 12 Mar 2026 10:25:13 +0800

🏛️ 会议/期刊：ICRA
📅 发表年份：2025
💻 开源代码：GitHub 链接
📄 论文题目：MonoCT: Overcoming Monocular 3D Detection Domain Shift with Consistent Teacher Models

0. 一句话总结 (TL;DR)

(这篇论文用什么方法，解决了什么问题，达到了什么效果)
MonoCT 提出了一种基于一致性教师模型（Consistent Teacher）的半监督自适应框架，通过在目标域（Target Domain）引入伪标签一致性约束，有效解决了单目 3D 检测在不同数据集间迁移时的深度估计偏差问题。

关于

Mon, 01 Jan 0001 00:00:00 +0000

about

zhaoyli's Blog

OCM3D: Object-Centric Monocular 3D Object Detection

1. 文献背景、研究目的与核心问题

LR3D: Improving Distant 3D Object Detection Using 2D Box Supervision

StreamPETR-QAF2D：Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors

OBMO: One Bounding Box Multiple Objects for Monocular 3D Object Detection

Open Vocabulary Monocular 3D Object Detection

一、 背景、研究目的与核心问题

MonoXiver： Monocular 3D Object Detection with Bounding Box Denoising in 3D by Perceiver

PLOT: Pseudo-Labeling via Object Tracking for Monocular 3D Object Detection

一、 背景、研究目的与核心问题

Difficulty-Aware Label-Guided Denoising for Monocular 3D Object Detection

一、 背景、研究目的与核心问题

Mono3DV: Monocular 3D Object Detection with 3D-Aware Bipartite Matching and Variational Query DeNoising

一、 背景、研究目的与核心问题

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

一、 背景、研究目的与核心问题

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

一、 背景、研究目的与核心问题

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

1. 文献背景与研究动机

背景与现状

DIGGING INTO OUTPUT REPRESENTATION FOR MONOCULAR 3D OBJECT DETECTION

0. 一句话总结 (TL;DR)

MonoCT: Overcoming Monocular 3D Detection Domain Shift with Consistent Teacher Models

0. 一句话总结 (TL;DR)

关于

一、背景、研究目的与核心问题

一、背景、研究目的与核心问题

一、背景、研究目的与核心问题

一、背景、研究目的与核心问题

一、背景、研究目的与核心问题

一、背景、研究目的与核心问题