zhaoyli's Blog

PLOT: Pseudo-Labeling via Object Tracking for Monocular 3D Object Detection

🏛️ 会议/期刊：ICLR 📅 发表年份：2026 💻 开源代码：无 📄 论文题目：PLOT: Pseudo-Labeling via Object Tracking for Monocular 3D Object Detection 一、背景、研究目的与核心问题研究背景：单目 3D 目标检测模型极度“吃数据”。然而，人工标注 3D 边界框极其昂贵且耗时，导致目前带 3D 标签的数据集规模很小，严重限制了模型的泛化能力。 ...

Difficulty-Aware Label-Guided Denoising for Monocular 3D Object Detection

🏛️ 会议/期刊：AAAI 📅 发表年份：2026 💻 开源代码：MonoDLGD 📄 论文题目：Difficulty-Aware Label-Guided Denoising for Monocular 3D Object Detection 一、背景、研究目的与核心问题研究背景：在基于 Transformer 的单目 3D 目标检测中，通过向真实标签注入噪声并让模型去重构（即查询去噪 Query Denoising），能有效加速模型收敛并提升几何感知能力。 ...

Mono3DV: Monocular 3D Object Detection with 3D-Aware Bipartite Matching and Variational Query DeNoising

🏛️ 会议/期刊：CVPR / ICCV / ECCV 📅 发表年份：2026 💻 开源代码：无 📄 论文题目：Mono3DV: Monocular 3D Object Detection with 3D-Aware Bipartite Matching and Variational Query DeNoising 一、背景、研究目的与核心问题研究背景：近年来，基于 Transformer（特别是 DETR 架构）的模型在 2D 目标检测中取得了巨大成功，并顺理成章地被引入到单目 3D 目标检测（M3OD）领域。这类模型依赖“查询（Query）”机制和“二分图匹配（Bipartite Matching）”来端到端地输出检测结果，无需繁琐的非极大值抑制（NMS）。 ...

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

🏛️ 会议/期刊：IJCV 📅 发表年份：2026 💻 开源代码：GitHub 链接 📄 论文题目：Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection 一、背景、研究目的与核心问题研究背景：单目 3D 目标检测本身是一个病态（ill-posed）问题，由于缺乏深度信息，模型极度依赖海量、多样化的训练数据来学习鲁棒的特征。 ...

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

🏛️ 会议/期刊：CVPR / ICCV / ECCV 📅 发表年份：2026 💻 开源代码：无 📄 论文题目：SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding 一、背景、研究目的与核心问题研究背景：在自动驾驶等领域，3D 目标检测是核心技术。其中，“单目 3D 目标检测”由于仅依赖单张图像，硬件成本极低，备受青睐。然而，传统基于人工神经网络（ANNs）的模型计算量大、能耗极高，给边缘计算设备的电池续航和散热带来了巨大压力。 ...

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

🏛️ 会议/期刊：CVPR / ICCV / ECCV 📅 发表年份：2026 💻 开源代码：GitHub 链接 📄 论文题目：SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection 1. 文献背景与研究动机背景与现状单目3D目标检测（Monocular 3D Object Detection）是自动驾驶和机器人视觉中的核心任务，旨在仅通过单张RGB图像预测物体的3D边界框。 ...