<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Transformer-Based on zhaoyli&#39;s Blog</title>
    <link>https://zhaoylee.github.io/Blogs/categories/transformer-based/</link>
    <description>Recent content in Transformer-Based on zhaoyli&#39;s Blog</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <copyright>[©2024 zhaoyli&amp;rsquo;s Blog] https://zhaoylee.github.io/)</copyright>
    <lastBuildDate>Mon, 16 Mar 2026 01:45:51 +0000</lastBuildDate>
    <atom:link href="https://zhaoylee.github.io/Blogs/categories/transformer-based/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>StreamPETR-QAF2D：Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors</title>
      <link>https://zhaoylee.github.io/Blogs/posts/plug_and_play/streampetr-qaf2d--enhancing-3d-object-detection-with-2d-detection-guided-query-anchors/</link>
      <pubDate>Sun, 15 Mar 2026 21:59:16 +0800</pubDate>
      <guid>https://zhaoylee.github.io/Blogs/posts/plug_and_play/streampetr-qaf2d--enhancing-3d-object-detection-with-2d-detection-guided-query-anchors/</guid>
      <description>&lt;hr&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;🏛️ 会议/期刊&lt;/strong&gt;：CVPR&lt;br&gt;
&lt;strong&gt;📅 发表年份&lt;/strong&gt;：2024&lt;br&gt;
&lt;strong&gt;💻 开源代码&lt;/strong&gt;：&lt;a href=&#34;https://github.com/nullmax-vision/QAF2D&#34;&gt;nullmax-vision/QAF2D-CVPR 2024&lt;/a&gt;&lt;br&gt;
&lt;strong&gt;📄 论文题目&lt;/strong&gt;：&lt;a href=&#34;https://arxiv.org/pdf/2403.06093&#34;&gt;Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;p&gt;这篇发表于 CVPR 2024 的论文 &lt;strong&gt;《Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors》(简称 QAF2D)&lt;/strong&gt; 极具工程实用价值。它没有死磕 3D 空间中的特征提取瓶颈，而是打出了一套极其聪明的“降维组合拳”，巧妙地利用成熟的 2D 视觉技术来为 3D 检测器“引路”。&lt;/p&gt;</description>
    </item>
    <item>
      <title>PLOT: Pseudo-Labeling via Object Tracking for Monocular 3D Object Detection</title>
      <link>https://zhaoylee.github.io/Blogs/posts/plug_and_play/plot---pseudo-labeling-via-object-tracking-for-monocular-3d-object-detection/</link>
      <pubDate>Sun, 15 Mar 2026 20:52:51 +0800</pubDate>
      <guid>https://zhaoylee.github.io/Blogs/posts/plug_and_play/plot---pseudo-labeling-via-object-tracking-for-monocular-3d-object-detection/</guid>
      <description>&lt;hr&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;🏛️ 会议/期刊&lt;/strong&gt;：ICLR&lt;br&gt;
&lt;strong&gt;📅 发表年份&lt;/strong&gt;：2026&lt;br&gt;
&lt;strong&gt;💻 开源代码&lt;/strong&gt;：&lt;a href=&#34;%E5%A1%AB%E5%86%99%E4%BD%A0%E7%9A%84URL&#34;&gt;无&lt;/a&gt;&lt;br&gt;
&lt;strong&gt;📄 论文题目&lt;/strong&gt;：&lt;a href=&#34;https://openreview.net/pdf?id=3knS4J9isg&#34;&gt;PLOT: Pseudo-Labeling via Object Tracking for Monocular 3D Object Detection&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h3 id=&#34;一-背景研究目的与核心问题&#34;&gt;一、 背景、研究目的与核心问题&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;研究背景：&lt;/strong&gt; 单目 3D 目标检测模型极度“吃数据”。然而，人工标注 3D 边界框极其昂贵且耗时，导致目前带 3D 标签的数据集规模很小，严重限制了模型的泛化能力。&lt;/p&gt;</description>
    </item>
    <item>
      <title>Difficulty-Aware Label-Guided Denoising for Monocular 3D Object Detection</title>
      <link>https://zhaoylee.github.io/Blogs/posts/transformer-based/monodlgd--difficulty-aware-label-guided-denoising-for-monocular-3d-object-detection/</link>
      <pubDate>Sun, 15 Mar 2026 20:52:49 +0800</pubDate>
      <guid>https://zhaoylee.github.io/Blogs/posts/transformer-based/monodlgd--difficulty-aware-label-guided-denoising-for-monocular-3d-object-detection/</guid>
      <description>&lt;hr&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;🏛️ 会议/期刊&lt;/strong&gt;：AAAI &lt;br&gt;
&lt;strong&gt;📅 发表年份&lt;/strong&gt;：2026&lt;br&gt;
&lt;strong&gt;💻 开源代码&lt;/strong&gt;：&lt;a href=&#34;https://github.com/lsy010857/MonoDLGD&#34;&gt;MonoDLGD&lt;/a&gt;&lt;br&gt;
&lt;strong&gt;📄 论文题目&lt;/strong&gt;：&lt;a href=&#34;https://arxiv.org/pdf/2511.13195&#34;&gt;Difficulty-Aware Label-Guided Denoising for Monocular 3D Object Detection&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h3 id=&#34;一-背景研究目的与核心问题&#34;&gt;一、 背景、研究目的与核心问题&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;研究背景：&lt;/strong&gt; 在基于 Transformer 的单目 3D 目标检测中，通过向真实标签注入噪声并让模型去重构（即查询去噪 Query Denoising），能有效加速模型收敛并提升几何感知能力。&lt;/p&gt;</description>
    </item>
    <item>
      <title>Mono3DV: Monocular 3D Object Detection with 3D-Aware Bipartite Matching and Variational Query DeNoising</title>
      <link>https://zhaoylee.github.io/Blogs/posts/transformer-based/mono3dv--monocular-3d-object-detection-with-3d-aware-bipartite-matching-and-variational-query-denoising/</link>
      <pubDate>Sun, 15 Mar 2026 20:36:42 +0800</pubDate>
      <guid>https://zhaoylee.github.io/Blogs/posts/transformer-based/mono3dv--monocular-3d-object-detection-with-3d-aware-bipartite-matching-and-variational-query-denoising/</guid>
      <description>&lt;hr&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;🏛️ 会议/期刊&lt;/strong&gt;：CVPR / ICCV / ECCV&lt;br&gt;
&lt;strong&gt;📅 发表年份&lt;/strong&gt;：2026&lt;br&gt;
&lt;strong&gt;💻 开源代码&lt;/strong&gt;： 无&lt;br&gt;
&lt;strong&gt;📄 论文题目&lt;/strong&gt;：&lt;a href=&#34;https://arxiv.org/pdf/2601.01036&#34;&gt;Mono3DV: Monocular 3D Object Detection with 3D-Aware Bipartite Matching and Variational Query DeNoising&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h3 id=&#34;一-背景研究目的与核心问题&#34;&gt;一、 背景、研究目的与核心问题&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;研究背景：&lt;/strong&gt; 近年来，基于 Transformer（特别是 DETR 架构）的模型在 2D 目标检测中取得了巨大成功，并顺理成章地被引入到单目 3D 目标检测（M3OD）领域。这类模型依赖“查询（Query）”机制和“二分图匹配（Bipartite Matching）”来端到端地输出检测结果，无需繁琐的非极大值抑制（NMS）。&lt;/p&gt;</description>
    </item>
    <item>
      <title>SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection</title>
      <link>https://zhaoylee.github.io/Blogs/posts/plug_and_play/span--spatial-projection-alignment-for-monocular-3d-object-detection/</link>
      <pubDate>Sun, 15 Mar 2026 19:38:47 +0800</pubDate>
      <guid>https://zhaoylee.github.io/Blogs/posts/plug_and_play/span--spatial-projection-alignment-for-monocular-3d-object-detection/</guid>
      <description>&lt;hr&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;🏛️ 会议/期刊&lt;/strong&gt;：CVPR / ICCV / ECCV&lt;br&gt;
&lt;strong&gt;📅 发表年份&lt;/strong&gt;：2026&lt;br&gt;
&lt;strong&gt;💻 开源代码&lt;/strong&gt;：&lt;a href=&#34;https://github.com/WYFDUT/SPAN&#34;&gt;GitHub 链接&lt;/a&gt;&lt;br&gt;
&lt;strong&gt;📄 论文题目&lt;/strong&gt;：&lt;a href=&#34;https://arxiv.org/pdf/2511.06702&#34;&gt;SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id=&#34;1-文献背景与研究动机&#34;&gt;1. 文献背景与研究动机&lt;/h2&gt;
&lt;h2 id=&#34;背景与现状&#34;&gt;背景与现状&lt;/h2&gt;
&lt;p&gt;单目3D目标检测（Monocular 3D Object Detection）是自动驾驶和机器人视觉中的核心任务，旨在仅通过单张RGB图像预测物体的3D边界框。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
