Vision Transformers Need Registers

作者: sustainer123 (caster)   2025-12-30 18:22:16
這篇是處理vit特徵圖的雜訊問題
大抵來說 背景會出現高norm的點
這些點大多數是沒啥資訊的背景
這些背景會丟失局部訊息並overfit全局訊息
換言之 我們可以說這些雜訊被模型當成全局訊息的暫存器
解決方法就是加幾個token當暫存器
訓練完丟掉
我測試對模型效果沒提升
然後加的token越少降低越少

Links booklink

Contact Us: admin [ a t ] ucptt.com