attention residual

作者: sustainer123 (caster)   2026-03-23 18:21:57
最近很紅的文章
瞄幾眼想說什麼傻逼玩意
何愷明的東西你也想動手腳
加注意力複雜度直接炸掉
看完後確實是好文章
實驗紮實 論點清晰 full attention residual版本的操作也不複雜
而且時間複雜度確實也不是大問題
block就複雜些
但我不像這篇文章要用在LLM
block是為了LLM的工程實現的搞的東西
cv用full應該也沒太大負擔
下午搞了full版 希望明天有GPU 沒有我就

Links booklink

Contact Us: admin [ a t ] ucptt.com