PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
Marginalman
attention residual
作者:
sustainer123
(caster)
2026-03-23 18:21:57
最近很紅的文章
瞄幾眼想說什麼傻逼玩意
何愷明的東西你也想動手腳
加注意力複雜度直接炸掉
看完後確實是好文章
實驗紮實 論點清晰 full attention residual版本的操作也不複雜
而且時間複雜度確實也不是大問題
block就複雜些
但我不像這篇文章要用在LLM
block是為了LLM的工程實現的搞的東西
cv用full應該也沒太大負擔
下午搞了full版 希望明天有GPU 沒有我就
繼續閱讀
星街: 會留名字給你咖掛
FAQayame
[嘟嘟臉] 吃拉麵
a1234555
[姆咪] :Vibe coding悲歌
umi0912umi
[瓦特] 星街就這
Bronya
Re: [閒聊] 中國女權:想體驗900年前女人的生活
yggyygy
[閒聊] 晚餐
hushaoan88
Re: [姆咪] 有點疲累
PogChampLUL
[姆咪] 中岡她
kevinlee2001
[閒聊] 中國女權:想體驗900年前女人的生活
DarkHolbach
[瓦特] 你虹亞人、千草、羊、劍蘿、社長、vv
HGK
Links
booklink
Contact Us: admin [ a t ] ucptt.com