作者:
maplefff (maplefff)
2026-06-26 08:41:59※ 引述《Pixma258 (鄉民們!別爭了!!)》之銘言:
: 乳題,為何記憶體可以瘋漲價成這樣
: 川狗一句話都不敢出來叫
: 但晶圓不行,漲價要漲的小心奕奕
: 川狗不時出來叫
: 如要論記憶體和晶圓,晶圓製造技術門檻更高
: 而且對AI基建晶圓重要性也絕對不會輸記憶體
: 有沒有記憶體可以隨便喊漲那麼高的毛利率
: 晶圓不行
: 股價更是晶圓瘋漲成這樣,晶圓卻被倒貨
: 實在看不懂,想請教一下大家
「HBM容量每GPU大概每年增長40%以上
這條需求曲線的陡峭程度,是DRAM供給端 14% 的晶圓產能增長,
乘以 9% 的密度提升,很難追上的
在硬體領域,因為解碼階段KV快取的極高頻寬
和極高記憶體容量的要求,也導致了HBM獨特的地位。即便是HBM漲價三五倍,
把錢花在HBM上帶來的邊際token產出提升,仍然比花在其他地方要划算的多。
其他幾個記憶體路線,SRAM,HBF,CXL,PIM,
目前都無法在HBM的主力賽道KV快取/解碼階段上正面競爭,
起碼未來5年甚至更長時間,不太可能找到替代路線」
https://x.com/fi56622380/status/2070029693810847988?s=20
////////////
只要LLM還是當前自回歸生成(AR, Autoregressive Generation)工程範式,
每生成1個token都需要搬運KV快取計算上文每一個token和下文的注意力(Attention)
那記憶體問題就是供給側無解的問題, 因為LLM對記憶體頻寬擴展的需求會是
token生成長度二次方增長.
將token生成長度1M token -> 10M token, 記憶體頻寬需要擴展100倍
這遠遠高於現實世界工廠建設和製程優化的速度.
要解決該問題, 唯一的方法是從算法根本上去解決.
我很久之前就認為文本Diffusion模型很可能是下一代新工程範式
從流形假設的觀點看Diffusion的生成更穩定, 從工程實踐去看其生成更有效率
文本Diffusion模型可以一次性讀取KV快取就透過GPU迭代生成大量token
目前工程實踐可以做到一次生成256 token以上, 這表示KV快取搬運減少256倍
而未來顯然會更長. 這會把當前的記憶體受限問題重新拉回到GPU, 算力受限問題上
關鍵的轉折點會落在什麼時候上下文長度已經長到這個效益無法忽視
文本Diffusion模型, 隨著前陣子Google釋出開源DiffusionGemma, 使用起來差距
跟同參數量的AR模型已經在1~2個世代之內. 這表示文本Diffusion已經誇過研究階段
正式進入工程實踐和大規模部署可能.