※ 引述《pchooooome (千石ユノ的胎盤)》之銘言
: Google TurboQuant 記憶體壓縮突
: Google 推出新 AI 記憶體壓縮演算法 TurboQuant,可將 AI 的「工作記 憶體」壓縮高達
6
: 倍。
: 哇靠真假,這樣本地跑超大模型,的日子是不是要來了
: 挖苦挖苦
這個是上下文量化
先不談論這個量化損失度,畢竟這個得實測
算一下理論上的記憶體使用量
拿DeltaNet上下文架構的Qwen3.5為例
8k 壓縮前: 0.26, 壓縮後: 0.03
32k 壓縮前: 1.05, 壓縮後: 0.13
128k 壓縮前: 4.19, 壓縮後: 0.52
262k 壓縮前: 8.39, 壓縮後: 2.10
1M 壓縮前: 32.32, 壓縮後: 8.08
如果本體4B用4bit量化,大小是2.74GB
你只需要6.8GB的vram就能有
1M上下文
智商超過gpt oss
圖像識別
的無審查本地模型
普通人用262k就很夠了,這樣總共需要3.8GB
能用GTX1050來跑
蘋果用戶甚至可以直接裝在Air上
當然一切前提是真的如google所說的沒有變笨