[閒聊] Google 發表 110萬 token/s 的AI架構

作者: h0103661 (路人喵)   2026-03-27 09:05:09
嚴格來說是gcp員工的個人報告
https://medium.com/google-cloud/1-million-tokens-per-second-qwen-3-5-27b-on-gke-
with-b200-gpus-161da5c1b592
懶人包:
把Qwen 3.5放到96張B200平行運算
最高速度1,103,941 token/s
最終瓶頸不是模型而是分流節點忙不過來了
缺點
使用mtp所以有失真風險
KV cache太重,實驗用1500就極限了
給大家一個對比
現在大部分AI的速度不到100tps
這個是一萬倍
0.0
作者: lovez04wj06 (車前草)   2026-03-27 09:06:00
太誇張
作者: crimsonmoon9 (緋月)   2026-03-27 09:07:00
1500是指context window嗎 這麼小不能幹嘛吧
作者: MiMi563372 (弟切)   2026-03-27 09:08:00
反正台灣就賣鏟子就好,演算法就讓大廠廝殺
作者: h0103661 (路人喵)   2026-03-27 09:09:00
對,就真的這麼小,往上加一點點都得丟掉幾個節點
作者: diefish5566 (LOL板李奧納多皮卡丘)   2026-03-27 09:10:00
上下文1500 讀了個啥
作者: windowsill (藍冬海)   2026-03-27 09:10:00
吐了
作者: amsmsk (449)   2026-03-27 09:20:00
笑死
作者: dog41125 (TL)   2026-03-27 09:27:00
好猛喔,但是unity還是得自己掛插件的部分可以進步一下嗎?自己掛好累==
作者: CureSeal (庫露露)   2026-03-27 09:31:00
看起來是實驗室的技術

Links booklink

Contact Us: admin [ a t ] ucptt.com