[閒聊] Google 發表 110萬 token/s 的AI架構 h0103661 PTT批踢踢實業坊

[閒聊] Google 發表 110萬 token/s 的AI架構

作者: h0103661 (路人喵) 2026-03-27 09:05:09

嚴格來說是gcp員工的個人報告
https://medium.com/google-cloud/1-million-tokens-per-second-qwen-3-5-27b-on-gke-
with-b200-gpus-161da5c1b592
懶人包：
把Qwen 3.5放到96張B200平行運算
最高速度1,103,941 token/s
最終瓶頸不是模型而是分流節點忙不過來了
缺點
使用mtp所以有失真風險
KV cache太重，實驗用1500就極限了
給大家一個對比
現在大部分AI的速度不到100tps
這個是一萬倍
0.0

作者: lovez04wj06 (車前草) 2026-03-27 09:06:00

太誇張

作者: crimsonmoon9 (緋月) 2026-03-27 09:07:00

1500是指context window嗎這麼小不能幹嘛吧

作者: MiMi563372 (弟切) 2026-03-27 09:08:00

反正台灣就賣鏟子就好,演算法就讓大廠廝殺

作者: h0103661 (路人喵) 2026-03-27 09:09:00

對，就真的這麼小，往上加一點點都得丟掉幾個節點

作者: diefish5566 (LOL板李奧納多皮卡丘) 2026-03-27 09:10:00

上下文1500 讀了個啥

作者: windowsill (藍冬海) 2026-03-27 09:10:00

吐了

作者: amsmsk (449) 2026-03-27 09:20:00

笑死

作者: dog41125 (TL) 2026-03-27 09:27:00

好猛喔，但是unity還是得自己掛插件的部分可以進步一下嗎？自己掛好累==

作者: CureSeal (庫露露) 2026-03-27 09:31:00

看起來是實驗室的技術

繼續閱讀

超恨測住.........................miHoYo Re: 股票qscxz [瓦特] 你的名字出現在艾普斯坦名單裡DoraGian [姆咪] 豐原Megacolon Re: 股票pchooooome [瓦特] 肥豚KurageuRoa Re: [閒聊] comfyuicrimsonmoon9 [姆咪] 柯今天會這樣jerry7668 Re: [姆咪] 20歲女「社群媒體成癮」提告判賠9600萬windowsill Re: [邊緣] 下次還要去池袋bluesheep816