嚴格來說是gcp員工的個人報告
https://medium.com/google-cloud/1-million-tokens-per-second-qwen-3-5-27b-on-gke-
with-b200-gpus-161da5c1b592
懶人包:
把Qwen 3.5放到96張B200平行運算
最高速度1,103,941 token/s
最終瓶頸不是模型而是分流節點忙不過來了
缺點
使用mtp所以有失真風險
KV cache太重,實驗用1500就極限了
給大家一個對比
現在大部分AI的速度不到100tps
這個是一萬倍
0.0