※ 引述《h0103661 (單推人) 每日換婆 (1/1)》之銘言:
: 現在正在直播測試凌晨發表的Claude Opus 4.6
: https://www.twitch.tv/S1M0N38
: 目前的排行榜
: https://i.meee.com.tw/8Mpu5U5.png
: Gemini 3.0 Pro 是第一名
: GPT 5.2 緊追在後
: Deepseek V3.2 則是開源模型的第一名
: 但開源模型跟前段班有不小的差距
: 有興趣的可以進網站看數據
: 所有提示詞、記憶、出牌過程都有紀錄
: 想試試的也可以下載開源mod自己打看看
: 挺有趣的
: 賽博鬥蛐蛐
看推文好像有人誤解了
這裡排行榜上的 round 是打倒幾個盲注而已
不是底注
所有的測試都是測到底注8過關而已
所以 Gemini 的平均 19 round 其實只是有時候以正常的 24 round 過關的結果
(但不得不說這已經比我想像中強太多了,畢竟這是通用 LLM 不是專門訓練來打小丑牌)
另外包括 Deepseek 在內的開源模型是完全過不了關,根本玩不明白
Deepseek 最慘的一場在第二回合手上有四張黑桃還堅持要做順
然後就沒有然後了