[閒聊] 玩小遊戲證明你比AI聰明 ARC-AGI-3

作者: error405 (流河=L)   2026-04-06 18:01:54
https://arcprize.org/arc-agi/3
按Play [Humans]開始玩
說明:
ARC-AGI-3 是 2026 年 3 月底才正式推出的互動式(agentic)基準測試,跟之前的
ARC-AGI-1/2 很不一樣。它不是靜態的格子拼圖,而是讓 AI 在完全陌生的環境中探索、
即時學習目標、建立世界模型、並有效率地行動。
人類在這些環境中幾乎都能 100% 解決(通常幾分鐘內搞定)。
前沿大模型 的表現非常慘:Google Gemini 3.1 Pro Preview:最高約 0.37%
OpenAI GPT-5.4 High:約 0.26%
Anthropic Claude Opus 4.6 Max:約 0.25%
xAI Grok 4.20(Reasoning 模式):0%
整體來說,目前所有公開測試的前沿 AI 分數都低於 1%,遠遠達不到「破關」的程度。
公開的 agent 嘗試(非官方大模型 leaderboard)在 ARC Prize 官方的 unverified
live leaderboard(開放給大家提交 agent 的排行),目前最好的開源/自製 agent 分
數也只有 12.58%(StochasticGoose 團隊,完成 18 個 levels),其他大多在 3~8% 左
右。這些是專門為 ARC-AGI-3 設計的 agent,不是純靠大模型。
ARC Prize 2026 競賽現況總獎金高達 200 萬美元,其中 ARC-AGI-3 軌道的 Grand
Prize(100%) 是 70 萬美元。
比賽剛開始沒多久(2026/3/25 啟動),還有好幾個月才到 milestone 和最終截止,目
前還在早期階段,沒有人接近 100%。
之前 2025 年的 ARC Prize(主要用 ARC-AGI-2)最高也只到 24% 左右,Grand Prize
同樣沒人領走。
簡單說,ARC-AGI-3 現在是目前最「未飽和」的 AGI 相關基準之一,專門用來測量 AI
在全新情境下的流體智能(fluid intelligence)和學習效率,目前 AI 跟人類的差距還
非常明顯。
作者: uohZemllac (甘草精華雄沒醉)   2026-04-06 18:24:00
還挺容易的 不知道語言模型是卡在什麼地方
作者: Vivian1913 (Vivian1913)   2026-04-06 18:30:00
應該是語言模型沒有真正的形式和非形式邏輯能力吧
作者: qd6590 (說好吃)   2026-04-06 19:06:00
YA 我比AI還聰明

Links booklink

Contact Us: admin [ a t ] ucptt.com