[閒聊] 玩小遊戲證明你比AI聰明 ARC-AGI-3 error405 PTT批踢踢實業坊

[閒聊] 玩小遊戲證明你比AI聰明 ARC-AGI-3

作者: error405 (流河=L) 2026-04-06 18:01:54

https://arcprize.org/arc-agi/3
按Play [Humans]開始玩
說明:
ARC-AGI-3 是 2026 年 3 月底才正式推出的互動式（agentic）基準測試，跟之前的
ARC-AGI-1/2 很不一樣。它不是靜態的格子拼圖，而是讓 AI 在完全陌生的環境中探索、
即時學習目標、建立世界模型、並有效率地行動。
人類在這些環境中幾乎都能 100% 解決（通常幾分鐘內搞定）。
前沿大模型的表現非常慘：Google Gemini 3.1 Pro Preview：最高約 0.37%
OpenAI GPT-5.4 High：約 0.26%
Anthropic Claude Opus 4.6 Max：約 0.25%
xAI Grok 4.20（Reasoning 模式）：0%
整體來說，目前所有公開測試的前沿 AI 分數都低於 1%，遠遠達不到「破關」的程度。
公開的 agent 嘗試（非官方大模型 leaderboard）在 ARC Prize 官方的 unverified
live leaderboard（開放給大家提交 agent 的排行），目前最好的開源/自製 agent 分
數也只有 12.58%（StochasticGoose 團隊，完成 18 個 levels），其他大多在 3~8% 左
右。這些是專門為 ARC-AGI-3 設計的 agent，不是純靠大模型。
ARC Prize 2026 競賽現況總獎金高達 200 萬美元，其中 ARC-AGI-3 軌道的 Grand
Prize（100%）是 70 萬美元。
比賽剛開始沒多久（2026/3/25 啟動），還有好幾個月才到 milestone 和最終截止，目
前還在早期階段，沒有人接近 100%。
之前 2025 年的 ARC Prize（主要用 ARC-AGI-2）最高也只到 24% 左右，Grand Prize
同樣沒人領走。
簡單說，ARC-AGI-3 現在是目前最「未飽和」的 AGI 相關基準之一，專門用來測量 AI
在全新情境下的流體智能（fluid intelligence）和學習效率，目前 AI 跟人類的差距還
非常明顯。

作者: uohZemllac (甘草精華雄沒醉) 2026-04-06 18:24:00

還挺容易的不知道語言模型是卡在什麼地方

作者: Vivian1913 (Vivian1913) 2026-04-06 18:30:00

應該是語言模型沒有真正的形式和非形式邏輯能力吧

作者: qd6590 (說好吃) 2026-04-06 19:06:00

YA 我比AI還聰明

繼續閱讀