https://x.com/Meituan_LongCat/status/2065464844112064541
https://pbs.twimg.com/media/HKn6bXxakAEBkSh.jpg
AI 使用 Minecraft 作為評測基準:MineExplorer 簡單介紹
你有沒有想過,玩《我的世界》(Minecraft)居然能用來測試 AI 的智慧程度?最近,
美團 LongCat 團隊推出了一個名為 MineExplorer 的 AI 評測基準(Benchmark),它
把 Minecraft 這個開放世界遊戲變成了一個科學的「AI 考場」,專門測試 AI 代理人在
複雜、真實環境中的探索能力。
為什麼用 Minecraft 來測 AI?
傳統的 AI 測試通常是給 AI 看圖片、回答問題,或完成短暫的固定任務,這些測試比較
「靜態」且不夠接近真實世界。
Minecraft 的優點在於:
開放世界:地圖很大、資源分散,AI 必須自己探索。
動態變化:AI 每走一步,世界就會即時改變(不像固定考卷)。
需要長期規劃:任務可能要花好幾分鐘、上千個步驟才能完成。
接近真實生活:需要觀察環境、推理因果、制定計劃、執行行動,幾乎把「在未知世界生
存」這件事濃縮進去了。
MineExplorer 的核心概念
MineExplorer 不是隨便讓 AI 去玩 Minecraft,而是設計了一系列有難度的結構化任務
。
例如:
簡單任務(Single-hop):找到一棵樹並砍下來。
困難任務(Multi-hop,多跳):AI 必須先找到某個地標 → 清除障礙 → 收集材料 →
合成工具 → 才能達成最終目標。
這些任務裡面藏了很多「隱藏的前提條件」(hidden prerequisites),AI 看不到明顯
提示,必須靠自己推理才能一步步完成。
團隊還開發了自動評分系統,使用規則來檢查 AI 是否真的達成了每個里程碑(
milestones),不需要人工打分。
目前 AI 表現如何?
https://pbs.twimg.com/media/HKn5Y-6b0AAxqY1.jpg
研究團隊測試了 18 個最先進的多模態大語言模型(包含 GPT5.4、Claude、Gemini 等)
,結果顯示:
最佳模型也只拿到 41 分(滿分 100)。
簡單一步任務還算可以,但需要多步推理的任務,成功率就大幅下滑。
最常失敗的原因竟然是最基本的導航:AI 明明看得到目標,卻常常找不到路或卡住。
即使給 AI 更長的記憶,也沒有顯著幫助,有時還因為記太多舊畫面而變差。
這顯示:現在的 AI 雖然「看得見」世界,卻還不擅長「探索」和「長期規劃」世界。
為什麼這個基準重要?
MineExplorer 提供了一個公開、透明、可重現的測試平台,讓研究人員能清楚衡量 AI
在開放世界中的真實能力。它不只用來排名模型,更開放了任務生成工具,任何人都可以
用它來產生新任務,或用來訓練更強的 AI 代理人。
未來,當 AI 在 MineExplorer 上拿到高分時,可能代表它已經具備更接近人類的探索與
適應能力,這對機器人、自動駕駛、遊戲 NPC 等實際應用有很大幫助。
總結
Minecraft 不再只是遊戲,它已經成為 AI 研究的重要「沙盒」。MineExplorer 把這個
沙盒變得更有系統、更科學,讓我們能清楚看到目前 AI 的極限在哪裡,以及未來還需要
突破哪些關鍵能力。想了解更多,可以去看他們的:
GitHub 專案
https://github.com/meituan-longcat/MineExplorer
Hugging Face 資料集
https://huggingface.co/datasets/meituan-longcat/MineExplorer
論文(arXiv 2605.30931)
https://arxiv.org/abs/2605.30931
你覺得 AI 什麼時候才能在 Minecraft 裡像人類玩家一樣自由探索呢?
大家真的想要的是挖礦工人吧自由探索當然是玩家探索 AI給我去挖礦!
作者:
serding (累緊地們)
2026-06-13 10:14:00給AI玩紅石線路
麥塊說真的也不容易,讓一個從來沒玩過遊戲的人來玩高機率也拿不到41分
作者:
tim1112 (絕代當世åŠå·”)
2026-06-13 10:16:00現在Chatgpt不是已經到五了嗎
作者:
spfy (spfy)
2026-06-13 10:19:00研究都要花時間假設實驗總結 很花時間吧
主要還是操縱問題吧 物品合成列表那些的應該早就被學進去了
作者:
guogu 2026-06-13 11:13:00之前有個用小遊戲讓AI自己理解規則去玩的 測起來也很慘烈感覺目前這些AI對真正理解還是不太行但固定規則知道要幹嘛就很強話說怎麼沒有老馬的grok啊?