[討論] Claude Mythos SWE bench verify 93.9% yamakazi PTT批踢踢實業坊

[討論] Claude Mythos SWE bench verify 93.9%

作者: yamakazi (大安吳彥祖) 2026-04-08 21:30:40

4/7 Anthropic發布地表最強模型
Claude Mythos
直接把opus 4.6按在地上磨擦
https://eu.36kr.com/zh/p/3757764949213698
五項SWE bench都超越原本的opus 4.6 10~20%
但Anthropic不打算發布此一模型
因為更驚人的是他在偵測資安漏洞的表現
83.1%
另外還發生過逃脫沙盒，刪除git history和日誌，以及裝笨的情況
Anthorpic邀集包含Google Microsoft各家公司Glasswing聯盟
聯合監督這一地表最強模型
以防模型遭到不法份子濫用
Opus 4.6已經在各個開源軟件找到數百個弱點
Mythos找到了數千個
包含
OpenBSD 20年以上史詩級漏洞
FFmpeg 16年以上漏洞，500次Fuzz沒發現，官方推特公開感謝Anthropic推送補丁
目前只有以下公司有權使用Mythos
AWS Apple Broadcomm Cisco Crowdstrike JPM LinuxFundation Google
Nvidia PaloAlto 等等

作者: Brioni 2026-04-08 22:42:00

人類已經追不上了

作者: shortoneal (不告訴你咧) 2026-04-08 23:26:00

這大概是Anthropic欽點AI化較高的公司了

作者: viper9709 (阿達) 2026-04-09 02:07:00

逃脫沙盒@@

作者: pacino (carry me) 2026-04-09 05:45:00

被關在sandbox還能逃？

作者: peterturtle (peter_turtle2000) 2026-04-09 06:43:00

據說逃出來後還四處炫耀

作者: jobintan (Robin Artemstein) 2026-04-09 07:36:00

很快ClosedAI和Google就會追上了發……

作者: davidsmoon6 (davidsmoon) 2026-04-09 09:41:00

以後想在程式碼內搞擦邊球，要找碼農了

作者: ybite (小犬/小B) 2026-04-09 09:55:00

其實我覺得太厲害不能放只是藉口真正的理由偷偷寫在一樣的System Card了更正偷偷寫在「發布新聞稿」了那就是算力吃緊跑不動它對封測使用者的API定價是進出每百萬Token 25/125Opus 4.6的整整五倍少說模型應該有Opus加倍肥現在連Opus都被天天抱怨偷偷降智了算能應該很吃緊

作者: sarsman (DeNT15T♠) 2026-04-09 12:09:00

如果 prompt 是叫他找沙盒漏洞的話，那逃脫沙盒很正常吧逃脫沙盒這件事本身很厲害，我的焦點是"是AI自主想逃離"還是是"人類叫AI想辦法逃離"。這有本質上的差異

作者: sinclaireche (s950449) 2026-04-09 12:52:00

有些東西是沒人修沒人看10行的code就能有一大堆漏洞了

作者: superpandal 2026-04-09 13:28:00

噗 Ha

作者: adamcha (生於安樂死於憂患) 2026-04-09 13:59:00

等它能找到自己的漏洞再來吹

作者: Weky (Never mind) 2026-04-09 14:56:00

才10%~20% 我以為是10x~20x

作者: ninggo (穿著褲子的男人) 2026-04-10 02:04:00

AI業開始學會擠牙膏了中國加油一點好嗎

作者: luke72 (ccc) 2026-04-10 18:04:00

這麼厲害那為什麼伊朗打不下來

作者: avmm9898 (對酒當歌) 2026-04-13 09:13:00

我司談不到這模型要被打敗了

繼續閱讀

Re: [請益] 軟體失業是遲早的事吧DrTech Re: [請益] 軟體失業是遲早的事吧yamakazi Re: [心得] AI的人性oopFoo [討論] Vibe Coding死去哪了?prag222 [心得] AI的人性cateran Fw: [心得] 企業 AI Agent 治理：三大雲戰略布局ZMTL [請益] 博弈 offer 請益Haruna1998 Re: [請益] 博弈 offer 請益USD5566 [討論] AI 時代下，我開始不只把自己當成 programmeruopsdod [討論] google Agent Smith 劃時代的代理工具giorno78