[討論] Claude Mythos SWE bench verify 93.9%

作者: yamakazi (大安吳彥祖)   2026-04-08 21:30:40
4/7 Anthropic發布地表最強模型
Claude Mythos
直接把opus 4.6按在地上磨擦
https://eu.36kr.com/zh/p/3757764949213698
五項SWE bench都超越原本的opus 4.6 10~20%
但Anthropic不打算發布此一模型
因為更驚人的是他在偵測資安漏洞的表現
83.1%
另外還發生過逃脫沙盒,刪除git history和日誌,以及裝笨的情況
Anthorpic邀集包含Google Microsoft各家公司Glasswing聯盟
聯合監督這一地表最強模型
以防模型遭到不法份子濫用
Opus 4.6已經在各個開源軟件找到數百個弱點
Mythos找到了數千個
包含
OpenBSD 20年以上史詩級漏洞
FFmpeg 16年以上漏洞,500次Fuzz沒發現,官方推特公開感謝Anthropic推送補丁
目前只有以下公司有權使用Mythos
AWS Apple Broadcomm Cisco Crowdstrike JPM LinuxFundation Google
Nvidia PaloAlto 等等
作者: Brioni   2026-04-08 22:42:00
人類已經追不上了
作者: shortoneal (不告訴你咧)   2026-04-08 23:26:00
這大概是Anthropic欽點AI化較高的公司了
作者: viper9709 (阿達)   2026-04-09 02:07:00
逃脫沙盒@@
作者: pacino (carry me)   2026-04-09 05:45:00
被關在sandbox還能逃?
作者: peterturtle (peter_turtle2000)   2026-04-09 06:43:00
據說逃出來後還四處炫耀
作者: jobintan (Robin Artemstein)   2026-04-09 07:36:00
很快ClosedAI和Google就會追上了發……
作者: davidsmoon6 (davidsmoon)   2026-04-09 09:41:00
以後想在程式碼內搞擦邊球,要找碼農了
作者: ybite (小犬/小B)   2026-04-09 09:55:00
其實我覺得太厲害不能放只是藉口真正的理由偷偷寫在一樣的System Card了更正 偷偷寫在「發布新聞稿」了 那就是算力吃緊跑不動它對封測使用者的API定價是進出每百萬Token 25/125Opus 4.6的整整五倍 少說模型應該有Opus加倍肥現在連Opus都被天天抱怨偷偷降智了 算能應該很吃緊
作者: sarsman (DeNT15T♠)   2026-04-09 12:09:00
如果 prompt 是叫他找沙盒漏洞的話,那逃脫沙盒很正常吧逃脫沙盒這件事本身很厲害,我的焦點是"是AI自主想逃離"還是是"人類叫AI想辦法逃離"。這有本質上的差異
作者: sinclaireche (s950449)   2026-04-09 12:52:00
有些東西是沒人修沒人看10行的code就能有一大堆漏洞了
作者: superpandal   2026-04-09 13:28:00
噗 Ha
作者: adamcha (生於安樂 死於憂患)   2026-04-09 13:59:00
等它能找到自己的漏洞再來吹
作者: Weky (Never mind)   2026-04-09 14:56:00
才10%~20% 我以為是10x~20x
作者: ninggo (穿著褲子的男人)   2026-04-10 02:04:00
AI業開始學會擠牙膏了 中國加油一點好嗎
作者: luke72 (ccc)   2026-04-10 18:04:00
這麼厲害那為什麼伊朗打不下來
作者: avmm9898 (對酒當歌)   2026-04-13 09:13:00
我司談不到這模型 要被打敗了

Links booklink

Contact Us: admin [ a t ] ucptt.com