※ 引述《ryhma (k歌之王)》之銘言:
: 哈囉 你各位雜質
: 是我小偉辣
: 中國狗的深度求索(DeepSeek)人工智慧還在R1
: 號稱五百萬美金訓練出來的模型
: 打趴歐美各國人工智慧模型
: 好久更新模型惹
: 怎麼辦羅福莉會不會被抓去勞改
: 八卦版中國狗趕快來噓我
: 藍白狗趕快來噓
: 西西
元旦Deepseek發表的論文公布名為「流形約束超連接」(Manifold-Constrained Hyper-Connections)的新框架
這項技術透過優化神經網路架構,在僅增加 6.7% 訓練時間的情況下大幅提升訓練穩定性,這在大型模型訓練中被視為非常低且可接受的代價。
這技術可以把大模型做寬,以前的垃圾卡H20都可以拿來訓練新的模型
https://youtu.be/1s3dvNr8JzE
Closed AI及Google都不敢挑戰的做寬大模型,Deepseek搞定了
近期即將發布的V4模型大概又要屠榜兼價格屠夫了
原理請看下面的新聞內文
該篇論文徹底終結由 AI 教父何愷明團隊於 2016 年提出的舊時代霸主:ResNet(深度殘差網路)架構
mHC 的核心邏輯,就是替多通道架構加上嚴格的「流形約束」,猶如為網路訊號聘請了一位精通高深數學的「AI 交通警察」。
DeepSeek 的解方,是巧妙運用「雙隨機矩陣」(Doubly Stochastic Matrix)規則,搭配 Sinkhorn-Knopp 演算法,為訊號戴上「緊箍咒」。這強制實踐了嚴格的「能量守恆」:保證無論訊號如何混合,流入的總量必須精確等於流出的總量。
這項突破同時達成了 ResNet 時代無法想像的兩大目標:
性能爆發:O留多通道互聯帶來的海量資訊豐富度,實現潛能極大化。
穩定壓制:N訊號嚴格鎖定在安全的範圍內,完美致敬並超越了 ResNet 當年對「恆等映射」的追求。
穩定性從 3000 狂降至 1.6 成本僅增 6.7%
https://news.cnyes.com/news/id/6296197