Re: [問卦] 中國狗DeepSeek 模型好久沒升級了 s213092921 PTT批踢踢實業坊

Re: [問卦] 中國狗DeepSeek 模型好久沒升級了

作者: s213092921 (麥靠貝) 2026-01-05 11:04:21

※ 引述《ryhma (k歌之王)》之銘言：
: 哈囉你各位雜質
: 是我小偉辣
: 中國狗的深度求索(DeepSeek)人工智慧還在R1
: 號稱五百萬美金訓練出來的模型
: 打趴歐美各國人工智慧模型
: 好久更新模型惹
: 怎麼辦羅福莉會不會被抓去勞改
: 八卦版中國狗趕快來噓我
: 藍白狗趕快來噓
: 西西
元旦Deepseek發表的論文公布名為「流形約束超連接」（Manifold-Constrained Hyper-Connections）的新框架
這項技術透過優化神經網路架構，在僅增加 6.7% 訓練時間的情況下大幅提升訓練穩定性，這在大型模型訓練中被視為非常低且可接受的代價。
這技術可以把大模型做寬，以前的垃圾卡H20都可以拿來訓練新的模型
https://youtu.be/1s3dvNr8JzE
Closed AI及Google都不敢挑戰的做寬大模型，Deepseek搞定了
近期即將發布的V4模型大概又要屠榜兼價格屠夫了
原理請看下面的新聞內文
該篇論文徹底終結由 AI 教父何愷明團隊於 2016 年提出的舊時代霸主：ResNet（深度殘差網路）架構
mHC 的核心邏輯，就是替多通道架構加上嚴格的「流形約束」，猶如為網路訊號聘請了一位精通高深數學的「AI 交通警察」。
DeepSeek 的解方，是巧妙運用「雙隨機矩陣」（Doubly Stochastic Matrix）規則，搭配 Sinkhorn-Knopp 演算法，為訊號戴上「緊箍咒」。這強制實踐了嚴格的「能量守恆」：保證無論訊號如何混合，流入的總量必須精確等於流出的總量。
這項突破同時達成了 ResNet 時代無法想像的兩大目標：
性能爆發：O留多通道互聯帶來的海量資訊豐富度，實現潛能極大化。
穩定壓制：N訊號嚴格鎖定在安全的範圍內，完美致敬並超越了 ResNet 當年對「恆等映射」的追求。
穩定性從 3000 狂降至 1.6 成本僅增 6.7%
https://news.cnyes.com/news/id/6296197

繼續閱讀

Re: [新聞] 北市拆圓環2人捧「蔣萬安黑白照」北檢不GKKR [新聞]民眾黨2月內連四起爆出走!竹市樹下里長蔡linhu8883324 [新聞] 快新聞／沒在怕！遭公布個資恐嚇　沈伯qweerrt123 [問卦] 想被肛練屁股有用ㄇ O.ob9021008 [問卦] 美國才是胖虎吧?完全不講理不聽話直接揍OPPAISuki [問卦] 如果台積沒去美國，台股現在多少點？PPPa [問卦] 台灣好市多只能刷聯名卡到底?EVGAMIS [問卦] 超過30年的電梯大樓可以買嗎？PVZVT [問卦] 如果換成中國也有能力活捉委內瑞拉總統嗎nicholas0406 [問卦] 想不起來昨天什麼時候有吃玉米？Qorqios