作者:
roger29 (想不到)
2014-06-29 23:46:41因為壓縮的比例存在著理論上的極限
假如我現在有A B C D 四個符號
要表示成數位資料的話 直觀的方法是讓A=00 B=01 C=10 D=11
ASCII code就是類似的7碼等長度編碼方法
不過呢 這五個符號出現的機率可能不是一樣的
假設Pr(A)=0.5 Pr(B)=0.2 Pr(C)=0.2 Pr(D)=0.1
那麼用上面直觀的方法編碼
我的codeword平均長度是 0.5*2+0.2*2+0.2*2+0.1*2=2
那麼我們有沒有辦法讓我的平均長度變得更小一點呢(也就是達到所謂的資料壓縮)
有的 我們可以善用A B C D四個符號出現機率不相等的特性
A出現的機率最高 所以我直觀上希望表示A的二進位長度可以短一點才有效率
D出現的機率最低 所以我就會希望表示D的二進位長度可以長一點沒關係
那麼換一個方式表示:A=0 B=10 C=110 D=111
這樣表示的話我新的codeword平均長度就是 0.5*1+0.2*2+0.2*3+0.1*3=1.8
比原本每個符號都用2個bits來表現還要更小
(註:這個編碼方法為著名的Huffman code)
所以我們可以發現 如果能善用資料間的相關性
是可以減少用數位來表示這些資料所需要的資料大小
但是當然不可能無限制的縮小
根據偉大的數學家 消息理論的開山始祖 Claude Shannon的source coding theorem
簡單來說
給定一個discrete memoryless source S 就像我上面的四個字母
那麼我們能夠達到的平均codeword長度會大於等於S的entropy
S的entropy定義成 n
作者:
SDNS (ここには神さまの殿堂)
2014-06-29 23:48:00看八卦漲知識
作者: qcuteba 2014-06-29 23:48:00
看無,我只知道要一直按關閉挺麻煩的
作者:
liaon98 (liaon98)
2014-06-29 23:49:00Huffman只是其中一種吧
作者:
alog (A肉哥)
2014-06-29 23:49:00XDDDD...八卦優質認真文 不給你推不行 雖然很快又被洗掉了
稱呼Shannon數學家? 跟稱呼科P是醫師一樣不尊敬
作者:
daxer (德德)
2014-06-29 23:50:00要跟著推 不然別人會以為我看不懂
作者:
snowcoat (excess)
2014-06-29 23:50:00八卦版優文...
她是講 00 01 10 11 這四種段碼出現的機率整合
作者:
NoWashing (你好~ 我叫免洗!)
2014-06-29 23:51:00這麼專業 怎麼不聊聊超強的圓周率壓縮演算法勒 XDDD
作者:
goshfju (Cola)
2014-06-29 23:51:00我是不是來錯板
作者:
john2557 (Wanger)
2014-06-29 23:51:00精彩
作者:
searoar (æš—å‘大豆)
2014-06-29 23:52:00知識
作者:
HvvH (HH)
2014-06-29 23:52:00推
到底哪裡專業了阿? 一個叫Shannon數學家的人 專業在哪?八卦板怎麼了?
作者:
alog (A肉哥)
2014-06-29 23:54:00Claude Elwood Shannon --> American mathematician,
作者:
orz811017 (orz811017)
2014-06-29 23:54:00推演算法
作者:
CCPenis (匚匚屌)
2014-06-29 23:54:00講中文好嗎
作者:
s9007555 (我想吃地瓜)
2014-06-29 23:54:00文組崩潰
作者:
s0857168 (愛乘歐妹咖)
2014-06-29 23:55:00略懂
作者:
liaon98 (liaon98)
2014-06-29 23:55:00簡單來說 你一篇文章最常出現的字叫他為a 不常出現的字
作者:
liaon98 (liaon98)
2014-06-29 23:56:00你就把它改成叫長的字 這樣文章就會變短
作者:
LoveMoon (我不是魔獸三國作者.....)
2014-06-29 23:56:00嗯嗯 跟我了解的差不多 推專業
作者:
wind137 (布穀密語)
2014-06-29 23:56:00幹 這通訊系統好懷念
作者:
DEATHX (幽光)
2014-06-29 23:56:00優質文,這種都該入精華區,誰還有上次RSA解說文的備份?
作者:
liaon98 (liaon98)
2014-06-29 23:57:00然後少用的字筆畫多一點 這樣整體你會寫比較少畫
作者:
JCS15 (馬馬狗)
2014-06-29 23:57:00我把我壓縮 輕輕把你也壓縮
作者:
drkkimo (花貓~ 努力工作)
2014-06-29 23:57:00霍夫曼編碼不是很基本的嗎 有什麼好特別專業?
作者: sef96121 2014-06-29 23:59:00
只能朝拜了!
作者:
NDSLite (Matrix in 臥虎藏龍)
2014-06-30 00:01:00優文
作者:
liar5566 (我只是她的寢具)
2014-06-30 00:01:00不錯,實力跟我相當
作者:
alog (A肉哥)
2014-06-30 00:01:00XDDD陰森宅宅是沙小la
什麼工程師 起碼也是數位教父好嗎 沒他哪來的0101交換電路
作者:
lolic (lolic)
2014-06-30 00:02:00嗯摁 我也這樣想 可惜打到一半你先發文了
作者:
ppt0726 (ppt0726)
2014-06-30 00:03:00一優質文章
通訊系統最簡單的章節也可以拿來炫XD三大公式 H(s) 互消息 審農第三定律 背起來 100分連理解都不用理解 國中數學 秒殺 ZZZzzz
作者: withfrog () () 2014-06-30 00:12:00
長知識 謝啦
作者:
QueenYi (Queen一定是女的?)
2014-06-30 00:15:00長知識推
作者: zyyym (無聊的人G) 2014-06-30 00:22:00
研究所畢業後都忘光了
作者:
chen20 (sOnE)
2014-06-30 00:32:00分享推!是在悲憤什麼
某k是在悲憤什麼XDDD 只是分享 又沒踐踏你的專業看不過去你也分享一拼阿
作者:
evening (小夜)
2014-06-30 01:14:00推
作者: amsonmoon (月光貓) 2014-06-30 01:44:00
他想解釋為什麼50mb只能壓成48.9mb這種情形啊就有人問咩
作者:
aspd5306 (Cereal)
2014-06-30 01:47:00哥的老闆專攻消息理論 原po說的東西大概大二大三等級的
作者:
gh26300 (尼安德塔人)
2014-06-30 02:15:00不知道噓的在悲憤什麼……他又沒炫耀
作者:
k268185 (k268185)
2014-06-30 02:26:00霍夫曼這演算法真的簡單又強大
作者:
a055076 (Dilemma)
2014-06-30 03:14:00看到這篇想起一個字 熵
作者:
xdctjh (凍頂)
2014-06-30 03:16:00讚
作者:
a055076 (Dilemma)
2014-06-30 03:17:00通道編碼 好懷念的東西