作者:
ElfFail (秘密)
2025-07-29 00:39:35如題
看到一篇蠻有趣的東西
https://i.imgur.com/d6GUwOU.jpeg
最近在FB 上看到AI動漫模型「Illistrious」的廣告
他們在HuggingFace上面,有把自己訓練AI用的圖集公開(圖1)
起初想說他們會這樣做,或許很有把握自己沒有侵權疑慮吧
應該是拿自己的AI圖去訓練AI(不怕越生越醜嗎)
於是有一些程式基礎的我 決定仔細研究一下
但結果告訴我……我錯了。
在「artist_urls」檔案裡面,每一位畫師都被標上了編號id
從最頂層的4437,到最底層的391586
這是極為龐大的畫師人數(圖2)
讓我想起農場中 烙印在每頭動物身上的數字
而在「artist」檔案裡面,會看到大量繪師的名字
其中亞洲(含台灣)有貓鯨、張熊、空罐王等破萬追蹤繪師們上榜
(圖3~圖8)這時回顧一下「artist_urls」檔案
貓鯨老師被打上的編號是:150105
張熊老師被打上的編號是:144570
空罐王老師被打上的編號:38554
但貓鯨老師的Twitter明明已寫上「Do not use my work for AI」
接著打開他們將近20GB的「post.json」檔
裡面是他們用來訓練AI模型用的大量圖集
要知道一個json檔,超過3GB,就已經是很驚人的一件事了
打開後會發現,圖片的編號從2到6899125
(也就是接近690萬)
從這些訓練圖集當中,可以找到每個畫師被拿去訓練的作品
他們也利用大型語言工具,替每張圖片上標籤,給AI辨識
例如空罐王老師苦練畫技數年,所肝出的作品
AI是這樣給標籤的:
1girl, blonde_hair , breasts, brown-tinted_eyewear, brown_eyes, cleavage, coff
ee, cup, earrings, grey_sports_bra, hat, jewelry, looking_at_viewer, looking_o
ver_eyewear, mooncake, plant, potted_plant, purple_hair, sauce, short_hair, sm
ile, solo, spoon, sports_bra, sunglasses, teacup, teeth, tinted_eyewear
就只貼幾張圖,剩的可以去臉書看看
https://i.imgur.com/9O8VjYL.jpeg
https://i.imgur.com/1I0vVpS.jpeg
https://www.facebook.com/share/p/19Fy1t3cyD/
作者:
zChika (滋琪卡)
2025-07-29 00:42:00原來是偷的,檢舉吧
基本上都是這樣 只差在有沒有公開而且不只是繪畫領域 其他也都是這樣
作者:
AJwan (阿全)
2025-07-29 00:49:00跟盜版漫畫一樣 管不了
作者:
Golbeza (Golbeza)
2025-07-29 00:52:00就說是大量侵權還很多人不信
這個dataset也不只是這個paper用 其實傳統的資料探勘情感分析dataset也都是真人貼文 只是純文字而已gpt之類的llm就更不用說了
就某站的dataset吧,看容量快8TBpost id取mod 1000當 bucket
作者:
yellowhow (┴─┴~\( ̄□ ̄#)\)
2025-07-29 00:54:00沒寄生繪師就只能搞擬真那種圖而已真用就算了,假掰說自己沒用真的很討厭
作者:
lou3612 (魚)
2025-07-29 00:55:00怎摸會有人把訓練資料公開
作者:
dalyadam (統一獅加油)
2025-07-29 01:02:00老實說 幾乎每個AI模型都難免用到沒授權的繪師只差在有沒有說出來了
novlai時代就在這樣搞了 畫師名字直接就能當提示詞
把繪師簡化成編號真夠侮辱人的,但這種ai負面文章不會推爆的
現在各家AI飆車飆那麼兇也是為了在相關規範法令被重視以前盡可能偷跑更多一點 法律沒說這樣不行我就儘量搶
其實更多的是政府也知道是在偷 但全部都在偷誰禁誰就落後 慘
我記得川普已經開綠燈說AI使用是fair use了
作者: trh123h 2025-07-29 01:55:00
畢竟都是軍備競賽的材料
這種模型本來就是靠偷阿 只是敢公開也是蠻厲害的大概就是真的篤定反正你圖抓不了我
作者:
k254369 (fjsocjs)
2025-07-29 02:01:00好用的模型 就算你告一個還會有下一個 這就是ai時代
作者: clovewind 2025-07-29 02:03:00
這不是早就知道的東西嗎
作者:
zen777 (批踢踢æ¦ç¥ž)
2025-07-29 02:18:00可恥 果然只要是Ai生成的圖都是垃圾
ai飼料是現在的早期階段 成熟期的模型不需要人類餵
作者: low1219 (狗才加班) 2025-07-29 06:47:00
笑死 不接受AI就等著被淘汰
作者:
b160160 (HG Life is Foo~~~)
2025-07-29 07:00:00身為機器學習時代自己蒐集資料開始玩ai 的人 看到現在這些大公司的玩法 真的讓人覺得很寒心
作者: mirarearia 2025-07-29 08:12:00
就噁心啊
說侵權的倒是說說犯了哪條法律啊事實就是你說禁止ai學習不具有法律效益ai學圖違規那人學圖是不是也違規
作者: vhik4596 (白頭翁) 2025-07-29 08:24:00
這幾乎等於是偷東西還把被害者編號,這也太變態了吧
作者: Ceferino (麥茶多多) 2025-07-29 08:33:00
現在的AI公司誰不是這樣玩的,google meta 微軟都一樣
作者:
Yoimiya (煙花易逝人情長存)
2025-07-29 08:50:00這不是早就知道了嗎 你以為寫個禁止AI 人家就不會用?
作者: ssm3512 (阿坤) 2025-07-29 09:03:00
ai仔就是出生啊 哪管你人類道德
只是拿來學就真的沒侵權疑慮呀, 現在要抓也是抓AI生出畫師畫的原角色, 老鼠就拿這個去告Midjourney
作者:
yellowhow (┴─┴~\( ̄□ ̄#)\)
2025-07-29 09:46:00法律沒訂完善之前人家就是無敵只是一邊偷一邊蹭還要裝自己很乾淨真是假掰...
作者: cbpa 2025-07-29 09:47:00
真難過
作者: haseyo25 2025-07-29 10:09:00
最慘的接受沒有國家立即的訂法律來規範
作者:
Dayton (今夜如此,夜夜皆然。)
2025-07-29 10:42:00記得很多網站都有寫使用條款 授權ooxx用他們網站po圖一定要按同意 浮水印有沒有效力不知道