[閒聊] 使用大量數據研發AI繪圖 ElfFail PTT批踢踢實業坊

[閒聊] 使用大量數據研發AI繪圖

作者: ElfFail (秘密) 2025-07-29 00:39:35

如題
看到一篇蠻有趣的東西
https://i.imgur.com/d6GUwOU.jpeg
最近在FB 上看到AI動漫模型「Illistrious」的廣告
他們在HuggingFace上面，有把自己訓練AI用的圖集公開（圖１）
起初想說他們會這樣做，或許很有把握自己沒有侵權疑慮吧
應該是拿自己的AI圖去訓練AI（不怕越生越醜嗎）
於是有一些程式基礎的我決定仔細研究一下
但結果告訴我……我錯了。
在「artist_urls」檔案裡面，每一位畫師都被標上了編號id
從最頂層的4437，到最底層的391586
這是極為龐大的畫師人數（圖２）
讓我想起農場中烙印在每頭動物身上的數字
而在「artist」檔案裡面，會看到大量繪師的名字
其中亞洲（含台灣）有貓鯨、張熊、空罐王等破萬追蹤繪師們上榜
（圖３～圖８）這時回顧一下「artist_urls」檔案
貓鯨老師被打上的編號是：150105
張熊老師被打上的編號是：144570
空罐王老師被打上的編號：38554
但貓鯨老師的Twitter明明已寫上「Do not use my work for AI」
接著打開他們將近20GB的「post.json」檔
裡面是他們用來訓練AI模型用的大量圖集
要知道一個json檔，超過3GB，就已經是很驚人的一件事了
打開後會發現，圖片的編號從２到６８９９１２５
（也就是接近690萬）
從這些訓練圖集當中，可以找到每個畫師被拿去訓練的作品
他們也利用大型語言工具，替每張圖片上標籤，給AI辨識
例如空罐王老師苦練畫技數年，所肝出的作品
AI是這樣給標籤的：
1girl, blonde_hair , breasts, brown-tinted_eyewear, brown_eyes, cleavage, coff
ee, cup, earrings, grey_sports_bra, hat, jewelry, looking_at_viewer, looking_o
ver_eyewear, mooncake, plant, potted_plant, purple_hair, sauce, short_hair, sm
ile, solo, spoon, sports_bra, sunglasses, teacup, teeth, tinted_eyewear
就只貼幾張圖，剩的可以去臉書看看
https://i.imgur.com/9O8VjYL.jpeg
https://i.imgur.com/1I0vVpS.jpeg
https://www.facebook.com/share/p/19Fy1t3cyD/

作者: KyuubiKulama (九喇嘛) 2025-07-29 00:41:00

只能檢舉下架了

作者: zChika (滋琪卡) 2025-07-29 00:42:00

原來是偷的，檢舉吧

作者: gm79227922 (mr.r) 2025-07-29 00:45:00

基本上都是這樣只差在有沒有公開而且不只是繪畫領域其他也都是這樣

作者: AJwan (阿全) 2025-07-29 00:49:00

跟盜版漫畫一樣管不了

作者: kimokimocom (A creative way) 2025-07-29 00:51:00

抓別人作品訓練這就是AI

作者: Golbeza (Golbeza) 2025-07-29 00:52:00

就說是大量侵權還很多人不信

作者: vincent8914 (群青) 2025-07-29 00:53:00

這個dataset也不只是這個paper用其實傳統的資料探勘情感分析dataset也都是真人貼文只是純文字而已gpt之類的llm就更不用說了

作者: inte629l 2025-07-29 00:54:00

就某站的dataset吧，看容量快8TBpost id取mod 1000當 bucket

作者: yellowhow (┴─┴～\(￣□￣#)\) 2025-07-29 00:54:00

沒寄生繪師就只能搞擬真那種圖而已真用就算了，假掰說自己沒用真的很討厭

作者: lou3612 (魚) 2025-07-29 00:55:00

怎摸會有人把訓練資料公開

作者: dalyadam (統一獅加油) 2025-07-29 01:02:00

老實說幾乎每個AI模型都難免用到沒授權的繪師只差在有沒有說出來了

作者: shawncarter (Duffy Huang) 2025-07-29 01:06:00

AI就是打著科技進步的名號大量偷竊別人的心血

作者: as3366700 (Evan) 2025-07-29 01:11:00

novlai時代就在這樣搞了畫師名字直接就能當提示詞

作者: RabbitHorse (赤兔馬) 2025-07-29 01:17:00

把繪師簡化成編號真夠侮辱人的，但這種ai負面文章不會推爆的

作者: ym951305 (流浪貓) 2025-07-29 01:20:00

偷圖片訓練 ai 可恥

作者: felixr0123 (felixr0123) 2025-07-29 01:25:00

人類究竟只是ai的飼料罷了

作者: willytp97121 (rainwalker) 2025-07-29 01:39:00

現在各家AI飆車飆那麼兇也是為了在相關規範法令被重視以前盡可能偷跑更多一點法律沒說這樣不行我就儘量搶

作者: gm79227922 (mr.r) 2025-07-29 01:43:00

其實更多的是政府也知道是在偷但全部都在偷誰禁誰就落後慘

作者: meatybobby (Bobby) 2025-07-29 01:44:00

我記得川普已經開綠燈說AI使用是fair use了

作者: trh123h 2025-07-29 01:55:00

畢竟都是軍備競賽的材料

作者: Jiajun0724 (川崎忍者) 2025-07-29 01:57:00

這種模型本來就是靠偷阿只是敢公開也是蠻厲害的大概就是真的篤定反正你圖抓不了我

作者: k254369 (fjsocjs) 2025-07-29 02:01:00

好用的模型就算你告一個還會有下一個這就是ai時代

作者: clovewind 2025-07-29 02:03:00

這不是早就知道的東西嗎

作者: SweetBreaker (甜點破壞者) 2025-07-29 02:03:00

天下第一搶劫大賽

作者: smart0eddie (smart0eddie) 2025-07-29 02:06:00

吉他

作者: zen777 (æ‰¹è¸¢è¸¢æ¦ç¥ž) 2025-07-29 02:18:00

可恥果然只要是Ai生成的圖都是垃圾

作者: sameber520 (請給我蘿莉) 2025-07-29 02:53:00

ai飼料是現在的早期階段成熟期的模型不需要人類餵

作者: error405 (流河=L) 2025-07-29 03:30:00

d站這樣標這樣分都十幾二十年了好嗎..

作者: rockmanx52 (ゴミ丼わがんりんにゃれ) 2025-07-29 04:00:00

這個爬蟲最扯的其實是連噗浪都掃

作者: WindSucker (抽風者) 2025-07-29 05:19:00

早就授權給社群網站了

作者: low1219 (狗才加班) 2025-07-29 06:47:00

笑死不接受AI就等著被淘汰

作者: b160160 (HG Life is Foo~~~) 2025-07-29 07:00:00

身為機器學習時代自己蒐集資料開始玩ai 的人看到現在這些大公司的玩法真的讓人覺得很寒心

作者: xsdferty035 (Free逛逛) 2025-07-29 07:32:00

AI就是這樣網路上所有的圖片和文字都是訓練素材

作者: starsheep013 (星絨綿羊) 2025-07-29 07:51:00

不意外

作者: mirarearia 2025-07-29 08:12:00

就噁心啊

作者: Kurumi2000 (夕立我最愛poi) 2025-07-29 08:14:00

？這不是早就知道的事情嗎還有人不知道嗎

作者: EfiwymsiAros (èªçœŸç™¼å»¢æ–‡) 2025-07-29 08:22:00

那你可以告他

作者: h0103661 (路人喵) 2025-07-29 08:23:00

說侵權的倒是說說犯了哪條法律啊事實就是你說禁止ai學習不具有法律效益ai學圖違規那人學圖是不是也違規

作者: vhik4596 (白頭翁) 2025-07-29 08:24:00

這幾乎等於是偷東西還把被害者編號，這也太變態了吧

作者: qaz95677 (八嘎拉) 2025-07-29 08:32:00

果然ai仔=零元購

作者: Ceferino (麥茶多多) 2025-07-29 08:33:00

現在的AI公司誰不是這樣玩的，google meta 微軟都一樣

作者: Yoimiya (煙花易逝人情長存) 2025-07-29 08:50:00

這不是早就知道了嗎你以為寫個禁止AI 人家就不會用?

作者: ssm3512 (阿坤) 2025-07-29 09:03:00

ai仔就是出生啊哪管你人類道德

作者: yoyun10121 (yoyo) 2025-07-29 09:05:00

只是拿來學就真的沒侵權疑慮呀, 現在要抓也是抓AI生出畫師畫的原角色, 老鼠就拿這個去告Midjourney

作者: sincere77 (台灣會更好) 2025-07-29 09:10:00

只要沒違法什麼缺德事都幹得出來，不愧是AI仔

作者: awenracious (Racious) 2025-07-29 09:37:00

有夠噁心

作者: yellowhow (┴─┴～\(￣□￣#)\) 2025-07-29 09:46:00

法律沒訂完善之前人家就是無敵只是一邊偷一邊蹭還要裝自己很乾淨真是假掰...

作者: cbpa 2025-07-29 09:47:00

真難過

作者: haseyo25 2025-07-29 10:09:00

最慘的接受沒有國家立即的訂法律來規範

作者: Dayton (今夜如此，夜夜皆然。) 2025-07-29 10:42:00

記得很多網站都有寫使用條款授權ooxx用他們網站po圖一定要按同意浮水印有沒有效力不知道

繼續閱讀

[閒聊] 鬼滅無限城篇票房討論百億＆懶人包razzL1225 [閒聊] 會分享瑟瑟書的好兄弟和女朋友選？lcw33242976 [閒聊] 炎之鬥球女彈子 66dhero [心得] 超時空要塞F GALAXY LIVE☆ FINAL 2025s920325 Re: [25夏] 醜男真戰士其實賺爛吧HarunoYukino [鳴潮] 神秘電話女那感覺真的是遊戲編劇設計的鍋qqsheepu [閒聊] 鬼滅之刃早完結了為啥還能一直出一直賺yniori [閒聊] 超級任天堂世界的望遠鏡畫面變WIN10w790818 [25夏] 醜男真戰士其實賺爛吧posen2012 [25夏] 坂本日常14 神神廻會在20分內吃完拉麵嗎eh07

【VR】人材育成課のお仕事上下・前後・左右から絡みつき、仕事が出来ない社員を何度も射精と昇進をさせてきた短期育成コース

【福袋】脅迫スイートルーム36時間！Vol.4 シリーズ18タイトルまるごと2184分収録！ドMインテリ美女18名

【VR】【Fitch肉感VR】天月あず初登場！多方向アングルで魅せる極上の美巨乳と白むちボディ！いいなり従順な若い愛人とじっくり愉しむ中出し温泉不倫旅行

配送中NTR 既婚ベテランドライバーの配送に付いて回るうち車中でおそわれてしまった新婚人妻宮島めい

【VR】雨に濡れて透けたブラのキミがいつもよりエッチに見えたんだ初VR8K高画質青山七海