https://ithelp.ithome.com.tw/m/questions/10220070
看到有人做了一個魯肉飯評論器
覺得蠻有趣的..
畢竟我自己也蠻喜歡吃的
不過魯肉飯都長一個樣
AI要區分感覺挺難的
很多細節差異,像是肥瘦比例
醬汁顏色、肉燥顆粒大小、油亮程度,甚至配菜等等..
現在的視覺模型不曉得能不能辨別?或是需要fine-tuning,或重新訓練?
作者:
DrTech (竹科管理處網軍研發人員)
2026-03-30 08:35:00看要做到多準而已吧。技術都有。不過很多人半桶水而已,例如這個連結,文字相似度用CLIP?如果是 OpenAI 版本的CLIP,不支援中文。很多人跟本亂用。用import clip 根本搞笑。OpenAI版本的CLIP完全看不懂中文。這就是我常說的,claude寫的程式碼很有效率。但專業領域一直很爛,日常工作很難用。連CLIP不支持中文都不知道,亂套。然後一堆外行人,還以為自己程式是對的,覺得很好用。
看了一下,這個工具用的CLIP好像是圖對圖的KNN比對,我對這塊比較沒研究
作者:
DrTech (竹科管理處網軍研發人員)
2026-03-30 10:17:00對喔,對店家照片。不過CLIP本身就沒有對店家照片這種資料做訓練,embedding出來,幾乎純亂數,算相似度也沒意義。真的要這樣搞。dinov2, dinov3這種學通用特徵的模型比較適合。
除非訓練資料也都是用同個裝置拍 不然色調那些就無法校正了吧
直接用通用LLM丟個照片說"看起來好不好吃"感覺都還準些我剛剛做了實驗 直接丟幾張滷肉飯進去讓gemini 挑...還真的挑出那張我覺得看起來最好吃的
作者:
RINPE (RIN)
2026-04-01 08:27:00沒有髒地板和胖大叔我可不吃
作者:
ssadow (ssadow)
2026-04-02 14:27:00我沒接串接API,只是單純丟文章的圖給ChatGPT問評價結果AI分析是肉燥飯不是滷肉飯,以評論來說算有參考性的
作者:
DrTech (竹科管理處網軍研發人員)
2026-03-30 16:35:00看要做到多準而已吧。技術都有。不過很多人半桶水而已,例如這個連結,文字相似度用CLIP?如果是 OpenAI 版本的CLIP,不支援中文。很多人跟本亂用。用import clip 根本搞笑。OpenAI版本的CLIP完全看不懂中文。這就是我常說的,claude寫的程式碼很有效率。但專業領域一直很爛,日常工作很難用。連CLIP不支持中文都不知道,亂套。然後一堆外行人,還以為自己程式是對的,覺得很好用。
看了一下,這個工具用的CLIP好像是圖對圖的KNN比對,我對這塊比較沒研究
作者:
DrTech (竹科管理處網軍研發人員)
2026-03-30 18:17:00對喔,對店家照片。不過CLIP本身就沒有對店家照片這種資料做訓練,embedding出來,幾乎純亂數,算相似度也沒意義。真的要這樣搞。dinov2, dinov3這種學通用特徵的模型比較適合。
除非訓練資料也都是用同個裝置拍 不然色調那些就無法校正了吧
直接用通用LLM丟個照片說"看起來好不好吃"感覺都還準些我剛剛做了實驗 直接丟幾張滷肉飯進去讓gemini 挑...還真的挑出那張我覺得看起來最好吃的
作者:
RINPE (RIN)
2026-04-01 16:27:00沒有髒地板和胖大叔我可不吃
作者:
ssadow (ssadow)
2026-04-02 22:27:00我沒接串接API,只是單純丟文章的圖給ChatGPT問評價結果AI分析是肉燥飯不是滷肉飯,以評論來說算有參考性的