PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
Soft_Job
[討論] 資料擷取程式發想
作者:
d25702
(DOTA)
2014-05-12 08:59:01
我想要做一隻可以從網路擷取資料並分析利用的程式,
我的初步想法如該圖
1.擷取網頁碼我算用httpwebrequest(httpWebresponse)或WebBroswer技術
2.分析資料用regularExpression
3.介面顯示用datagridview
4.資料EXCEL匯出則用NPOI
但目前我苦無想法與來源來為這隻程式注入生命,
大家有什麼idea嗎?
註:個人使用語言是VB.NET
作者:
GoalBased
(Artificail Intelligence)
2014-05-12 09:09:00
去撈色情網站,幫我推薦一部好看的,個人喜歡日系口味
作者:
Newtype
(你快樂所以我快樂)
2014-05-12 09:11:00
各國運彩賭盤之類的XD
作者:
ProGuy
(PG)
2014-05-12 09:28:00
現在有不少要跑過js之後網站內容才會出來的網站有興趣的話請google casper.js
作者:
x000032001
(版廢了該走了)
2014-05-12 09:54:00
去撈股票資料
作者:
pcyu16
(._.?)
2014-05-12 09:59:00
facebook什麼的 最近公民議題應該有不少都需要這類東西
作者: Tormentor
2014-05-12 11:35:00
我撈公司有在使用的軟體更新檔差不多就是類似這樣整理
作者:
d25702
(DOTA)
2014-05-12 12:06:00
的確~有一些網站第一手擷取的資料並不是所要的,而是要他跑完javascript後才是所要的資料我本來想撈新聞焦點的說,公民議題這個範圍還蠻廣泛的
作者:
LaPass
(LaPass)
2014-05-12 13:03:00
抓成人網站的那個我還真的有朋友寫過,不過不公開.....
作者:
x90050
(翔雁)
2014-05-12 13:11:00
最近為了搶限定版才寫了一隻在監控巴哈商城上架
作者:
LaPass
(LaPass)
2014-05-12 13:12:00
對了,好像有人寫出聯合pchome、露天、y拍之類的商城的中控系統去監控商品的上架跟下單..... 比原po講的複雜一點,但基本上的原理是一樣的
作者:
TonyQ
(自立而後立人。)
2014-05-12 15:17:00
http://antispite.tonyq.org/
我最近的業餘興趣作品。XD網路留言的評估、回饋與分析。
作者:
yukari8
(林檎)
2014-05-12 15:56:00
casper.js看起來真不錯 我還以為要用開源的JS引擎去處理
作者:
plover
(喜歡你 ( ̄▽ ̄#)﹏﹏)
2014-05-12 16:15:00
國際麻將八番起胡的原始碼
作者:
bemaduro
(superhotblood)
2014-05-12 16:24:00
最近也想做一個可以撈MLB 成績的網站!!!
作者:
ldkrsi
(衰神)
2014-05-12 17:57:00
運動的數據資料不難抓 有些官網有json直接抓
作者:
yhaoo666
(yhaoo666)
2014-05-12 20:36:00
一樓這個我喜番
作者: ayumiayayaai (Kulapikachu)
2014-05-13 00:01:00
第二點... 只用 regex 不算是"分析"資料吧
作者:
VVll
(李奧納多皮卡丘)
2014-05-13 00:29:00
加個db吧,資料抓下來把分析後的資料寫入db變成資訊
作者:
ckaha
(★閃亮數學推理★)
2014-05-13 00:37:00
想好你要分析什麼 大概要哪些資料就準備開始處理ETL吧
作者:
d25702
(DOTA)
2014-05-13 14:11:00
感謝,我先實作第一版程式出來,再來與大家share交流一下。
作者:
kvjo
(同名專輯)
2014-05-13 14:23:00
我都來抓 股票公司的營收盈餘 籌碼面 = =工作一忙 就沒時間弄成UI 和排schedule了
作者:
abola921
(南港金城武)
2014-05-13 23:35:00
有興趣的話,去抓每天北市公車的資料然後分析他們預測到站時間的誤差值,然後再幫個忙把那個路口誤差最大算出來有餘力的話,再加個氣象變數,看下雨對預測的影響 QQ
作者:
pkmu8426
(巴426)
2014-05-14 16:28:00
如果要用HtmlDocument結構去解析的話 可以參考下面這張圖
" target="_blank">
" class="img-responsive" />
" target="_blank" rel="nofollow">
" target="_blank">
" class="img-responsive" />
概念差不多 應該有幫助對於單一元素 因為loading延遲的關係 所以除了timer也可以搭配迴圈的方式設個尋找條件 超過一定次數才放棄尋找該元素。 若考慮需要持續維護該程式 模組化和除錯機制的設計 才比較花時間對了Document.readyState屬性可檢查是否完成載入經常檢查 可盡量避免資料不夠完整
繼續閱讀
[徵才] 說無限互動Engineer暑期實習專案
nhcb
[徵人] 高報酬急徵web前端工程師即戰力
spotdog
Fw: [揪團] 程式讀書會
roll200
Re: [請益] 寫出自己想要的程式
ideaup
[閒聊] 恭喜開板
hn12303158
[閒聊] 恭喜開版
envia
[薪福] 有人知道聚碩科技福利如何?
joyies
[閒聊] 恭喜開版
threee
恭喜開版!!!
birdpay
[閒聊] 恭喜開板
wlsabcd
Links
booklink
Contact Us: admin [ a t ] ucptt.com