線上訂房服務-台灣趴趴狗聯合訂房中心
發文 回覆 瀏覽次數:2519
推到 Plurk!
推到 Facebook!

【買賣日報表查詢系統】批次抓取程式

 
ryanhsiao
一般會員


發表:4
回覆:8
積分:2
註冊:2009-11-17

發送簡訊給我
#1 引用回覆 回覆 發表時間:2015-07-13 12:58:14 IP:210.71.xxx.xxx 訂閱
抓取目標:買賣日報表查詢系統   http://bsr.twse.com.tw/bshtm/
執行環境:Windows OS
開發語言:BCB 6
使用的第三方軟體(需自行安裝):ImageMagick(影像處理)、tesseract(文字識別)
程式主要功能:
  1. 下載集中市場現貨股票清單
  2. 下載集中市場權證清單
  3. 批次抓取股票買賣日報表(每日約 910~920個檔案,單一程式抓取速度60個/Hour)
  4. 批次抓取權證買賣日報表(每日約 6500~7200個檔案,單一程式抓取速度60個/Hour)
  5. 彙整所有日報表成單一檔案(類似該連結http://dataeshop.twse.com.tw/frontend/cht/product/downloadFile.jsp?ptid=C01&samplefile=ex_BSR_1.zip)
程式輔助功能(使用DOS Script及其他個人寫的小程式所組合):
  1. 可分割股票/權證清單成數個檔案,同時執行數個批次抓取程式,增加抓取速度
  2. 可複製批次抓取程式成數個群組,同時執行數個VM,增加抓取速度
  • 經測試一台電腦約可同時執行8~12支批次抓取程式
  • 若以權證買賣日報表(每日約 6500~7200個檔案)為例,同時開15台VM(採用Google Compute Cloud),可在約1小時左右抓取完畢
  • VM機制,目前需人工手動執行各個執行群組之群首
販售金額(若不適合張貼,再麻煩版主告知):
  1. 程式主要功能→5,000NT
  2. 程式主要功能 輔助功能→7,000NT
  3. 程式主要功能(含原始碼)→20,000NT
  4. 若購賣後,60天內,證交所買賣日報表查詢系統網站改版以致批次抓取程式失效,則退還60%買賣金額
其他:
  1. 個人化資料庫
  • 使用的第三方軟體(需自行安裝):MySQL 5.5 (編碼Big5)
  • 集中市場現貨股票,每日約50萬筆;權證,每日約8萬筆,透過Script匯入功能及相關SQL語法,可彙整成每券商每交易標的之紀錄(如附檔)
  • 資料庫空間(以1年的資料),現貨股票需8G左右,權證2G左右
  • 資料分析時間,即執行匯入及SQL統計語法(以1台CPU2.6GHz筆電),現貨股票需45min左右,權證25min左右
  • 販售金額(若不適合張貼,再麻煩版主告知):30,000NT(含資料結構及相關Script)
歡迎來信討論,謝謝
附加檔案:55a345669b527_0701.html
GrandRURU
站務副站長


發表:235
回覆:1655
積分:1753
註冊:2005-06-21

發送簡訊給我
#2 引用回覆 回覆 發表時間:2015-07-13 15:02:18 IP:59.120.xxx.xxx 未訂閱
可惜在下對股市完全不通

程式看起來很厲害!
ryanhsiao
一般會員


發表:4
回覆:8
積分:2
註冊:2009-11-17

發送簡訊給我
#3 引用回覆 回覆 發表時間:2015-07-14 09:55:00 IP:210.71.xxx.xxx 訂閱
GrandRURU副, 您抬舉了~~
程式說穿了,只是將一堆lib、DOS command和工具兜在一起,沒有甚麼新穎的技術或演算法

===================引 用 GrandRURU 文 章===================
可惜在下對股市完全不通

程式看起來很厲害!
系統時間:2017-12-12 14:12:53
聯絡我們 | Delphi K.Top討論版
本站聲明
1. 本論壇為無營利行為之開放平台,所有文章都是由網友自行張貼,如牽涉到法律糾紛一切與本站無關。
2. 假如網友發表之內容涉及侵權,而損及您的利益,請立即通知版主刪除。
3. 請勿批評中華民國元首及政府或批評各政黨,是藍是綠本站無權干涉,但這裡不是政治性論壇!