網(wǎng)絡(luò)礦工數(shù)據(jù)采集器支持多任務(wù)、多線程、代理IP 等策略,可以高效的采集各類網(wǎng)頁數(shù)據(jù)、及下載各類文件,同時還提供了數(shù)據(jù)加工工具,可以在數(shù)據(jù)采集的同時就可完成數(shù)據(jù)加工操作,提升最終數(shù)據(jù)呈現(xiàn)的質(zhì)量,網(wǎng)絡(luò)礦工數(shù)據(jù)采集軟件支持各類常用的數(shù)據(jù)庫,包括MS SqlServer、MySql及Access,同時還支持web方式進行數(shù)據(jù)提交。網(wǎng)絡(luò)礦工數(shù)據(jù)采集器具備強大的采集能力,實現(xiàn)了可視化、智能化的規(guī)則配置,免去了傳統(tǒng)規(guī)則配置的煩惱。圍繞網(wǎng)站數(shù)據(jù)采集提供了豐富的功能,雖然功能眾多,但使用卻不復雜,上手很容易。
【網(wǎng)絡(luò)礦工數(shù)據(jù)采集系統(tǒng)的功能】
1、數(shù)據(jù)采集:以數(shù)據(jù)采集為核心提供了導航、多頁、代理采集、跨層采集、文件下載、編碼解碼、參數(shù)配置等功能,確保在數(shù)據(jù)采集時可應(yīng)對各種復雜的采集配置需求;2、強大的采集能力:支持各種編碼、壓縮采集,可實現(xiàn)U碼轉(zhuǎn)換、HTML代碼轉(zhuǎn)換,支持cookie、自定義HTTP Header,支持代理輪詢、采集延時等多種設(shè)置,支持各種排重,具備斷點續(xù)采能力;
3、可視化及智能:全面支持可視化配置,從導航、翻頁及數(shù)據(jù)采集規(guī)則,都支持可視化的配置;
4、數(shù)據(jù)加工:提供了各種字符串的加工方式,可邊采集邊進行數(shù)據(jù)加工,同時也提供了專用的數(shù)據(jù)加工工具,可進行數(shù)據(jù)表合并、創(chuàng)建列、數(shù)據(jù)格式化等多種方式,最終可獲取到高質(zhì)量的數(shù)據(jù)信息;提供OCR識別能力,圖片水印功能;
5、數(shù)據(jù)發(fā)布:數(shù)據(jù)可發(fā)布到數(shù)據(jù)庫(Access、mssqlserver、MySql),也可直接發(fā)布數(shù)據(jù)到網(wǎng)站,同時還提供了直接入庫的模式,適應(yīng)采集海量數(shù)據(jù);
6、多種工具:數(shù)據(jù)加工發(fā)布工具、日志工具、HTTP嗅探器、編解碼助手、正則分析器、配置助手,全面輔助您完成配置工作;
7、插件支持:支持。net插件,用戶可基于接口擴展自己個性化的功能,網(wǎng)絡(luò)礦工提供了cookie獲取、數(shù)據(jù)加工及數(shù)據(jù)發(fā)布的接口操作;
8、其他:支持靈活的定時采集策略、數(shù)據(jù)監(jiān)控、靜默運行等多種附加功能,不僅可以方便用戶的采集工作,也從數(shù)據(jù)采集實用角度大大豐富的軟件的功能應(yīng)用;當前版本為免費版本,可放心使用,部分功能在免費版本中會有限制!
【網(wǎng)絡(luò)礦工數(shù)據(jù)采集系統(tǒng)的特色】
能見就能采
采集效率極高
獨有代理輪詢采集
強大的數(shù)據(jù)清洗
靜默運行機制
動態(tài)數(shù)據(jù)監(jiān)控
多數(shù)據(jù)源管理
輕松發(fā)布
靈活的采集計劃
插件擴展


































