
【功能特點(diǎn)】
視覺(jué)點(diǎn)和點(diǎn)擊界面WebHarvy是一個(gè)可視化的網(wǎng)頁(yè)提取工具。其實(shí)完全沒(méi)有必要編寫(xiě)任何腳本或代碼用來(lái)提取數(shù)據(jù)。使用WebHarvy的內(nèi)置瀏覽器瀏覽網(wǎng)頁(yè)。您可以選擇用鼠標(biāo)點(diǎn)擊來(lái)提取數(shù)據(jù)。它是那么容易!
智能識(shí)別模式
自動(dòng)識(shí)別網(wǎng)頁(yè)中出現(xiàn)的數(shù)據(jù)模式。所以,如果你需要從一個(gè)網(wǎng)頁(yè)刮項(xiàng)目(姓名,地址,電子郵件,價(jià)格等)的列表,你不需要做任何額外的配置。如果數(shù)據(jù)重復(fù),WebHarvy會(huì)自動(dòng)刮。
導(dǎo)出捕獲的數(shù)據(jù)
可以保存從各種格式的網(wǎng)頁(yè)中提取的數(shù)據(jù)。 WebHarvy網(wǎng)站刮板的當(dāng)前版本允許你導(dǎo)出的刮數(shù)據(jù)作為XML,CSV,JSON或TSV文件。您還可以刮下數(shù)據(jù)導(dǎo)出到一個(gè)SQL數(shù)據(jù)庫(kù)。
從多個(gè)頁(yè)面提取
通常網(wǎng)頁(yè)顯示數(shù)據(jù),如在多個(gè)頁(yè)面中的產(chǎn)品目錄。 WebHarvy可以自動(dòng)抓取并從多個(gè)網(wǎng)頁(yè)中提取數(shù)據(jù)。只是指出了“鏈接到下一頁(yè)和WebHarvy網(wǎng)站刮板將自動(dòng)刮從所有頁(yè)面的數(shù)據(jù)。
基于關(guān)鍵字的提取
基于關(guān)鍵字的提取可讓您捕捉從搜索結(jié)果頁(yè)面輸入關(guān)鍵字的列表數(shù)據(jù)。您創(chuàng)建的配置將被自動(dòng)重復(fù)所有給定輸入關(guān)鍵字,而挖掘的數(shù)據(jù)??梢灾付ㄈ我鈹?shù)量的輸入關(guān)鍵字
通過(guò)代{過(guò)}{濾}理服務(wù)器提取
提取匿名和防止提取網(wǎng)絡(luò)軟件被封鎖的Web服務(wù)器,您必須通過(guò)代{過(guò)}{濾}理服務(wù)器訪問(wèn)目標(biāo)網(wǎng)站的選項(xiàng)??梢允褂靡粋€(gè)單一的代{過(guò)}{濾}理服務(wù)器地址或代{過(guò)}{濾}理服務(wù)器的地址列表。
提取分類(lèi)
WebHarvy網(wǎng)站刮板允許您從一個(gè)鏈接列表,從而導(dǎo)致一個(gè)網(wǎng)站內(nèi)的相似頁(yè)面抽取數(shù)據(jù)。這使您可以使用一個(gè)單一的配置刮網(wǎng)站內(nèi)的類(lèi)別或小節(jié)。
使用正則表達(dá)式提取
WebHarvy可以應(yīng)用正則表達(dá)式(正則表達(dá)式)在文本或網(wǎng)頁(yè)的HTML源代碼,并提取去匹配的部分。這種強(qiáng)大的技術(shù)為您提供了更多的靈活性,同時(shí)拼搶的數(shù)據(jù)。
【使用方法】
1、啟動(dòng)軟件,提示及解鎖,也就是需要添加官方的許可文件才能使用
2、解壓下載的文件,雙擊“URET NFO v2.2.exe”就可以了
3、提示您SysNucleus WebHarvy軟件已經(jīng)授權(quán)給SMR
4、從需要提取數(shù)據(jù)的地方導(dǎo)航到web頁(yè)面。您可以使用內(nèi)置瀏覽器加載和導(dǎo)航web頁(yè)面
5、要捕獲該文本的一部分,請(qǐng)選擇并突出顯示。在選擇下面的選項(xiàng)之前,確定需要的部分。

6、輸入自己分析的網(wǎng)頁(yè)地址就可以了,頂部的URL就是地址輸入欄
7、輸入一個(gè)地址,直接可以在網(wǎng)頁(yè)上打開(kāi)
8、選擇配置的功能,可以點(diǎn)擊第一個(gè)Start Config開(kāi)始配置下載網(wǎng)頁(yè)數(shù)據(jù)的方案




































