
【功能介紹】
智能識(shí)別和抽取數(shù)據(jù)后羿獨(dú)有的智能模式采集,可以幫助用戶自動(dòng)識(shí)別和抽取列表和表格數(shù)據(jù),
并能自動(dòng)識(shí)別分頁。 只需要輸入首頁鏈接即可采集,是最簡(jiǎn)單的網(wǎng)頁采集方式!
可自動(dòng)抽?。毫斜? 表格, 分頁按鈕, 瀑布流分頁等

全平臺(tái)支持
不同于其他采集器,所有操作系統(tǒng)都能安裝和使用后羿采集器,包括Windows, Mac和Linux。 個(gè)人和團(tuán)隊(duì)都能使用,并且能滿足不同團(tuán)隊(duì)配置。

任何網(wǎng)站都能采
除了智能模式,后羿還提供高級(jí)模式采集,全程可視化點(diǎn)選操作,保障輕松采集所有網(wǎng)站。 使用先進(jìn)的機(jī)器學(xué)習(xí)算法,能更精確抽取需要的數(shù)據(jù)。
支持所有網(wǎng)頁:登錄后采集, 圖片下載, JSON, Javascript, AJAX, html源碼, 搜索結(jié)果采集等

多種數(shù)據(jù)導(dǎo)出方式
一鍵導(dǎo)出所有采集的數(shù)據(jù),支持導(dǎo)出到本地文件(EXCEL, CSV和HTML等), 同時(shí)支持直接導(dǎo)出數(shù)據(jù)到數(shù)據(jù)庫。

滿足企業(yè)采集需求
后羿采集器還提供更多豐富的功能,能滿足團(tuán)隊(duì)和企業(yè)的不同采集需求。 包括采集過程中自動(dòng)下載圖片等文件,批量動(dòng)態(tài)導(dǎo)入采集的網(wǎng)址,自動(dòng)廣告攔截, 多任務(wù)同時(shí)運(yùn)行,定時(shí)運(yùn)行等
了解詳細(xì)功能:登錄后采集, 圖片下載, JSON, Javascript, AJAX, html源碼, 搜索結(jié)果采集等

云端賬號(hào)
創(chuàng)建后羿賬號(hào)后,您的所有采集任務(wù)將會(huì)自動(dòng)保存在云端。不用擔(dān)心任務(wù)丟失, 一個(gè)賬號(hào)可以多終端使用,任務(wù)管理更加簡(jiǎn)單便捷。

【軟件亮點(diǎn)】
智能采集智能分析并抽取列表/表格數(shù)據(jù),并且能自動(dòng)識(shí)別分頁。 免配置一鍵采集各種網(wǎng)站,包括分頁、滾動(dòng)加載、登錄采集、AJAX等等。
跨平臺(tái)支持
后羿采集器支持各種操作系統(tǒng),包括Windows, Mac和Linux。 不管是個(gè)人采集,還是團(tuán)隊(duì)/企業(yè)使用,都能滿足您的各種需求。
多種數(shù)據(jù)導(dǎo)出
一鍵導(dǎo)出采集的所有數(shù)據(jù)。支持CSV, EXCEL和HTML等,同時(shí)也支持導(dǎo)出數(shù)據(jù)到數(shù)據(jù)庫。
云端賬號(hào)
采集任務(wù)自動(dòng)保存到云端,不用擔(dān)心任務(wù)丟失。一個(gè)賬號(hào)多終端操作,可隨時(shí)隨地創(chuàng)建和修改采集任務(wù)等。
【常見問題】
為什么選擇后羿?全程自動(dòng)化提取數(shù)據(jù)
后羿能智能識(shí)別要抽取的數(shù)據(jù)和分頁,是最簡(jiǎn)單的網(wǎng)頁采集方式。
可視化點(diǎn)選操作
全程可視化操作,點(diǎn)選修改要抽取的數(shù)據(jù)等。人人都會(huì)用的采集器。
多種采集模式,任何網(wǎng)站都能采
支持智能和高級(jí)采集,滿足不同采集需求。支持XPATH, JSON, HTTP和POST等。
軟件箭速迭代
軟件定期更新升級(jí),不斷添加新功能??蛻舻臐M意是對(duì)我們最大的肯定!
【使用教程】
自定義采集百度搜索結(jié)果數(shù)據(jù)的方法步驟1:創(chuàng)建采集任務(wù)
1)啟動(dòng)后羿采集器,進(jìn)入主界面,選擇自定義采集并點(diǎn)擊創(chuàng)建任務(wù)按鈕創(chuàng)建 "自定義采集任務(wù)"

2)輸入百度搜索的URL,包括三種方式
1、手動(dòng)輸入:在輸入框中直接輸入U(xiǎn)RL,多個(gè)URL時(shí)須要換行分割
2、點(diǎn)擊從文件中讀取方式:用戶選擇一個(gè)存放URL的文件,文件中可以有多個(gè)URL地址,地址須要換行分割。
3、批量添加方式:通過添加并調(diào)整地址參數(shù)生成多個(gè)有規(guī)律的地址

步驟2:自定義采集流程
1)點(diǎn)擊創(chuàng)建后自動(dòng)打開第一個(gè)URL進(jìn)而進(jìn)入自定義設(shè)置頁面,默認(rèn)已經(jīng)創(chuàng)建了開始、打開網(wǎng)頁、結(jié)束的流程塊。底部模板區(qū)用于拖拽到畫布中生成新的流程塊;點(diǎn)擊打開網(wǎng)頁中的屬性按鈕,可修改打開的網(wǎng)址

2)添加輸入文字流程塊:在底部模板區(qū)中拖拽輸入文字塊到打開網(wǎng)頁塊后面附近,當(dāng)出現(xiàn)陰影區(qū)域的時(shí)候可以松開鼠標(biāo),此時(shí)會(huì)自動(dòng)連接,添加完成

3)生成完整流程圖:仿照上面添加輸入文字流程塊的拖拽流程添加新塊:如下圖所示:

關(guān)鍵步驟塊設(shè)置介紹
步驟2:定時(shí)等待用于等待前面打開網(wǎng)頁完成
步驟3:點(diǎn)擊輸入框Xpath屬性按鈕,在屬性菜單中點(diǎn)擊圖標(biāo)進(jìn)行點(diǎn)選網(wǎng)頁中的輸入框,點(diǎn)擊輸入文本屬性按鈕,在菜單中輸入要搜索的文本。
步驟4:用于設(shè)置點(diǎn)擊開始搜索按鈕,點(diǎn)擊元素的xpath屬性按鈕,在菜單中點(diǎn)擊點(diǎn)選圖標(biāo),然后點(diǎn)擊網(wǎng)頁中的百度一下按鈕即可。
步驟5:用于設(shè)置循環(huán)加載下一列表頁。在循環(huán)塊內(nèi)部的循環(huán)條件塊中設(shè)置詳細(xì)條件,此處點(diǎn)擊操作按鈕,選擇單個(gè)元素,然后在屬性菜單中點(diǎn)擊元素的xpath屬性按鈕,同上進(jìn)行點(diǎn)選網(wǎng)頁中的下一頁按鈕。循環(huán)次數(shù)屬性按鈕可默認(rèn)為0,即不限制點(diǎn)擊下一頁的次數(shù)。
步驟6:用于設(shè)置循環(huán)抽取列表頁中的數(shù)據(jù)。在循環(huán)塊內(nèi)部的循環(huán)條件塊中設(shè)置詳細(xì)條件,此處點(diǎn)擊操作按鈕,選擇不固定元素列表,然后在屬性菜單中點(diǎn)擊元素的xpath屬性按鈕,然后在網(wǎng)頁中連續(xù)點(diǎn)選兩次抽取第一塊和第二塊元素。循環(huán)次數(shù)屬性按鈕可默認(rèn)為0,即不限制列表中收取字段的數(shù)量。
步驟7:用于執(zhí)行點(diǎn)擊下一頁按鈕操作,點(diǎn)擊元素xpath屬性按鈕,選擇使用當(dāng)前循環(huán)中元素的xpath選項(xiàng)。
步驟8:同理用于設(shè)置網(wǎng)頁加載等待時(shí)間。
步驟9:用于設(shè)置在列表頁抽取的字段規(guī)則,點(diǎn)擊屬性按鈕中使用循環(huán)中的元素按鈕,選擇使用循環(huán)中的元素選項(xiàng)。點(diǎn)擊元素模板屬性按鈕在字段表格中點(diǎn)擊加減進(jìn)行添加刪除字段,添加字段使用點(diǎn)選操作,即點(diǎn)擊加號(hào)后鼠標(biāo)移動(dòng)到網(wǎng)頁元素上點(diǎn)擊選擇。
4)點(diǎn)擊開始采集,啟動(dòng)采集

步驟3:數(shù)據(jù)采集及導(dǎo)出
1)采集任務(wù)運(yùn)行中

2)采集完成后,選擇“導(dǎo)出數(shù)據(jù)”可以把數(shù)據(jù)都導(dǎo)出到本地文件

3)選擇“導(dǎo)出方式”,將采集好的數(shù)據(jù)導(dǎo)出,這里可以選擇excel作為導(dǎo)出為格式

4)采集數(shù)據(jù)導(dǎo)出后如下圖

后羿采集器是是原Google技術(shù)團(tuán)隊(duì)傾力打造的一款網(wǎng)頁數(shù)據(jù)采集軟件,可視化點(diǎn)選,一鍵采集網(wǎng)頁數(shù)據(jù),全平臺(tái),Win/Mac/Linux都可用,采集和導(dǎo)出全免費(fèi),無限制放心用,可后臺(tái)運(yùn)行,速度實(shí)時(shí)顯示。




































