【概括介紹】
網(wǎng)文采集大師主要是輸入關(guān)鍵詞搜索采集網(wǎng)上資料,進(jìn)行批量復(fù)制處理后集結(jié)成一個(gè)全新的內(nèi)容,使用網(wǎng)文采集大師制作全新的文章非常方便,只需您輸入簡單的幾條信息便可。
【使用方法】
1.普通采集方式
現(xiàn)在我們以采集新浪讀書網(wǎng)上作者明曉溪的《會(huì)有天使替我愛你》這一部小說為例,來說明軟件的操作步驟:
第一步:查找你要采集文章的目錄索引頁
現(xiàn)在,我們先到新浪網(wǎng)找到該小說的目錄頁,地址如下:
http://vip.book.sina.com.cn/book/index_39023.html
將上面找到的地址復(fù)制到軟件的文章目錄頁輸入框后回車打開這個(gè)目錄頁。
如果是直接通過本軟件打開新浪讀書網(wǎng),再找到這部小說目錄的,就不用輸入了。
第二步:查找小說或文章章節(jié)鏈接關(guān)鍵字,獲取采集文章網(wǎng)址列表
現(xiàn)在我們從剛才打開的目錄頁中,找到“楔子”的鏈接地址(鼠標(biāo)移到鏈接上,即可在軟件狀態(tài)欄看到,你也可以右鍵點(diǎn)擊此鏈接,用復(fù)制快捷方式得到此鏈接),并查看其格式為:
http://vip.book.sina.com.cn/book/chapter_39023_21099.html
接著再往后找一個(gè)后面一些的地址,我們就看“尾聲(3)”的地址,其鏈接地址為:
http://vip.book.sina.com.cn/book/chapter_39023_21211.html
現(xiàn)在我們比較上面兩個(gè)鏈接地址,找到它們的公共部分,這就是我們需要的鏈接關(guān)鍵字,在這個(gè)目錄頁中,它是區(qū)別于是其它鏈接地址的:
http://vip.book.sina.com.cn/book/chapter_39023
我們將其輸入到鏈接關(guān)鍵字輸入框中,也可以用鼠標(biāo)拖一個(gè)地址到鏈接關(guān)鍵字輸入框中,再刪除后面的非公共部分。
上面兩步操作完后,就可點(diǎn)擊軟件右上角的1.獲取列表按鈕獲取小說或文章所有章節(jié)所在地址了。
第三步:查找正文起始關(guān)鍵字和結(jié)束關(guān)鍵字
在軟件左側(cè)網(wǎng)址列表中,點(diǎn)擊第一個(gè)地址,在軟件右側(cè)打開該章節(jié)網(wǎng)頁,在正文起始關(guān)鍵字和結(jié)束關(guān)鍵字為空的情況下,直接點(diǎn)擊獲取文章,檢查剛獲取的整個(gè)網(wǎng)頁的文字,從中找出正文的起始關(guān)鍵字和結(jié)束關(guān)鍵字,這里我們可以看到,該小說的每一節(jié)正文都是以“會(huì)有天使替我愛你 >”這一段文字開始的,而結(jié)束都是以“上一章作品目錄”這幾個(gè)字符結(jié)束的,因此,我們相應(yīng)的在軟件的正文起始關(guān)鍵字和結(jié)束關(guān)鍵字輸入框中分別復(fù)制剛才找到的這兩個(gè)關(guān)鍵字(詞),然后再點(diǎn)擊一下獲取文章,看看是不是就是你所要的結(jié)果了,同時(shí),也可測試一下其它章節(jié),是否都獲取成功,注意正文起始和結(jié)束關(guān)鍵字在該頁面中的唯一性,如果不唯一,獲取正文可能不正確。
第四步:確定文章采集后的保存目錄
這一步比較簡單,你只要在軟件左下側(cè)找到一個(gè)你要保存的目錄,或者直接點(diǎn)擊目錄瀏覽框右鍵菜單,新建一個(gè)目錄也可,在這里,你可以先在網(wǎng)頁瀏覽框中選定小說名稱字符串,后再點(diǎn)擊新建目錄菜單,此時(shí)就可默認(rèn)使用小說名稱作保存文件夾名稱了。
第五步:確定文章的標(biāo)題起始關(guān)鍵字和結(jié)束關(guān)鍵字
這一步其實(shí)也就是為了確定每個(gè)文件名的樣式的,我們看到剛才獲取的文章,第一行基本就是該章節(jié)的標(biāo)題,軟件在用戶未輸入標(biāo)題起始和結(jié)關(guān)鍵字的情況下,將會(huì)默認(rèn)使用首行文字為文件名,因而在此,我們就不用輸入標(biāo)題采集關(guān)鍵字了,程序會(huì)自動(dòng)識(shí)別的,你可以點(diǎn)擊一下保存文章,試試效果的。
另外本軟件對(duì)于以“http://dict.baidu.com/s?wd=賽”形式出現(xiàn)的采集網(wǎng)址,你如果不輸入標(biāo)題起始和結(jié)束關(guān)鍵字,程序?qū)?huì)自動(dòng)以“賽.txt”為文件名進(jìn)行保存。
還有,如果你在點(diǎn)擊批量抓取按鈕右鍵選擇以定長序號(hào)為文件名保存的話,也可不用輸入標(biāo)題起始關(guān)鍵字和結(jié)束關(guān)鍵字。
注意正文起始關(guān)鍵字、結(jié)束關(guān)鍵字、標(biāo)題起始關(guān)鍵字和結(jié)束關(guān)鍵字都并非必須輸入項(xiàng),要針對(duì)不同的網(wǎng)站,不同的情況選擇是否輸入。
第六步:開始批量抓取
待上面的步驟都準(zhǔn)備好了,我們就可以開始采集了,采集時(shí),你還可以選擇是否自動(dòng)重新整理采集的文章,如果選擇的話,程序會(huì)在采集后保存前對(duì)所采集的文章自動(dòng)段落重排一次,對(duì)于有些網(wǎng)站的文章,段落重排后會(huì)方便閱讀一些。
現(xiàn)在你就可以泡上一杯茶,稍等片刻,程序就會(huì)自動(dòng)一章章、一節(jié)節(jié)為你采集保存好了。以后你就可以離線閱讀或用U盤帶到其它地方,也可放到MP4、手機(jī)上閱讀了。
2.專業(yè)采集方式
第一步、第二步:文章列表的采集方式同普通采集方式,而且也還是要在普通采集方式下才能采集到。
第三步:查找正文起始關(guān)鍵字和結(jié)束關(guān)鍵字
在專業(yè)采集方式下,正文起始和結(jié)束關(guān)鍵字以及標(biāo)題的起始和結(jié)束關(guān)鍵字的和普通采集方式有些不同,不是看網(wǎng)頁確定關(guān)鍵字,而是要看網(wǎng)頁源代碼確定關(guān)鍵字,方法是,首先,選中軟件選項(xiàng)菜單最下邊的專業(yè)采集模式菜單,或者按鍵盤上的F12快捷鍵也可,之后,你再打開網(wǎng)址列表中的任意一個(gè)列表,
第四步:確定文章的標(biāo)題起始關(guān)鍵字和結(jié)束關(guān)鍵字
提示:你如果仍操作不來的話,請(qǐng)點(diǎn)擊軟件文件菜單下的打開任務(wù),用我原來采集的一個(gè)任務(wù)作為示例,你什么都不用輸入,只要先點(diǎn)擊一下獲取列表,再點(diǎn)擊一下批量采集就行了。
【更新日志】
1、更新網(wǎng)址列表和文件列表提示功能。
2、新增在線檢測升級(jí)功能。


































