成人性生活视频免费看_成人免费视频91_无码粉嫩虎白一线天在线观看_wwwcom黄色_91精品国产91久久久久麻豆 主演_91免费黄视频

網頁抓取工具必看的文章采集實例

2017-01-09 11:32:11 瀏覽:17924


    在日常工作和學習中,對一些有價值的文章進行采集可以幫助我們提高對信息的利用率和整合率,對于新聞、學術論文等類型的電子文章,我們可以采用網頁抓取工具進行采集,這類采集相對一些數字化的非規律性的數據還是較為容易的,這里以網頁抓取工具火車采集器V9為例,講解一個文章采集的實例以供大家學習。 

熟悉火車采集器的朋友都知道,通過官網的FAQ可以檢索采集過程中遇到的問題,那么這里我們就以采集faq為例來說明網頁抓取工具采集的原理和過程。

本例以 http://faq.locoy.com/qc-12.html 演示地址。

1)新建個采集規則
選擇一個分組上右擊,選擇“新建任務”,如下圖:

圖片1.png 

2)添加起始網址
在這里假設我們需要采集 5頁數據。

分析網址變量規律
第一頁地址:http://faq.locoy.com/qc-12.html?p=1

第二頁地址:http://faq.locoy.com/qc-12.html?p=2

第三頁地址:http://faq.locoy.com/qc-12.html?p=3

由此我們可以推算出p=后的數字就是分頁的意思,我們用[地址參數]表示:

所以設置如下:

圖片2.png 

地址格式:把變化的分頁數字用[地址參數]表示。

數字變化:從1開始,即第一頁;每次遞增1,即每次分頁的變化規律數字; 共5項,即一共采集5頁。

預覽:采集器會按照上面設置的生成一部分網址,讓你來判讀添加的是否正確。

然后確定即可

3)[常規模式]獲取內容網址
常規模式:該模式默認抓取一級地址,即從起始頁源代碼中獲取到內容頁A鏈接。

在這里給大家演示用 自動獲取地址鏈接 +設置區域 的 方式來獲取。

查看頁面源代碼找到文章地址所在的區域:

圖片3.png 

設置如下:

注:更詳細的分析說明可以參考本手冊:

操作指南 > 軟件操作 > 網址采集規則 > 獲取內容網址

圖片4.png 

點擊網址采集測試,看看測試效果

圖片5.png 

3)內容采集網址
http://faq.locoy.com/q-1184.html 為例講解標簽采集

注:更詳細的分析說明可以參考本手冊

操作指南 > 軟件操作 > 內容采集規則 > 標簽編輯

我們首先查看它的頁面源代碼,找到我們“標題”所在位置的代碼:

<title>導入Excle是跳出對話框~打開Excle出錯 - 火車采集器幫助中心</title>

分析得出: 開頭字符串為:<title>
結尾字符串為:</title>
數據處理——內容替換/排除:需要把- 火車采集器幫助中心 給替換為空

 

內容標簽的設置原理也是類似的,找到內容所在源碼中的位置

圖片7.png 

分析得出: 開頭字符串為:<div id="cmsContent">
結尾字符串為:</div>
數據處理——HTML標簽排除:把不需要的A鏈接等 過濾

圖片8.png 

再設置個“來源”字段

圖片9.png 

    這樣一個簡單的文章采集規則就做好了,不知道網友們學會了沒有呢,網頁抓取工具顧名思義是適用于網頁上的數據抓取,從上面的例子大家也可以看出,這類軟件主要是通過源代碼分析才解析數據的。這里還有一些情況是沒有列出的,比如登錄采集,使用代理采集等,如果對網頁抓取工具感興趣的可以登錄采集器官網自行學習一下。

掃碼關注微信
主站蜘蛛池模板: 日本黄色一级网站 | 99这里有精品 | 99久久精品国产一区二区成人 | 精品婷婷| 黄色一级大片在线免费看产 | 中文字幕一区二区视频 | 在线网站你懂的 | 桃色激情网 | 国产亚洲精品久久久 | 久久精品久 | 草久久久 | 精品一区二区三区日韩 | 激情宗合 | 天堂在线亚洲 | 在线看一区二区 | 91精品网| 国产97免费视频 | 91插插插影库永久免费 | 婷婷色影院 | 老鸭窝成人 | 男人的天堂欧美 | 在线中文字幕第一页 | 国产日韩欧美中文字幕 | 96精品国产| 四虎影院新网址 | 久久不雅视频 | 成人欧美一区 | 夜夜操夜夜操 | 国产精品色婷婷 | 毛片网站在线播放 | 九九热在线视频免费观看 | 国产专区在线播放 | 97超碰成人 | 日韩av片在线播放 | 国产欧美一区二区精品性色超碰 | 亚洲一级淫片 | 日韩中文字幕网 | 成人av片在线观看 | 成人公开免费视频 | 日韩av免费播放 | aaa日韩|