成人性生活视频免费看_成人免费视频91_无码粉嫩虎白一线天在线观看_wwwcom黄色_91精品国产91久久久久麻豆 主演_91免费黄视频

網(wǎng)頁抓取工具:一個簡單的文章采集示例

2017-02-16 11:51:13 瀏覽:12596

  通過采集網(wǎng)頁抓取工具火車采集器官網(wǎng)的faq為例來說明采集器采集的原理和過程。
    本例以 http://faq.locoy.com/qc-12.html 演示地址,以火車采集器V9為工具進行示例說明。

(1)新建個采集規(guī)則

選擇一個分組上右擊,選擇“新建任務”,如下圖:

圖片1.png

分析網(wǎng)址變量規(guī)律(2)添加起始網(wǎng)址
在這里我們需要采集 5頁數(shù)據(jù)。

第一頁地址:http://faq.locoy.com/qc-12.html?p=1

第二頁地址:http://faq.locoy.com/qc-12.html?p=2

第三頁地址:http://faq.locoy.com/qc-12.html?p=3

由此我們可以推算出p=后的數(shù)字就是分頁的意思,我們用[地址參數(shù)]表示:

所以設置如下:

圖片2.png

數(shù)字變化:從1開始,即第一頁;每次遞增1,即每次分頁的變化規(guī)律數(shù)字; 共5項,即一共采集5頁。地址格式:把變化的分頁數(shù)字用[地址參數(shù)]表示。

預覽:采集器會按照上面設置的生成一部分網(wǎng)址,讓你來判讀添加的是否正確。

然后確定即可

(3)[常規(guī)模式]獲取內(nèi)容網(wǎng)址
常規(guī)模式:該模式默認抓取一級地址,即從起始頁源代碼中獲取到內(nèi)容頁A鏈接。

在這里給大家演示用 自動獲取地址鏈接 +設置區(qū)域 的 方式來獲取。

查看頁面源代碼找到文章地址所在的區(qū)域:

圖片3.png

注:更詳細的分析說明可以參考本手冊:設置如下:

操作指南 > 軟件操作 > 網(wǎng)址采集規(guī)則 > 獲取內(nèi)容網(wǎng)址


圖片4.png

點擊網(wǎng)址采集測試,看看測試效果

圖片5.png

(3)內(nèi)容采集網(wǎng)址http://faq.locoy.com/q-1184.html 為例講解標簽采集

注:更詳細的分析說明可以下載參考官網(wǎng)的用戶手冊。

操作指南 > 軟件操作 > 內(nèi)容采集規(guī)則 > 標簽編輯

我們首先查看它的頁面源代碼,找到我們“標題”所在位置的代碼:

<title>導入Excle是跳出對話框~打開Excle出錯 - 火車采集器幫助中心</title>

分析得出: 開頭字符串為:<title>
結尾字符串為:</title>
數(shù)據(jù)處理——內(nèi)容替換/排除:需要把- 火車采集器幫助中心 給替換為空

圖片6.png

圖片7.png

分析得出: 開頭字符串為:<div id="cmsContent">內(nèi)容標簽的設置原理也是類似的,找到內(nèi)容所在源碼中的位置

結尾字符串為:</div>
數(shù)據(jù)處理——HTML標簽排除:把不需要的A鏈接等過濾


圖片8.png

再設置個“來源”字段

圖片9.png

這樣一個簡單的文章采集規(guī)則就做好了,使用通用的網(wǎng)頁抓取工具火車采集器并按照這個示例的步驟就可以進行其它類型數(shù)據(jù)采集的擴展啦。

掃碼關注微信
主站蜘蛛池模板: 久久色在线观看 | 91在线入口 | 国产视频一区二区在线观看 | 久久久久无码国产精品一区 | 国产黄色片免费 | 国产成人精品视频在线 | 久久人| 免费看黄色一级片 | 97蜜桃网 | 18性xxxxx性猛交 | 特黄特色大片bbbb | 成人免费毛片果冻 | a天堂在线观看视频 | 国产精品久久777777毛茸茸 | 国产无限资源 | 亚洲欧美国产毛片在线 | 成人毛片在线视频 | 国产又粗又长免费视频 | 欧美乱妇狂野欧美视频 | 五月伊人婷婷 | 午夜国产一区二区 | 亚欧洲精品在线视频免费观看 | 在线视频亚洲 | 欧美黄色激情视频 | 天堂网久久 | 国产免费成人av | 丁香在线 | 99视频在线精品免费观看2 | 在线观看av的网站 | 在线久久 | 亚洲免费视频观看 | 福利在线看 | 亚洲国内精品 | 黄色a级片| 中文字幕日本视频 | 人人干人人爱 | 51.cc网站入口永久入口 | av毛片在线看 | av一区在线播放 | 婷婷视频在线播放 | 成人免费区一区二区三区 |