教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

通用爬蟲和聚焦爬蟲介紹【Python技術文章】

更新時間:2021年06月09日14時52分 來源:傳智教育 瀏覽次數:

傳智教育-一樣的教育,不一樣的品質

根據使用場景,網絡爬蟲可分為通用爬蟲和聚焦爬蟲兩種。通用爬蟲是捜索引擎抓取系統(tǒng)(Baidu、Google、Yahoo等)的重要組成部分,主要目的是將互聯(lián)網上的網頁下載到本地,形成一個互聯(lián)網內容的鏡像備份。聚焦爬蟲,是“面向特定主題需求”的一種網絡爬蟲程序。接下來,就對這兩種爬蟲分別進行介紹。

1. 通用爬蟲

通用爬蟲又稱全網爬蟲(Scalable Web Crawler),它將爬取對象從一些種子 URL擴充到整個Web上的網站,主要用途是為門戶站點搜索引擎和大型Web服務提供商采集數據。

這類網絡爬蟲的爬行范圍和數量巨大,對于爬行速度和存儲空間要求較高,對于爬行頁面的順序要求相對較低,同時由于待刷新的頁面太多,通常采用并行工作方式,但需要較長時間才能刷新一次頁面。

2. 聚焦爬蟲

聚焦爬蟲(Focused Crawler),又稱主題網絡爬蟲(Topical Crawler),是指選擇性地爬行那些與預先定義好的主題相關的頁面的網絡爬蟲。

和通用爬蟲相比,聚焦爬蟲只需要爬行與主題相關的頁面,從而極大地節(jié)省了硬件和網絡資源,保存的頁面也由于數量少而更新快,還可以很好地滿足一些特定人群對特定領域信息的需求。



猜你喜歡:

多線程爬蟲是什么?多線程爬蟲流程分析

Python爬蟲支持的網頁解析技術有哪些?

【Python面經題】爬蟲數據為什么選擇Mongodb存儲?

傳智教育python+大數據開發(fā)培訓

0 分享到:
和我們在線交談!