更新時(shí)間:2020年09月29日11時(shí)13分 來(lái)源:傳智播客 瀏覽次數(shù):
說(shuō)到Python中的開源爬蟲框架,Scrapy是最先被大家提及的,這是一個(gè)相對(duì)成熟的框架,有著豐富的文檔和開放的社區(qū)交流空間。相對(duì)于Scrapy來(lái)說(shuō),PySpider算是一個(gè)新秀,但是不容小覷。下面說(shuō)一下PySpider的具體特性:
1)Python腳本控制,可以用任何你喜歡的html解析包(內(nèi)置pyquery)。
2)Web界面編寫調(diào)試腳本、起停腳本、監(jiān)控執(zhí)行狀態(tài)、查看活動(dòng)歷史、獲取結(jié)果產(chǎn)出。
3)支持MySQL、MongoDB、Redis、SQLite等數(shù)據(jù)庫(kù)。
4)支持抓取JavaScript的頁(yè)面。
5)組件可替換,支持單機(jī)/分布式部署,支持Docker部署。
6)強(qiáng)大的調(diào)度控制。
7)支持RabbitMQ、Beanstalk、Redis和Kombu作為消息隊(duì)列。
Pyspider和Scrapy有什么區(qū)別?
從內(nèi)容上來(lái)說(shuō),兩者具有的功能差不多,但還是有一些不同:
·原生的Scrapy并不支持js渲染,需要單獨(dú)下載scrapy-splash進(jìn)行配置,而PySpider則支持phantomjs第三方渲染。 ·PySpider內(nèi)置pyquery選擇器,Scrapy有XPath和CSS選擇器。
·Scrapy全部采用命令行操作,PySpider有較好的WebUI,更加直觀。
·PySpider易于調(diào)試,Scrapy調(diào)試方式稍顯復(fù)雜,并不直觀。
·Scrapy擴(kuò)展性更強(qiáng),可以自定義功能,PySpider這方面稍顯不足。
以上兩種框架各有各的風(fēng)格,總體來(lái)說(shuō)PySpider使用更加簡(jiǎn)單,可以快速上手,適合工程化生產(chǎn)爬蟲,而Scrapy適合用來(lái)進(jìn)行二次開發(fā),根據(jù)項(xiàng)目需求進(jìn)行自定義拓展。
猜你喜歡:
北京校區(qū)