最近2018中文字幕在日韩欧美国产成人片_国产日韩精品一区二区在线_在线观看成年美女黄网色视频_国产精品一区三区五区_国产精彩刺激乱对白_看黄色黄大色黄片免费_人人超碰自拍cao_国产高清av在线_亚洲精品电影av_日韩美女尤物视频网站

RELATEED CONSULTING
相關咨詢
選擇下列產(chǎn)品馬上在線溝通
服務時間:8:30-17:00
你可能遇到了下面的問題
關閉右側工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
python反爬蟲中怎么躲避蜘蛛陷阱-創(chuàng)新互聯(lián)

這篇文章主要介紹了python反爬蟲中怎么躲避蜘蛛陷阱,具有一定借鑒價值,需要的朋友可以參考下。希望大家閱讀完這篇文章后大有收獲。下面讓小編帶著大家一起了解一下。

創(chuàng)新互聯(lián)公司堅持“要么做到,要么別承諾”的工作理念,服務領域包括:成都網(wǎng)站建設、網(wǎng)站制作、企業(yè)官網(wǎng)、英文網(wǎng)站、手機端網(wǎng)站、網(wǎng)站推廣等服務,滿足客戶于互聯(lián)網(wǎng)時代的遷西網(wǎng)站設計、移動媒體設計的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡建設合作伙伴!

Spider Trap

蜘蛛陷阱導致網(wǎng)絡爬蟲進入無限循環(huán)之類的東西,這會浪費蜘蛛的資源,降低其生產(chǎn)力,并且在編寫得不好的爬蟲的情況下,可能導致程序崩潰。禮貌蜘蛛在不同主機之間交替請求,并且不會每隔幾秒鐘從同一服務器請求多次文檔,這意味著“禮貌”網(wǎng)絡爬蟲比“不禮貌”爬蟲的影響程度要小得多。

反爬方式:

創(chuàng)建無限深度的目錄結構


HTTP://http://example.com/bar/foo/bar/foo/bar/foo/bar /

 動態(tài)頁面,為網(wǎng)絡爬蟲生成無限數(shù)量的文檔。如由算法生成雜亂的文章頁面。

文檔中填充了大量字符,使解析文檔的詞法分析器崩潰。

此外,帶蜘蛛陷阱的網(wǎng)站通常都有robots.txt告訴機器人不要進入陷阱,因此合法的“禮貌”機器人不會陷入陷阱,而忽視robots.txt設置的“不禮貌”機器人會受到陷阱的影響。

爬蟲方法:

把網(wǎng)頁按照所引用的css文件進行聚類,通過控制類里較大能包含的網(wǎng)頁數(shù)量防止爬蟲進入trap后出不來,對不含css的網(wǎng)頁會給一個penalty,限制它能產(chǎn)生的鏈接數(shù)量。這個辦法理論上不保證能避免爬蟲陷入死循環(huán),但是實際上這個方案工作得挺好,因為絕大多數(shù)網(wǎng)頁都使用了css,動態(tài)網(wǎng)頁更是如此。

缺點:

反爬方式1,2會增加很多無用目錄或文件,造成資源浪費,也對正常的SEO十分不友好,可能會被懲罰。

感謝你能夠認真閱讀完這篇文章,希望小編分享python反爬蟲中怎么躲避蜘蛛陷阱內(nèi)容對大家有幫助,同時也希望大家多多支持創(chuàng)新互聯(lián)網(wǎng)站建設公司,,關注創(chuàng)新互聯(lián)行業(yè)資訊頻道,遇到問題就找創(chuàng)新互聯(lián)網(wǎng)站建設公司,,詳細的解決方法等著你來學習!


網(wǎng)站欄目:python反爬蟲中怎么躲避蜘蛛陷阱-創(chuàng)新互聯(lián)
URL網(wǎng)址:http://fisionsoft.com.cn/article/cshsps.html