新聞中心
小編給大家分享一下python怎么通過(guò)文本文件限制爬蟲(chóng),相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
我們最近講過(guò)的一些限制爬蟲(chóng)方法,都需要自己手動(dòng)輸入代碼進(jìn)行調(diào)試。根據(jù)我們學(xué)過(guò)的插件安裝,是不是在python爬蟲(chóng)中也有類(lèi)似簡(jiǎn)便的辦法,能輕松地起到阻攔的作用呢?小編想說(shuō)有一種文本文件的方法正好符合python初學(xué)者的安裝需求,接下來(lái)我們就robots.txt進(jìn)行簡(jiǎn)單介紹以及其限制爬蟲(chóng)的方法。
robots.txt(統(tǒng)一小寫(xiě))是一種存放于網(wǎng)站根目錄下的ASCII編碼的文本文件,它通常告訴網(wǎng)絡(luò)搜索引擎的漫游器(又稱(chēng)網(wǎng)絡(luò)蜘蛛),此網(wǎng)站中的哪些內(nèi)容是不應(yīng)被搜索引擎的漫游器獲取的,哪些是可以被漫游器獲取的。因?yàn)橐恍┫到y(tǒng)中的URL是大小寫(xiě)敏感的,所以robots.txt的文件名應(yīng)統(tǒng)一為小寫(xiě)。robots.txt應(yīng)放置于網(wǎng)站的根目錄下。如果想單獨(dú)定義搜索引擎的漫游器訪問(wèn)子目錄時(shí)的行為,那么可以將自定的設(shè)置合并到根目錄下的robots.txt,或者使用robots元數(shù)據(jù)(Metadata,又稱(chēng)元數(shù)據(jù))。
robots.txt協(xié)議并不是一個(gè)規(guī)范,而只是約定俗成的,所以并不能保證網(wǎng)站的隱私。注意robots.txt是用字符串比較來(lái)確定是否獲取URL,所以目錄末尾有與沒(méi)有斜杠“/”表示的是不同的URL。robots.txt允許使用類(lèi)似"Disallow: *.gif"這樣的通配符。
itunes的robots.txt
缺點(diǎn):
只是一個(gè)君子協(xié)議,對(duì)于良好的爬蟲(chóng)比如搜索引擎有效果,對(duì)于有目的性的爬蟲(chóng)不起作用
以上是“python怎么通過(guò)文本文件限制爬蟲(chóng)”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!
分享文章:python怎么通過(guò)文本文件限制爬蟲(chóng)-創(chuàng)新互聯(lián)
文章來(lái)源:http://fisionsoft.com.cn/article/deeoih.html