好看的课外书,小说阅读网

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷(xiāo)解決方案

python怎么通過(guò)文本文件限制爬蟲(chóng)-創(chuàng)新互聯(lián)

小編給大家分享一下python怎么通過(guò)文本文件限制爬蟲(chóng)，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

細(xì)河網(wǎng)站制作公司哪家好，找創(chuàng)新互聯(lián)公司！從網(wǎng)頁(yè)設(shè)計(jì)、網(wǎng)站建設(shè)、微信開(kāi)發(fā)、APP開(kāi)發(fā)、成都響應(yīng)式網(wǎng)站建設(shè)公司等網(wǎng)站項(xiàng)目制作，到程序開(kāi)發(fā)，運(yùn)營(yíng)維護(hù)。創(chuàng)新互聯(lián)公司于2013年創(chuàng)立到現(xiàn)在10年的時(shí)間，我們擁有了豐富的建站經(jīng)驗(yàn)和運(yùn)維經(jīng)驗(yàn)，來(lái)保證我們的工作的順利進(jìn)行。專(zhuān)注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)公司。

我們最近講過(guò)的一些限制爬蟲(chóng)方法，都需要自己手動(dòng)輸入代碼進(jìn)行調(diào)試。根據(jù)我們學(xué)過(guò)的插件安裝，是不是在python爬蟲(chóng)中也有類(lèi)似簡(jiǎn)便的辦法，能輕松地起到阻攔的作用呢？小編想說(shuō)有一種文本文件的方法正好符合python初學(xué)者的安裝需求，接下來(lái)我們就robots.txt進(jìn)行簡(jiǎn)單介紹以及其限制爬蟲(chóng)的方法。

robots.txt（統(tǒng)一小寫(xiě)）是一種存放于網(wǎng)站根目錄下的ASCII編碼的文本文件，它通常告訴網(wǎng)絡(luò)搜索引擎的漫游器（又稱(chēng)網(wǎng)絡(luò)蜘蛛），此網(wǎng)站中的哪些內(nèi)容是不應(yīng)被搜索引擎的漫游器獲取的，哪些是可以被漫游器獲取的。因?yàn)橐恍┫到y(tǒng)中的URL是大小寫(xiě)敏感的，所以robots.txt的文件名應(yīng)統(tǒng)一為小寫(xiě)。robots.txt應(yīng)放置于網(wǎng)站的根目錄下。如果想單獨(dú)定義搜索引擎的漫游器訪問(wèn)子目錄時(shí)的行為，那么可以將自定的設(shè)置合并到根目錄下的robots.txt，或者使用robots元數(shù)據(jù)（Metadata，又稱(chēng)元數(shù)據(jù)）。

robots.txt協(xié)議并不是一個(gè)規(guī)范，而只是約定俗成的，所以并不能保證網(wǎng)站的隱私。注意robots.txt是用字符串比較來(lái)確定是否獲取URL，所以目錄末尾有與沒(méi)有斜杠“/”表示的是不同的URL。robots.txt允許使用類(lèi)似"Disallow: *.gif"這樣的通配符。

itunes的robots.txt

python怎么通過(guò)文本文件限制爬蟲(chóng)

缺點(diǎn)：

只是一個(gè)君子協(xié)議，對(duì)于良好的爬蟲(chóng)比如搜索引擎有效果，對(duì)于有目的性的爬蟲(chóng)不起作用

以上是“python怎么通過(guò)文本文件限制爬蟲(chóng)”這篇文章的所有內(nèi)容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內(nèi)容對(duì)大家有所幫助，如果還想學(xué)習(xí)更多知識(shí)，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道！

分享文章：python怎么通過(guò)文本文件限制爬蟲(chóng)-創(chuàng)新互聯(lián)
文章來(lái)源：http://fisionsoft.com.cn/article/deeoih.html

新聞中心

其他資訊