最近2018中文字幕在日韩欧美国产成人片_国产日韩精品一区二区在线_在线观看成年美女黄网色视频_国产精品一区三区五区_国产精彩刺激乱对白_看黄色黄大色黄片免费_人人超碰自拍cao_国产高清av在线_亚洲精品电影av_日韩美女尤物视频网站

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
Python爬蟲中Headers的設(shè)置方法-創(chuàng)新互聯(lián)

這篇文章主要介紹Python爬蟲中Headers的設(shè)置方法,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!

專業(yè)領(lǐng)域包括成都網(wǎng)站建設(shè)、網(wǎng)站設(shè)計、商城開發(fā)、微信營銷、系統(tǒng)平臺開發(fā), 與其他網(wǎng)站設(shè)計及系統(tǒng)開發(fā)公司不同,成都創(chuàng)新互聯(lián)的整合解決方案結(jié)合了幫做網(wǎng)絡(luò)品牌建設(shè)經(jīng)驗和互聯(lián)網(wǎng)整合營銷的理念,并將策略和執(zhí)行緊密結(jié)合,為客戶提供全網(wǎng)互聯(lián)網(wǎng)整合方案。

首先,打開我們的瀏覽器,調(diào)試瀏覽器 F12,我用的是 Chrome,打開網(wǎng)絡(luò)監(jiān)聽,示意如下,比如知乎,點登錄之后,我們會發(fā)現(xiàn)登陸之后界面都變化了,出現(xiàn)一個新的界面,實質(zhì)上這個頁面包含了許許多多的內(nèi)容,這些內(nèi)容也不是一次性就加載完成的,實質(zhì)上是執(zhí)行了好多次請求,一般是首先請求 HTML 文件,然后加載 JS,CSS 等等,經(jīng)過多次請求之后,網(wǎng)頁的骨架和肌肉全了,整個網(wǎng)頁的效果也就出來了。

Python爬蟲中Headers的設(shè)置方法

拆分這些請求,我們只看一第一個請求,你可以看到,有個 Request URL,還有 headers,下面便是 response,圖片顯示得不全,小伙伴們可以親身實驗一下。那么這個頭中包含了許許多多是信息,有文件編碼啦,壓縮方式啦,請求的 agent 啦等等。 其中,agent 就是請求的身份,如果沒有寫入請求身份,那么服務(wù)器不一定會響應(yīng),所以可以在 headers 中設(shè)置 agent, 例如下面的例子,這個例子只是說明了怎樣設(shè)置的 headers,小伙伴們看一下設(shè)置格式就好。

import urllib  
import urllib2  
 
url = 'http://www.server.com/login'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  
values = {'username' : 'cqc',  'password' : 'XXXX' }  
headers = { 'User-Agent' : user_agent }  
data = urllib.urlencode(values)  
request = urllib2.Request(url, data, headers)  
response = urllib2.urlopen(request)  
page = response.read()

這樣,我們設(shè)置了一個 headers,在構(gòu)建 request 時傳入,在請求時,就加入了 headers 傳送,服務(wù)器若識別了是瀏覽器發(fā)來的請求,就會得到響應(yīng)。 另外,我們還有對付” 反盜鏈” 的方式,對付防盜鏈,服務(wù)器會識別 headers 中的 referer 是不是它自己,如果不是,有的服務(wù)器不會響應(yīng),所以我們還可以在 headers 中加入 referer 例如我們可以構(gòu)建下面的 headers

headers = { 'User-Agent' : 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  ,
                        'Referer':'http://www.zhihu.com/articles' }

同上面的方法,在傳送請求時把 headers 傳入 Request 參數(shù)里,這樣就能應(yīng)付防盜鏈了。 另外 headers 的一些屬性,下面的需要特別注意一下:

User-Agent : 有些服務(wù)器或 Proxy 會通過該值來判斷是否是瀏覽器發(fā)出的請求 Content-Type : 在使用 REST 接口時,服務(wù)器會檢查該值,用來確定 HTTP Body 中的內(nèi)容該怎樣解析。 application/xml : 在 XML RPC,如 RESTful/SOAP 調(diào)用時使用 application/json : 在 JSON RPC 調(diào)用時使用 application/x-www-form-urlencoded : 瀏覽器提交 Web 表單時使用 在使用服務(wù)器提供的 RESTful 或 SOAP 服務(wù)時, Content-Type 設(shè)置錯誤會導(dǎo)致服務(wù)器拒絕服務(wù)


 其他的有必要的可以審查瀏覽器的 headers 內(nèi)容,在構(gòu)建時寫入同樣的數(shù)據(jù)即可。

以上是Python爬蟲中Headers的設(shè)置方法的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對大家有幫助,更多相關(guān)知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!


新聞標(biāo)題:Python爬蟲中Headers的設(shè)置方法-創(chuàng)新互聯(lián)
本文鏈接:http://fisionsoft.com.cn/article/dpseps.html