新聞中心
這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
使用pythoncookie實(shí)現(xiàn)反爬處理-創(chuàng)新互聯(lián)
這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)碛嘘P(guān)使用python cookie實(shí)現(xiàn)反爬處理,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
Cookies的處理
作用
保存客戶端的相關(guān)狀態(tài)
在爬蟲中如果遇到了cookie的反爬如何處理?
手動(dòng)處理
在抓包工具中捕獲cookie,將其封裝在headers中
應(yīng)用場(chǎng)景:cookie沒有有效時(shí)長(zhǎng)且不是動(dòng)態(tài)變化
自動(dòng)處理
使用session機(jī)制
使用場(chǎng)景:動(dòng)態(tài)變化的cookie
session對(duì)象:該對(duì)象和requests模塊用法幾乎一致.如果在請(qǐng)求的過程中產(chǎn)生了cookie,如果該請(qǐng)求使用session發(fā)起的,則cookie會(huì)被自動(dòng)存儲(chǔ)到session中.
案例
爬取雪球網(wǎng)中的新聞資訊數(shù)據(jù):https://xueqiu.com/
#獲取一個(gè)session對(duì)象 import requests headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36' } session = requests.Session() main_url = 'https://xueqiu.com' #推測(cè)對(duì)該url發(fā)起請(qǐng)求會(huì)產(chǎn)生cookie session.get(main_url,headers=headers) url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json' params = { 'since_id': '-1', 'max_id': '20346152', 'count': '15', 'category': '-1', } page_text = session.get(url,headers=headers,params=params).json() page_text
名稱欄目:使用pythoncookie實(shí)現(xiàn)反爬處理-創(chuàng)新互聯(lián)
URL標(biāo)題:http://fisionsoft.com.cn/article/ddpcio.html