新聞中心

引言
用最短的時(shí)間寫一個(gè)最簡(jiǎn)單的爬蟲,可以抓一些簡(jiǎn)單的論壇、帖子、網(wǎng)頁。
入門
1.準(zhǔn)備工作
- 安裝Python
- 安裝scrapy框架
- 一個(gè)IDE或者可以用自帶的
2.開始寫爬蟲
在spiders文件夾中創(chuàng)建一個(gè)python文件,比如miao.py,來作為爬蟲的腳本。
代碼如下:
3.運(yùn)行一下
如果用命令行的話就這樣:
解析
1.試試神奇的xpath
2.看看xpath的效果
在最上面加上引用:
from scrapy import Selector
把parse函數(shù)改成:
我們?cè)俅芜\(yùn)行一下,你就可以看到輸出“壇星際區(qū)”***頁所有帖子的標(biāo)題和url了。
遞歸
完整的代碼如下:
Pipelines——管道
現(xiàn)在是對(duì)已抓取、解析后的內(nèi)容的處理,我們可以通過管道寫入本地文件、數(shù)據(jù)庫。
1.定義一個(gè)Item
在miao文件夾中創(chuàng)建一個(gè)items.py文件
這里我們定義了兩個(gè)簡(jiǎn)單的class用來描述我們爬取的結(jié)果。
2. 處理方法
3.在爬蟲中調(diào)用這個(gè)處理方法。
4.在配置文件里指定這個(gè)pipeline
可以這樣配置多個(gè)pipeline:
Middleware——中間件
1.Middleware的配置
2.破網(wǎng)站查UA, 我要換UA
這里就是一個(gè)簡(jiǎn)單的隨機(jī)更換UA的中間件,agents的內(nèi)容可以自行擴(kuò)充。
3.破網(wǎng)站封IP,我要用代理
結(jié)束
看懂了嗎 ?是不是超簡(jiǎn)單!
網(wǎng)頁標(biāo)題:從零開始的Python爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新
分享鏈接:http://fisionsoft.com.cn/article/dhppjdi.html


咨詢
建站咨詢
