新聞中心
你是如何開始寫python爬蟲的?
這個(gè)問題我會(huì),本蛋之前在網(wǎng)易做個(gè)三個(gè)月的爬蟲實(shí)習(xí)生,自己用爬蟲接的外包也掙了小幾千塊錢。對(duì)于爬蟲的學(xué)習(xí)方面自己也是有一定的心得,接下來就從幾個(gè)方面簡單的介紹一下爬蟲學(xué)習(xí)的路線。

創(chuàng)新互聯(lián)建站主要從事成都網(wǎng)站制作、成都網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計(jì)、企業(yè)做網(wǎng)站、公司建網(wǎng)站等業(yè)務(wù)。立足成都服務(wù)瑯琊,10多年網(wǎng)站建設(shè)經(jīng)驗(yàn),價(jià)格優(yōu)惠、服務(wù)專業(yè),歡迎來電咨詢建站服務(wù):18982081108
磨刀不誤砍柴功
萬丈高樓平地起,磨刀不誤砍柴功。要想學(xué)習(xí)好爬蟲,一定要用良好的python基礎(chǔ),所以爬蟲學(xué)習(xí)的第一步是先磊實(shí)基礎(chǔ)。關(guān)于python的入門課程也有很多,可以上去B站上邊白嫖,隨便找個(gè)觀看數(shù)比較多的看就可以咯??吹酱蟾胖涝趺从胮ymysql啥的鏈接數(shù)據(jù)庫基本上就可以咯。當(dāng)然,正則表達(dá)式是重點(diǎn),后邊解析網(wǎng)頁內(nèi)容的時(shí)候會(huì)經(jīng)常用到。
requests
python中標(biāo)準(zhǔn)的爬蟲庫有urllib,但是一般推薦新手用第三方請(qǐng)求庫requests,因?yàn)閡rllib的接口調(diào)用真是星號(hào)比的繁瑣,requests對(duì)其進(jìn)行了進(jìn)一步的封裝,讓你加請(qǐng)求頭、使用代理IP的更加方便。
數(shù)據(jù)爬下來后還要進(jìn)行進(jìn)一步的解析,解析方面如果是json格式的數(shù)據(jù)直接用json庫loads,再用鍵值對(duì)方式提取出來即可。如果包含很多標(biāo)簽,那么就要掌握一下bs4和xpath的用法,這邊強(qiáng)烈建議熟悉xpath的開發(fā)文檔,對(duì)后邊使用框架有極大的幫助。
scrapy框架
學(xué)習(xí)完requests后可以進(jìn)一步學(xué)習(xí)一下scrapy框架的用法。scrapy也不難,就簡單的分為請(qǐng)求隊(duì)列、調(diào)度器、中間件等等五個(gè)部分。主要是希望你能夠深刻的去理解settings文件里邊每一個(gè)開關(guān)的作用,對(duì)你的爬蟲項(xiàng)目開發(fā)會(huì)起到很大的幫助,不管是限速、并發(fā)、分布式啥的,都挺好。
https,tcp
學(xué)習(xí)的過程中,可以穿插http、tcp方面的知識(shí)。所以的網(wǎng)絡(luò)交互都是用一個(gè)個(gè)請(qǐng)求所組成的。前端再花里胡哨的功能,都是背后一串請(qǐng)求在支持。研讀http和tcp的知識(shí)可以讓你更加透徹的理解請(qǐng)求。當(dāng)然,這些知識(shí)也是面試的高頻考點(diǎn),學(xué)好了百利而無一害。
總而言之,爬蟲學(xué)習(xí)可以大概分成兩部分,第一部分python基礎(chǔ),可以B站自己找視頻看看,第二部分爬蟲學(xué)習(xí),推薦崔慶才的爬蟲書,書上關(guān)于爬蟲的知識(shí)應(yīng)有盡有,啃完那一本書基本上就可以對(duì)爬蟲所涉及到的方方面面有一個(gè)比較全面的理解。至于js逆向啥的,以后再說。有問題的小伙伴可以私信找我交流!
因?yàn)檠芯可A段主要的方向是數(shù)據(jù)挖掘方向,需要從網(wǎng)上獲取大量的數(shù)據(jù),如果一頁一頁的手動(dòng)復(fù)制的化,不知道到何年何月了,所以慢慢開始接觸到python爬蟲,我大概介紹一下自己的學(xué)習(xí)歷程吧:
1.首先要有一定的python基礎(chǔ),環(huán)境要熟悉,基本的語法和包也要會(huì)使用,至于python基礎(chǔ)教程,網(wǎng)上很多,有視頻也有pdf的,這個(gè)因人而異,我入門主要學(xué)習(xí)的是《python基礎(chǔ)教程》這本書,對(duì)應(yīng)的是python2,這本書寫的比較全面,介紹的也比較詳細(xì),只要認(rèn)認(rèn)真真的跟著書學(xué)習(xí),一邊練習(xí)代碼,很快就能熟悉python基礎(chǔ),掌握基本知識(shí)和常見包的使用。
2.對(duì)網(wǎng)頁基本知識(shí)也要有一定了解,像html,css,javascript等,沒必要精通它們,但是最起碼得了解一二,要爬的數(shù)據(jù)都在網(wǎng)頁中,你對(duì)網(wǎng)頁一點(diǎn)都不了解,這根本就不行,至于這些入門的東西,你可以在網(wǎng)上搜搜,我推薦http://www.w3school.com.cn/,介紹的很全面:
3.然后就是一些爬蟲基本包的使用,像urllib,urllib2,requests,bs4等,這些教程,網(wǎng)上都有,官方也有詳細(xì)的文檔說明,你可以試著爬取一些比較簡單的網(wǎng)頁,像糗百等。
4.在爬取有些網(wǎng)頁的過程中,你會(huì)發(fā)現(xiàn)莫名的程序就中斷,連接不上服務(wù)器,這就是反爬機(jī)制,許多網(wǎng)站都對(duì)爬蟲做了限制,短時(shí)間內(nèi)多次爬取,就會(huì)禁掉IP,所以你得設(shè)置IP代理池,來回切換IP,保證程序正常進(jìn)行,在這過程中你得需要了解常見反爬機(jī)制,對(duì)癥下藥,做到盡可能不被服務(wù)器發(fā)現(xiàn)。
5.熟悉爬取基本網(wǎng)頁后,就可以試著爬取比較大型網(wǎng)站的數(shù)據(jù)了,像某寶數(shù)據(jù)等,在這過程中你可能會(huì)發(fā)現(xiàn)有些數(shù)據(jù)不在網(wǎng)頁中,這就是異步加載,你就需要抓包分析數(shù)據(jù),獲取真實(shí)的數(shù)據(jù)URL,才能進(jìn)行爬取。
6.基本爬蟲包了解后,你會(huì)發(fā)現(xiàn)每次爬數(shù)據(jù)都需要自己構(gòu)建代碼,組織結(jié)構(gòu),很麻煩,這時(shí)你就需要學(xué)習(xí)scrapy框架,專門為爬蟲做的一個(gè)框架,做起爬蟲來,速度快了不少。
看視頻的效果挺不錯(cuò)的,很多知識(shí)點(diǎn)通過視頻的形式展現(xiàn)出來,會(huì)更加的形象。從功能需求的分析,到代碼的實(shí)現(xiàn),調(diào)試以及最后的功能實(shí)現(xiàn),都是動(dòng)態(tài)實(shí)現(xiàn)的,理解起來會(huì)更加的容易。在學(xué)習(xí)的過程中,做好筆記,多練習(xí),跟著老師的思路走,然后再根據(jù)自己的思路去實(shí)現(xiàn),把遇到的問題都總結(jié)下來,方便以后復(fù)習(xí);
了解過 “ 如鵬網(wǎng) ”的Python 課程體系,可以參考一下,挺詳細(xì)的;
第一部分:Python 語言基礎(chǔ)
第二部分:數(shù)據(jù)庫開發(fā)
第三部分:web前端
第四部分:Python web開發(fā)
這個(gè)問題也考慮了一段時(shí)間了,以下為個(gè)人觀點(diǎn):
1.首先學(xué)習(xí)一本python的書籍,《python基礎(chǔ)教程第二版》,首先了解python的基本語法,對(duì)python有一個(gè)基礎(chǔ)的認(rèn)識(shí),在有python的基礎(chǔ)上,可以學(xué)習(xí)python2.7或者python3.4版本,最好學(xué)習(xí)高版本的,畢竟高版本對(duì)低版本有優(yōu)化。
2.python環(huán)境的搭建,目前使用的環(huán)境有windows,linux,mac等系統(tǒng),平常windows系統(tǒng)使用往往比較多,python環(huán)境的搭建也比較簡單,首先下載一個(gè)python的安裝包,在官網(wǎng)上有下載包可以獲取,像安裝軟件一樣進(jìn)行安裝,安裝完成后,最好再配置環(huán)境變量,在命令行中可以使用python
3.下載一款python的編輯軟件,推薦使用pycharm,有好的編程風(fēng)格,可以檢驗(yàn)很多的編程中的錯(cuò)誤,是一個(gè)很好的編輯軟件,用來編譯python的編碼和檢驗(yàn)
4.安裝下pip軟件,這款軟件用來下載python的模塊非常快,需要配置,可以下載到python模塊
5.學(xué)習(xí)一本關(guān)于爬蟲方面的書籍,這種書籍一般都會(huì)對(duì)爬蟲有詳細(xì)的介紹,很容易入門
到此,以上就是小編對(duì)于mongodb的增刪改查語句的問題就介紹到這了,希望這1點(diǎn)解答對(duì)大家有用。
網(wǎng)頁名稱:mongodb的增刪改查代碼怎么寫
文章位置:http://fisionsoft.com.cn/article/cojpdhd.html


咨詢
建站咨詢
