最近2018中文字幕在日韩欧美国产成人片_国产日韩精品一区二区在线_在线观看成年美女黄网色视频_国产精品一区三区五区_国产精彩刺激乱对白_看黄色黄大色黄片免费_人人超碰自拍cao_国产高清av在线_亚洲精品电影av_日韩美女尤物视频网站

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
Python爬蟲中Xpath指的是什么-創(chuàng)新互聯(lián)

創(chuàng)新互聯(lián)www.cdcxhl.cn八線動(dòng)態(tài)BGP香港云服務(wù)器提供商,新人活動(dòng)買多久送多久,劃算不套路!

10年的洋縣網(wǎng)站建設(shè)經(jīng)驗(yàn),針對(duì)設(shè)計(jì)、前端、開發(fā)、售后、文案、推廣等六對(duì)一服務(wù),響應(yīng)快,48小時(shí)及時(shí)工作處理。全網(wǎng)整合營(yíng)銷推廣的優(yōu)勢(shì)是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同,自動(dòng)調(diào)整洋縣建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調(diào)整網(wǎng)站的寬度,無(wú)論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設(shè)計(jì),從而大程度地提升瀏覽體驗(yàn)。成都創(chuàng)新互聯(lián)從事“洋縣網(wǎng)站設(shè)計(jì)”,“洋縣網(wǎng)站推廣”以來(lái),每個(gè)客戶項(xiàng)目都認(rèn)真落實(shí)執(zhí)行。

Python爬蟲中Xpath指的是什么?這個(gè)問(wèn)題可能是我們?nèi)粘W(xué)習(xí)或工作經(jīng)常見到的。希望通過(guò)這個(gè)問(wèn)題能讓你收獲頗深。下面是小編給大家?guī)?lái)的參考內(nèi)容,讓我們一起來(lái)看看吧!

xpath簡(jiǎn)介

前面介紹了這么多種解析網(wǎng)頁(yè)的方式,今天再來(lái)介紹一種xpath,

XPath即為XML路徑語(yǔ)言(XML Path Language),它是一種用來(lái)確定XML文檔中某部分位置的語(yǔ)言。

它可以確定元素在XML中的位置,同樣我們也可以用它來(lái)獲取dom節(jié)點(diǎn)在html中的位置,就可以便利我們爬取數(shù)據(jù)

這是今天大概內(nèi)容的簡(jiǎn)介

Python爬蟲中Xpath指的是什么

我在這里也就不詳細(xì)介紹XPath的語(yǔ)法了,介紹一些我們夠用的就行,想了解自己去看API了:https://www.w3school.com.cn/xpath/index.asp

Python爬蟲中Xpath指的是什么

至于語(yǔ)法當(dāng)然可以不需要我們自己手動(dòng)寫,我們可以利用瀏覽器的工具,就哪CSND來(lái)舉例子,我要獲取左側(cè)導(dǎo)航‘程序人生’這個(gè)標(biāo)簽的xpath路徑。

首先要利用瀏覽器的元素選擇器,找到它的html位置

Python爬蟲中Xpath指的是什么

然后我們選擇我們要的元素右擊copy XPath

Python爬蟲中Xpath指的是什么

然后我們粘貼下來(lái)://*[@id=“nav”]/div/div/ul/li[3]

這就是程序人生的XPath路徑,然后我們就能根據(jù)這個(gè)來(lái)爬取它的這一整塊的信息了,后面我的案例就是這樣做的。

爬取51job招聘信息

案例就直接上代碼了,思路都大同小異,分析信息的頁(yè)面、頁(yè)碼、元素等等,然后寫代碼。

"""
爬取  51job 相關(guān)職位信息,并保存成cvs文件格式
"""
import requests
from lxml import etree
import csv
# csv后綴的格式就是excel文件打開的格式,我們等于是直接存入了excel中
import time
headers = {
    "User-Agent": "Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14"
}
f = open("java職位.cvs","w",newline="")
writer = csv.writer(f)
writer.writerow(['編號(hào)', '職位名稱', '公司名稱', '薪資', '地址', '發(fā)布時(shí)間'])
i = 1;
for page in range(1,159):
    requests_get = requests.get(
        f"https://search.51job.com/list/020000,000000,0000,00,9,99,java,2,{page}.html?lang=c&stype=&postchannel
        =0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius
        =-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=",
        headers=headers)
    requests_get.encoding="gbk"
    if requests_get.status_code == 200:
        html = etree.HTML(requests_get.text)
        els = html.xpath("http://div[@class='el']")[4:]
        for el in els:
            jobname = str(el.xpath("p[contains(@class,'t1')]/span/a/@title")).strip("[']")
            jobcom = str(el.xpath("span[@class='t2']/a/@titlr")).strip("[']")
            jobaddress = str(el.xpath("span[@class='t3']/text()")).strip("[']")
            jobsalary = str(el.xpath("span[@class='t4']/text()")).strip("[']")
            jobdate = str(el.xpath("span[@class='t5']/text()")).strip("[']")
            writer.writerow([i, jobname, jobcom, jobaddress, jobsalary, jobdate])
            i += 1
        print(f"第{page}頁(yè)獲取完畢")

最后存入excel中的樣子。

Python爬蟲中Xpath指的是什么

感謝各位的閱讀!看完上述內(nèi)容,你們對(duì)Python爬蟲中Xpath指的是什么大概了解了嗎?希望文章內(nèi)容對(duì)大家有所幫助。如果想了解更多相關(guān)文章內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道。


網(wǎng)站名稱:Python爬蟲中Xpath指的是什么-創(chuàng)新互聯(lián)
標(biāo)題來(lái)源:http://fisionsoft.com.cn/article/dsihsd.html