最近2018中文字幕在日韩欧美国产成人片_国产日韩精品一区二区在线_在线观看成年美女黄网色视频_国产精品一区三区五区_国产精彩刺激乱对白_看黄色黄大色黄片免费_人人超碰自拍cao_国产高清av在线_亚洲精品电影av_日韩美女尤物视频网站

RELATEED CONSULTING
相關咨詢
選擇下列產(chǎn)品馬上在線溝通
服務時間:8:30-17:00
你可能遇到了下面的問題
關閉右側工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
python爬蟲中html轉換樹形結構的示例-創(chuàng)新互聯(lián)

這篇文章將為大家詳細講解有關python爬蟲中html轉換樹形結構的示例,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

創(chuàng)新互聯(lián)建站是專業(yè)的武寧網(wǎng)站建設公司,武寧接單;提供網(wǎng)站設計、成都網(wǎng)站建設,網(wǎng)頁設計,網(wǎng)站設計,建網(wǎng)站,PHP網(wǎng)站建設等專業(yè)做網(wǎng)站服務;采用PHP框架,可快速的進行武寧網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團隊,希望更多企業(yè)前來合作!

BeautifulSoup就是一個專門用來從html和xml文檔中提取數(shù)據(jù)的庫,現(xiàn)在的版本是bs4。除了BeautifulSoup之外,python還具有一些其它的庫,如HTMLParser等,作用都差不多。解析器結合正則表達式,很容易將我們所需要的內容提取出來。

首先安裝BeautifulSoup:

$pip install beautifulsoup4

在python環(huán)境下導入字符串,創(chuàng)建BeautifulSoup對象:

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_str, 'lxml', from_encoding='utf-8')
  • BeautifulSoup可以將復雜的html文檔轉化成樹形結構,每個節(jié)點都是pyhton對象,所有的對象可以歸納為4種:


  • Tag

  • NavigableString

  • BeautifulSoup

  • Comment

HtmlParser將要接收一個字符串,輸出data和新采集到的一些urls。之前寫過的add_new_urls()函數(shù)接受一個可迭代對象,所以這里新的urls我們采用集合的形式(也可采用列表的形式)返回,data采用字典的形式存儲并返回。

此外,我們觀察到,詞條內容中含有的鏈接為"/item/..."的形式,這并不是一個完整的url,要在前面加上“https://baike.baidu.com”進行補全,利用urlparse模塊可以很方便地完成這個任務(當然也可以使用拼接字符串的方式)。

下面就是HtmlParser的完整代碼:

'''
-----------------------------------------------------------------
HtmlParser
'''
import re    #正則表達式模塊
import urlparse    #用來拼接url
from bs4 import BeautifulSoup
 
class HtmlParser(object):
    def parser(self, page_url, html_cont):
        '''
        解析器主函數(shù)
        parm page_url:一個url
        parm html_cont:網(wǎng)頁內容,格式為字符串
        return: urls, 數(shù)據(jù);格式為 set, dict
        '''
        if page_url is None or html_cont is None:
            print "page_url is None"
            return
        #建立bs對象,使用html.parser進行解析
        soup = BeautifulSoup(html_cont, 'html.parser', from_encoding='urf-8')
        print "soup established"
        #接下來分別調用兩個私有函數(shù)返回urls和data
        new_urls = self._get_new_urls(page_url, soup)
        print "new_urls get"
        new_data = self._get_new_data(page_url, soup)
        print "new_data get"
        return new_urls, new_data
 
    def _get_new_urls(self, page_url, soup):
        '''
        從頁面中抽取指向其他詞條的鏈接
        parm page_url: 當前頁面url
        parm soup: beautifulsoup對象
        return: 新url的set
        '''
        new_urls = set()
        #根據(jù)正則表達式規(guī)則對頁面內的鏈接進行篩選,留下想要的鏈接
        links = soup.find_all('a', href=re.compile(r'/item/.+'))
        for link in links:
            #每個link都是Tag對象,Tag對象的操作方法與字典相同
            new_url = link['href']
            #借助urljoin,可以很方便地拼接url
            new_full_url = urlparse.urljoin(page_url, new_url)
            new_urls.add(new_full_url)
        return new_urls
 
    def _get_new_data(self, page_url, soup):
        '''
        提取想要的數(shù)據(jù)
        parm page_url: 當前頁面url
        parm soup: beautifulsoup對象
        return: dict
        '''
        #聲明字典
        data = {}
        data['url'] = page_url
        data['title'] = soup.find('dd', class_='lemmaWgt-lemmaTitle-title').find('h2').get_text()
        data['summary'] = soup.find('div', class_='lemma-summary').get_text()
 
        return data

關于python爬蟲中html轉換樹形結構的示例就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。


本文題目:python爬蟲中html轉換樹形結構的示例-創(chuàng)新互聯(lián)
文章來源:http://fisionsoft.com.cn/article/hhicc.html