久久久精品一区ed2k-女人被男人叉到高潮的视频-中文字幕乱码一区久久麻豆樱花-俄罗斯熟妇真实视频

<strike id="a4aya"></strike>

<dl id="a4aya"><nav id="a4aya"></nav></dl>

在Scrapy中如何利用Xpath選擇器從HTML中提取目標信息（兩種方式）

前一陣子我們介紹了如何啟動Scrapy項目以及關(guān)于Scrapy爬蟲的一些小技巧介紹，沒來得及上車的小伙伴可以戳這些文章：

成都創(chuàng)新互聯(lián)主營南京網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司,主營網(wǎng)站建設(shè)方案,成都app軟件開發(fā)公司,南京h5小程序設(shè)計搭建,南京網(wǎng)站營銷推廣歡迎南京等地區(qū)企業(yè)咨詢

手把手教你如何新建scrapy爬蟲框架的第一個項目（上）

手把手教你如何新建scrapy爬蟲框架的第一個項目（下）

關(guān)于Scrapy爬蟲項目運行和調(diào)試的小技巧（上篇）

關(guān)于Scrapy爬蟲項目運行和調(diào)試的小技巧（下篇）

今天我們將介紹在Scrapy中如何利用Xpath選擇器從HTML中提取目標信息。在Scrapy中，其提供了兩種數(shù)據(jù)提取的方式，一種是Xpath選擇器，一種是CSS選擇器，這一講我們先聚焦Xpath選擇器，仍然是以伯樂在線網(wǎng)為示例網(wǎng)站。

在Scrapy中如何利用Xpath選擇器從HTML中提取目標信息（兩種方式）

1、?打開網(wǎng)站，然后隨機選擇任意一篇文章進行查看，如下圖所示。

在Scrapy中如何利用Xpath選擇器從HTML中提取目標信息（兩種方式）

我們需要提取的信息主要有標題、日期、主題、評論數(shù)、正文等等。

2、接下來我們就可以開始寫代碼了，基礎(chǔ)代碼如下圖所示，需要注意的是start_urls參數(shù)值改為了具體的URL，其他的代碼未發(fā)生改變。

在Scrapy中如何利用Xpath選擇器從HTML中提取目標信息（兩種方式）

3、回到原始網(wǎng)頁，按下鍵盤的快捷鍵F12或者在網(wǎng)頁上點擊鼠標右鍵，然后選擇“檢查(N)”彈出網(wǎng)頁的調(diào)試界面，如下圖所示。

在Scrapy中如何利用Xpath選擇器從HTML中提取目標信息（兩種方式）

4、點擊下圖中紅色框框的小圖標，可以實現(xiàn)網(wǎng)頁數(shù)據(jù)和源碼之間的交互，可以很方便的幫助我們定位標簽。

在Scrapy中如何利用Xpath選擇器從HTML中提取目標信息（兩種方式）

5、如下圖所示，當我們選擇上圖中的小圖標之后，再選擇網(wǎng)頁上的標題，爾后網(wǎng)頁源碼會自動跳轉(zhuǎn)到我們定位的部分，可以看到標題在

標簽下。

在Scrapy中如何利用Xpath選擇器從HTML中提取目標信息（兩種方式）

6、爾后我們就可以根據(jù)上圖中的網(wǎng)頁層次結(jié)構(gòu)寫出標題的Xpath表達式，這里先提供一種比較笨的方法，從頭到尾進行羅列的寫，“/html/body/div[1]/div[3]/div[1]/div[1]/h2”，有沒有發(fā)現(xiàn)灰常的辛苦，像這種大標題信息還比較好提取一些，若是碰到犄角旮旯的信息，就比較難寫表達式了，而且這種方式容易出錯，效率還低。不過小伙伴們不用灰心，瀏覽器給我們提供了一個便捷的方式，讓我們可以直接復(fù)制Xpath表達式。在標題處或者目標信息處右鍵，然后選擇“Copy”，再選擇“Copy Xpath”即可進行復(fù)制該標簽的Xpath表達式，具體過程如下圖所示。

在Scrapy中如何利用Xpath選擇器從HTML中提取目標信息（兩種方式）

可以看到復(fù)制的Xpath表達式為“//*[@id="post-113659"]/div[1]/h2”，其中id="post-113659"是屬于這篇文章的一個標識，如下圖所示。

在Scrapy中如何利用Xpath選擇器從HTML中提取目標信息（兩種方式）

通過該標識我們就可以很快的定位到標簽，其與我們用笨方法手動寫出來的Xpath表達式有時候并不是一致的。下面將兩個Xpath表達式所匹配的內(nèi)容分別進行輸出。

7、將Xpath表達式寫入Scrapy爬蟲主體文件中，爾后Debug我們之前定義的main.py文件，將會得到下圖的輸出?？梢钥吹絪elector1和selector2中的數(shù)據(jù)即是網(wǎng)頁上的內(nèi)容，而且內(nèi)容是一致的。

在Scrapy中如何利用Xpath選擇器從HTML中提取目標信息（兩種方式）

之后點擊停止Debug模式，便可以退出Debug模式。

8、從上圖中我們可以看到選擇器將標簽

也都取出來了，而我們想要取的內(nèi)容僅僅是標簽內(nèi)部的數(shù)據(jù)，此時只需要使用在Xpath表達式后邊加入text()函數(shù)，便可以將其中的數(shù)據(jù)進行取出。

在Scrapy中如何利用Xpath選擇器從HTML中提取目標信息（兩種方式）

通過這篇文章，我們可以了解到盡管我們自己寫出的Xpath表達式和瀏覽器給我們返回的Xpath表達式在寫法上并不一致，但是程序運行之后，其返回的數(shù)據(jù)內(nèi)容是一致的。換句話說，關(guān)于某個目標數(shù)據(jù)的Xpath表達式并不是唯一的，只要符合Xpath表達式語法，即便是寫的很短，也是沒問題的，你開心就好。此外在Scrapy爬蟲框架中，text()函數(shù)常常與Xpath表達式運用在一塊，用于提取節(jié)點中的數(shù)據(jù)內(nèi)容。

文章標題：在Scrapy中如何利用Xpath選擇器從HTML中提取目標信息（兩種方式）
URL鏈接：http://sd-ha.com/article20/pepijo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供做網(wǎng)站、商城網(wǎng)站、App設(shè)計、移動網(wǎng)站建設(shè)、定制網(wǎng)站、品牌網(wǎng)站設(shè)計

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

外貿(mào)網(wǎng)站制作

虛擬主機知識

徐匯做網(wǎng)站告訴你如何判斷虛擬主機的好壞 2022-09-24
聽創(chuàng)新互聯(lián)述說虛擬主機對網(wǎng)站SEO優(yōu)化帶來的影響 2015-07-18
外國虛擬主機租用需要考慮的四點因素 2022-10-07
怎樣選擇好的免費虛擬主機 2016-04-24
美國免費虛擬主機真的免費嗎？免費美國主機能不能用？ 2022-10-04
云虛擬主機和云服務(wù)器究竟怎么選擇比較好？ 2022-10-12
虛擬主機有哪些優(yōu)點？ 2022-12-06
鄞州微網(wǎng)頁開發(fā)：云虛擬主機的價格是多少 2022-12-05
淺析如何選擇正確的虛擬主機 2016-10-09
國內(nèi)外虛擬主機的區(qū)別 2022-12-13
虛擬主機與云服務(wù)器的區(qū)別 2014-12-06
建個人網(wǎng)站如何選擇虛擬主機服務(wù)商 2020-08-05

同城分類信息

<ul id="acyyy"></ul>

<noscript id="acyyy"><pre id="acyyy"></pre></noscript>

<input id="acyyy"></input><strike id="acyyy"><option id="acyyy"></option></strike>