這篇文章主要介紹了python反爬蟲的措施有哪些的相關(guān)知識,內(nèi)容詳細(xì)易懂,操作簡單快捷,具有一定借鑒價(jià)值,相信大家閱讀完這篇python反爬蟲的措施有哪些文章都會有所收獲,下面我們一起來看看吧。
網(wǎng)站的建設(shè)成都創(chuàng)新互聯(lián)公司專注網(wǎng)站定制,經(jīng)驗(yàn)豐富,不做模板,主營網(wǎng)站定制開發(fā).小程序定制開發(fā),H5頁面制作!給你煥然一新的設(shè)計(jì)體驗(yàn)!已為成都地磅秤等企業(yè)提供專業(yè)服務(wù)。
最常見的基于Headers的反爬蟲:相信這個(gè)大家應(yīng)該都是耳熟能詳?shù)模覀兠看螌懪老x基本上都會寫headers,因?yàn)榇蟛糠值木W(wǎng)站都會對Headers中的User-Agent以及Referer字段進(jìn)行檢測。這個(gè)突破起來應(yīng)該是比較容易的,我們直接根據(jù)瀏覽器正常訪問時(shí)的請求頭對爬蟲的請求頭進(jìn)行修改,和瀏覽器的相同即可。
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36}rs=requests.get('http://jianshu.com')
根據(jù)用戶行為的反爬蟲:這個(gè)反爬蟲措施真的是讓人頭疼,具體是啥呢?舉個(gè)栗子,同一個(gè)IP短時(shí)間內(nèi)頻繁的去訪問同一個(gè)頁面,或者你就是對網(wǎng)站有一些程序化的操作(固定時(shí)間間隔去訪問頁面)更加接地氣的說就是看起來不像是正常人類在操作。這個(gè)問題怎么去解決呢?①既然一個(gè)ip不能頻繁訪問,那我就弄一大堆ip不就行了,所以我們可以通過大量的ip代理進(jìn)行繞過。②我們訪問的時(shí)候可以將間隔的時(shí)間換成一個(gè)隨機(jī)的數(shù)字,盡可能的去模仿正常人的操作。
proxies = { "http": "http://127.0.0.1:8888", "https": "http://127.0.0.11:1080",}requests.get(url, proxies=proxies)
基于驗(yàn)證碼的反爬蟲:其實(shí)驗(yàn)證碼也是一種反爬蟲的措施,現(xiàn)在的驗(yàn)證碼相信大家也都見識過了,什么算數(shù)啊,滑動啊,按照順序點(diǎn)擊字啊等等,千奇百怪,其實(shí)像這種驗(yàn)證碼的防爬蟲措施是有點(diǎn)棘手的,這里的話幾句話也說不完(涉及到機(jī)器學(xué)習(xí)或者也可以使用打碼平臺),大家可以先了解一下這種反爬蟲措施,到時(shí)候我會寫一篇有關(guān)于突破驗(yàn)證碼的文章。
動態(tài)頁面的反爬蟲:這種技術(shù)應(yīng)該還是比較常見的,動態(tài)頁面是啥呢?像我們在html上抓取數(shù)據(jù),那是屬于靜態(tài)頁面的數(shù)據(jù),非常的簡單。但是想動態(tài)頁面的話就無法直接從頁面上獲取數(shù)據(jù),而是會涉及到Ajax技術(shù),所以我們需要分析Ajax請求,然后模擬發(fā)送獲取到數(shù)據(jù),但是目前很多網(wǎng)站不會那么輕易的讓你模擬發(fā)送數(shù)據(jù)出去,所以目前我們需要通過selenium+phaantomJS技術(shù)來進(jìn)行突破!這個(gè)我們?nèi)蘸髸v。
基于登錄的反爬蟲:像有些網(wǎng)站就比較摳了,必須要注冊登錄之后才能看到里面的內(nèi)容,所以這也是個(gè)問題,但是這個(gè)也并不是特別難,只要你有足夠的耐心多去注冊幾個(gè)賬號,然后去登錄獲取到它們的cookie,然后通過這些cookie去訪問登錄即可
關(guān)于“python反爬蟲的措施有哪些”這篇文章的內(nèi)容就介紹到這里,感謝各位的閱讀!相信大家對“python反爬蟲的措施有哪些”知識都有一定的了解,大家如果還想學(xué)習(xí)更多知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。
當(dāng)前文章:python反爬蟲的措施有哪些
文章地址:http://sd-ha.com/article48/popihp.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站設(shè)計(jì)、面包屑導(dǎo)航、網(wǎng)站維護(hù)、品牌網(wǎng)站制作、做網(wǎng)站、建站公司
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)