精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

如何用一行代碼讓gevent爬蟲提速100%

開發 后端
用python做網絡開發的人估計都聽說過gevent這個庫,gevent是一個第三方的python協程庫,其是在微線程庫greenlet的基礎上構建而成,并且使用了epoll事件監聽機制,這讓gevent具有很好的性能并且比greenlet更好用。

 [[334247]]

用python做網絡開發的人估計都聽說過gevent這個庫,gevent是一個第三方的python協程庫,其是在微線程庫greenlet的基礎上構建而成,并且使用了epoll事件監聽機制,這讓gevent具有很好的性能并且比greenlet更好用。根據gevent官方的資料(網址:http://www.gevent.org),gevent具有以下特點:

  1.  基于libev或libuv的快速事件循環。
  2.  基于greenlet的輕量級執行單元。
  3.  重復使用Python標準庫中的概念的API(例如,有event和 queues)。
  4.  具有SSL支持的協作套接字
  5.  通過線程池,dnspython或c-ares執行的合作DNS查詢。
  6.  猴子修補實用程序,使第三方模塊能夠合作
  7.  TCP / UDP / HTTP服務器
  8.  子流程支持(通過gevent.subprocess)
  9.  線程池

筆者總結一下,gevent大致原理就是當一個greenlet遇到需要等待的操作時(多為IO操作),比如網絡IO/睡眠等待,這時就會自動切換到其他的greenlet,等上述操作完成后,再在適當的時候切換回來繼續執行。在這個過程中其實仍然只有一個線程在執行,但因為我們在等待某些IO操作時,切換到了其他操作,避免了無用的等待,這就為我們大大節省了時間,提高了效率。

筆者也是在看了gevent這么多的優點之后,感覺有必要上手試一試,但起初效果非常不理想,速度提升并不大,后來在仔細研究了gevent的用法之后,發現gevent的高效率是有條件的,而其中一個重要條件就是monkey patch的使用,也就是我們常說的猴子補丁。

monkey patch就是在不改變源代碼的情況下,對程序進行更改和優化,其主要適用于動態語言。通過monkey patch,gevent替換了標準庫里面大部分的阻塞式系統調用,比如socket、ssl、threading和select等,而變為協作式運行。下面筆者還是通過代碼來演示一下monkey patch的用法以及使用條件。筆者展示的這個程序是一個小型的爬蟲程序,程序代碼量少,便于閱讀和運行,同時也能較好地測試出monkey patch的提升程度。主要思路是從Box Office Mojo網站抓取北美電影市場今年第二季度上映的電影,然后從每部電影的信息頁面提取出每部電影的電影分級,然后把每部電影的名稱和其對應分級保存在一個字典當中,再測試一下整個過程的時間。在這里,我們主要測試三種情況下的程序完成時間,分別是普通不使用gevent的爬蟲,使用gevent但不用monkey patch的爬蟲,以及使用gevent和monkey patch的爬蟲。

首先看普通不使用gevent的爬蟲。

先導入需要的庫。 

  1. import time  
  2. import requests  
  3. from lxml import etree 

然后讀取第二季度上映電影的頁面。 

  1. url = r'https://www.boxofficemojo.com/quarter/q2/2020/?grossesOption=totalGrosses' #第二季度上映電影的網址  
  2. headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'} #爬蟲頭部  
  3. rsp = requests.get(url, headersheaders=headers) #讀取網頁  
  4. text = rsp.text #獲取網頁源碼  
  5. html = etree.HTML(text)  
  6. movie_relative_urls =  html.xpath(r'//td[@class="a-text-left mojo-field-type-release mojo-cell-wide"]/a/@href') #獲取每部電影的信息頁面的相對地址  
  7. movie_urls = [r'https://www.boxofficemojo.com'+u for u in movie_relative_urls] #把每部電影的相對地址換成絕對地址  
  8. genres_dict = {} #用于保存信息的字典 

上述代碼中變量url就是第二季度上映電影的網頁地址,其頁面截圖如圖1所示。headers是爬蟲模擬瀏覽器的頭部信息,每部電影的信息頁面就是圖1中表格頭一行列名Release下面每部電影名稱所包含的網址,點擊每部電影名稱就可進入其對應頁面。因為這個網址是相對地址,所以要轉換成絕對地址。

圖1. 第二季度上映電影的頁面

接下來是每部電影的信息頁面的讀取。 

  1. def spider(url): #這個函數主要用于讀取每部電影頁面中的電影分級信息  
  2.     rsp = requests.get(url, headersheaders=headers) #讀取每部電影的網頁  
  3.     text = rsp.text #獲取頁面代碼  
  4.     html = etree.HTML(text)  
  5.     genre = html.xpath(r'//div/span[text()="Genres"]/following-sibling::span[1]/text()')[0] #讀取電影分級信息  
  6.     title = html.xpath(r'//div/h1/text()')[0] #讀取電影名稱  
  7. genres_dict[title] = genre #把每部電影的名稱和分級信息存入字典 

這個函數就是為了讀取每部電影信息頁面的信息,其功能和上面讀取url頁面的功能類似,都非常簡單,沒有過多可說的。在每部電影頁面中,我們要讀取的每部電影的分級信息就在Genres這一行,比如圖2中電影The Wretched,其Genres信息就是Horror。

圖2. 示例電影信息頁面

接下來是時間測算。 

  1. normal_start = time.time() #程序開始時間  
  2. for u in movie_urls:  
  3.     spider(u)  
  4. normal_end = time.time() #程序結束時間  
  5. normal_elapse = normal_end - normal_start #程序運行時間  
  6. print('The normal procedure costs %s seconds' % normal_elapse) 

我們測算時間用time.time()方法,用結束時間減去開始時間就是程序運行時間,這里我們主要測試spider這個函數多次運行的時間。結果顯示,該過程耗時59.6188秒。

第二個爬蟲是使用gevent但不用monkey patch的爬蟲。其完整代碼如下。 

  1. import time  
  2. from lxml import etree  
  3. import gevent  
  4. import requests  
  5. url = r'https://www.boxofficemojo.com/quarter/q2/2020/?grossesOption=totalGrosses'  
  6. headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}  
  7. rsp = requests.get(url, headersheaders=headers)  
  8. text = rsp.text  
  9. html = etree.HTML(text)  
  10. movie_relative_urls =  html.xpath(r'//td[@class="a-text-left mojo-field-type-release mojo-cell-wide"]/a/@href')  
  11. movie_urls = [r'https://www.boxofficemojo.com'+u for u in movie_relative_urls]  
  12. genres_dict = {}  
  13. task_list = [] #用于存放協程的列表  
  14. def spider(url): 
  15.     rsp = requests.get(url, headersheaders=headers)  
  16.     text = rsp.text  
  17.     html = etree.HTML(text)  
  18.     genre = html.xpath(r'//div/span[text()="Genres"]/following-sibling::span[1]/text()')[0]  
  19.     title = html.xpath(r'//div/h1/text()')[0]  
  20.     genres_dict[title] = genre    
  21. gevent_start = time.time()  
  22. for u in movie_urls:  
  23.     task = gevent.spawn(spider, u) #生成協程  
  24.     task_list.append(task) #把協程放入這個列表    
  25. gevent.joinall(task_list) #運行所有協程  
  26. gevent_end = time.time() 
  27. gevent_elapse = gevent_end - gevent_start  
  28. print('The gevent spider costs %s seconds' % gevent_elapse) 

這里絕大部分代碼和前面爬蟲代碼相同,但多了一個task_list變量,其是用于存放協程的列表,我們從gevent_start = time.time()這行開始看,因為前面的代碼都和之前的爬蟲相同。task = gevent.spawn(spider, u)是生成gevent中生成協程的方法,task_list.append(task)是把每個協程放入這個列表中,而gevent.joinall(task_list)就是運行所有協程。上面這些過程和我們運行多線程的方式非常相似。運行結果是59.1744秒。

最后一個爬蟲就是同時使用gevent和monkey patch的爬蟲,在這里筆者不再粘貼代碼,因為其代碼和第二個爬蟲幾乎一模一樣,只有一個區別,就是多了一行代碼from gevent import monkey; monkey.patch_all(),注意這是一行代碼,不過包含兩個語句,用分號放在了一起。最重要的是,這行代碼要放在所有代碼的前面,切記!!!

這個爬蟲的運行結果是26.9184秒。

筆者把這里三個爬蟲分別放在三個文件中,分別命名為normal_spider.py、gevent_spider_no.py和gevent_spider.py,分別表示普通不用gevent的爬蟲、使用gevent但不用monkey patch的爬蟲、使用gevent和monkey patch的爬蟲。這里有一點要注意,monkey patch暫不支持jupyter notebook,所以這三個程序要在命令行中使用,不能在notebook中使用。

最后把三種爬蟲的結果總結如下。

圖3. 三種爬蟲的結果對比

可以看出使用了gevent但不用monkey patch的爬蟲和普通爬蟲的運行時間幾乎完全相等,而在用了monkey patch以后,運行時間只有前面程序的一半不到,速度提升了大約120%,僅僅一行代碼就帶來如此大的速度提升,可見monkey patch的作用還是很大的。而對于前兩個爬蟲的速度幾乎完全一樣,筆者認為原因在于這兩個程序都是單線程運行,本質上沒有太大區別,同時網頁讀取數量較小(只有18個網頁),也很難看出gevent的效果。

從本例中可以看出monkey patch還是有不小提升的,但gevent目前只對常見庫尤其是官方標準庫有patch作用,其他第三方庫的效果還不得而知,所以對monkey patch的使用還是要視情況而定。本文的代碼筆者放在gitee代碼網站上,網址是https://gitee.com/leonmovie/speed-up-gevent-spider-with-monkey-patch,如有需要可以自行下載。 

 

責任編輯:龐桂玉 來源: Python中文社區
相關推薦

2020-04-10 12:25:28

Python爬蟲代碼

2023-03-16 16:18:09

PyTorch程序人工智能

2018-09-19 15:46:51

編程語言Python編譯器

2016-12-02 08:53:18

Python一行代碼

2020-09-09 16:00:22

Linux進程

2022-02-23 14:37:48

代碼Pythonbug

2013-02-28 10:35:59

hadoop大數據Hortonworks

2022-08-14 15:07:59

代碼顯卡

2022-05-03 17:04:08

CSS前端

2015-03-20 14:51:09

Testin云測

2021-08-23 17:49:02

代碼開發模型

2021-06-11 14:15:55

代碼前端項目

2024-05-13 12:58:30

2021-09-13 10:43:12

開發CSS代碼

2023-08-14 07:42:01

模型訓練

2022-04-09 09:11:33

Python

2017-04-05 11:10:23

Javascript代碼前端

2014-02-12 13:43:50

代碼并行任務

2025-08-29 10:00:00

JavaScript瀏覽器API

2020-02-28 15:33:12

代碼人工智能檢測
點贊
收藏

51CTO技術棧公眾號

国产精品你懂的在线欣赏| 亚洲天堂偷拍| 91精品国产91久久久久久一区二区| 亚洲欧洲精品一区二区三区波多野1战4| 亚洲男人天堂网址| 久久精品国产亚洲夜色av网站| 91精品国产综合久久香蕉麻豆| 日本大片免费看| 日韩一区免费视频| 美女视频黄a大片欧美| 欧美激情久久久| 久久精品国产亚洲av久| 99精品视频在线免费播放 | 国产中文一区二区| 五月天中文字幕| 一区在线观看| 日韩在线观看免费全| 国产高潮失禁喷水爽到抽搐| 人人视频精品| 亚洲成人免费视频| 中日韩在线视频| 日本1级在线| 精品系列免费在线观看| 日韩av片免费在线观看| 免费毛片在线播放免费| 成人网18免费网站| 日韩av在线影院| 国产激情一区二区三区桃花岛亚洲| 亚洲免费伊人电影在线观看av| 一级做a免费视频| 在线黄色的网站 | 成人在线观看小视频| 亚洲色图丝袜| 亚洲成人网在线| 久久综合桃花网| 国产精品美女午夜爽爽| 色噜噜夜夜夜综合网| 久久久久久免费看| 在线中文免费视频| 亚洲天堂中文字幕| 日韩一区不卡| 国产免费av高清在线| www.在线成人| 国产精品夜夜夜一区二区三区尤| 国产精品久久777777换脸| 日韩不卡一二三区| 91国内在线视频| 日本在线视频免费观看| 亚洲国产二区| 97视频在线观看亚洲| xxxx 国产| 伊人久久亚洲热| 国产做受高潮69| 日韩黄色三级视频| 亚洲经典自拍| 国产69久久精品成人| 天天爽夜夜爽夜夜爽精品| 亚洲经典在线看| **欧美日韩vr在线| aaa在线视频| 久久激情视频| 国产97在线视频| 国产又粗又猛又黄视频| 日韩av在线免费观看不卡| 7m第一福利500精品视频| 欧美一二三区视频| 久久久久国内| 国产精品视频久久久| 亚洲一区二区三区高清视频| 久久精品国产在热久久| 成人字幕网zmw| 国产黄色一级大片| 99精品视频在线免费观看| 久久久一本精品99久久精品66| 丝袜视频国产在线播放| 国产午夜精品久久久久久久| 亚洲一区二区三区免费观看| av网站大全在线| 亚洲午夜精品网| 日韩手机在线观看视频| 欧美高清免费| 欧美精品一区二区在线观看| 精品夜夜澡人妻无码av| 日韩系列欧美系列| 色在人av网站天堂精品| 国产一级精品视频| 麻豆国产欧美一区二区三区| 91传媒免费看| 日本免费一区二区三区最新| 国产精品毛片a∨一区二区三区| 欧美日韩亚洲国产成人| heyzo中文字幕在线| 日本韩国视频一区二区| 成人高清在线观看视频| 天海翼亚洲一区二区三区| 在线观看成人黄色| 加勒比av在线播放| 狂野欧美性猛交xxxx巴西| 国产精品极品美女在线观看免费 | 欧美成人黄色网| 亚洲中午字幕| 91久久久久久久久久| 婷婷伊人综合中文字幕| 中文字幕一区二区三| 国产91xxx| 九九九精品视频| 亚洲国产精品资源| 欧美做爰啪啪xxxⅹ性| 宅男噜噜噜66一区二区| 亚洲mm色国产网站| 国产高清一区在线观看| 亚洲五码中文字幕| 天天干天天av| 久操精品在线| 欧美精品videos另类日本| 亚洲最大成人av| 97精品久久久久中文字幕| 97超碰免费观看| 高潮一区二区| 亚洲国产成人久久| 东方av正在进入| 日本美女一区二区| 免费试看一区| 97天天综合网| 日韩女优视频免费观看| 美女三级黄色片| 久久久久.com| 国产免费一区| 国产一线二线在线观看| 制服.丝袜.亚洲.另类.中文| 久久久久久久久免费看无码| 国产综合视频| 3d动漫精品啪啪一区二区三区免费| 成人一区二区不卡免费| 一本大道久久精品懂色aⅴ| a级片在线观看视频| 亚洲午夜精品一区二区国产| 国产区精品视频| 成人免费在线观看| 在线观看一区二区精品视频| 在线免费观看日韩av| 夜夜嗨av一区二区三区网站四季av| 51国偷自产一区二区三区的来源| 欧洲熟妇精品视频| 五月婷婷在线观看| 在线观看日韩电影| av男人的天堂av| 石原莉奈在线亚洲三区| 欧美极品jizzhd欧美| 男人久久天堂| 国产丝袜一区二区| 制服.丝袜.亚洲.中文.综合懂色| 成人精品视频.| 国产精品专区在线| 久久悠悠精品综合网| 97在线看免费观看视频在线观看| 亚洲欧美高清视频| 亚洲成国产人片在线观看| 久久性爱视频网站| 99国产一区| 久久一区二区三区av| 欧美日韩电影免费看| 亚洲一区二区久久久| 丰满熟女人妻一区二区三| 中文字幕巨乱亚洲| 亚洲综合伊人久久| 狠狠色丁香久久综合频道| 国产精品青青草| 涩涩av在线| 一区二区在线视频播放| 在线视频 91| 亚洲精品国产a| 国模私拍在线观看| 免费一区视频| 亚洲综合网中心| 亚洲成人精品综合在线| 欧美福利在线观看| 日本韩国精品一区二区| 欧美日韩亚洲综合一区| 波多野结衣亚洲一区二区| 成人免费的视频| www.亚洲天堂网| 99免费精品| 国产精品免费在线| 日韩不卡视频在线观看| 菠萝蜜影院一区二区免费| 成人毛片在线精品国产| 色综合久久中文综合久久97| 九九九视频在线观看| 国产精品影视在线| 欧美 日本 亚洲| 欧美国产一级| 国产一区二区无遮挡| 国产成人精选| 亚州欧美日韩中文视频| 粉嫩一区二区三区国产精品| 日韩视频国产视频| 成人公开免费视频| 亚洲蜜臀av乱码久久精品蜜桃| 99久久久无码国产精品性波多| 亚洲欧美成人| 国产精品国三级国产av| 狠狠做深爱婷婷综合一区| 5566中文字幕一区二区| 三上悠亚一区二区| 精品少妇一区二区30p| 国产在线观看免费| 亚洲成色777777在线观看影院| 中文字幕日本人妻久久久免费 | 国产无码精品在线观看| 欧美极品另类videosde| 日本一卡二卡在线| 狠狠色丁香久久婷婷综合_中| 日本日本19xxxⅹhd乱影响| 亚洲国产一区二区三区在线播放| 欧美日韩亚洲免费| 第四色在线一区二区| 成人免费直播live| 日韩和的一区二在线| 羞羞色国产精品| av免费在线免费| 日韩最新av在线| 国产裸舞福利在线视频合集| 精品粉嫩aⅴ一区二区三区四区| 亚洲网站免费观看| 日本精品视频一区二区三区| 国产性xxxx高清| 亚洲一区在线观看免费观看电影高清| 国产一二三四视频| 国产欧美精品一区二区三区四区 | 成年人网站大全| 亚洲美女色禁图| 男人添女荫道口喷水视频| 久久美女视频| 亚洲欧美精品| 日韩成人精品一区| 日韩av电影免费在线观看| 天堂综合网久久| 国内外成人免费视频| 都市激情久久| 国产精品成人一区二区三区| 亚洲国产中文在线| 91精品综合久久| 日韩第一区第二区| 97人人香蕉| 成人午夜三级| 国产日韩精品久久| 久久aimee| 久久国产精品久久| 欧美偷窥清纯综合图区| 国精产品99永久一区一区| 精品素人av| 精选一区二区三区四区五区| 日韩大尺度在线观看| 狠狠色噜噜狠狠色综合久| 卡一精品卡二卡三网站乱码 | 国产女同无遮挡互慰高潮91| 久久黄色级2电影| 三年中文在线观看免费大全中国| 另类小说综合欧美亚洲| 国产乱码一区二区三区四区| 国产在线看一区| 久久久国产精品久久久| 成人a区在线观看| 色综合久久五月| 久久精品视频免费| 性の欲びの女javhd| 国产精品免费免费| 美女的奶胸大爽爽大片| 亚洲成人你懂的| 色一情一乱一伦| 欧美日韩卡一卡二| 国产xxxx在线观看| 日韩av综合网站| 国产粉嫩一区二区三区在线观看| 日韩午夜在线视频| 日本天码aⅴ片在线电影网站| 国内揄拍国内精品| 欧美影视资讯| 亚洲综合在线做性| 老牛国内精品亚洲成av人片| 日本高清不卡三区| 天天射天天综合网| 成人免费观看cn| 日韩电影在线观看网站| av在线网站免费观看| 91蜜桃网址入口| 97在线观看视频免费| 亚洲成a人v欧美综合天堂下载| 在线天堂中文字幕| 欧美二区三区91| 亚州av在线播放| 日韩视频中文字幕| 在线观看爽视频| 91久久精品www人人做人人爽| 青青久久av| 欧美a级黄色大片| 久久亚洲国产精品一区二区| 91人妻一区二区三区| 91蜜桃网址入口| 免费国产羞羞网站美图| 欧美日韩在线免费观看| 国产av无码专区亚洲av| 亚洲人成电影在线播放| 天堂av资源在线观看| 国产精品专区h在线观看| 成人免费直播在线| 一区视频二区视频| 亚洲影音一区| 免费黄色在线播放| 国产精品久久久久精k8| 中文字字幕在线中文| 精品久久久网站| 日韩三级影院| 日韩免费观看在线观看| 18国产精品| 日韩视频在线观看视频| 久热国产精品| 伊人网在线视频观看| 亚洲第一福利一区| av免费观看在线| 精品国偷自产在线视频| 欧美日韩亚洲国产| 九色一区二区| 亚洲激情国产| 蜜桃色一区二区三区| 18成人在线视频| 在线观看免费观看在线| 国产午夜精品一区二区三区 | 欧美色视频日本高清在线观看| 国产99999| 久久国产精品久久久久久| 亚洲ww精品| 一区二区三区我不卡| 蜜臀精品久久久久久蜜臀| 亚洲综合网在线观看| 动漫精品一区二区| 天天射,天天干| 26uuu久久噜噜噜噜| 精品欧美午夜寂寞影院| 欧美人成在线观看| 成人精品电影在线观看| 久久一级黄色片| 欧美精品一区二区三区一线天视频 | 国产一区二区三区免费在线| 亚洲精品在线视频观看| 日韩中文欧美在线| 人与嘼交av免费| 欧美色偷偷大香| 在线免费看av| 成人精品在线视频| 女人色偷偷aa久久天堂 | 94色蜜桃网一区二区三区| 国产在线成人精品午夜| 亚洲国产婷婷香蕉久久久久久| av免费不卡| 免费中文日韩| 日韩电影在线观看电影| 黄色片网站在线播放| 7777精品伊人久久久大香线蕉超级流畅 | 中文有码在线播放| 日韩在线观看免费全集电视剧网站 | 成人乱人伦精品视频在线观看| 天天综合精品| 亚洲天堂小视频| 午夜欧美大尺度福利影院在线看| 天天操天天射天天舔| 青草青草久热精品视频在线网站| 蜜臀久久99精品久久一区二区| 亚洲黄色a v| 亚洲欧美国产三级| 天堂在线视频网站| 国产成人精品日本亚洲专区61| 日本一区二区高清不卡| 中文字幕在线视频一区二区三区| 亚洲午夜视频在线| 久久av少妇| 成人午夜一级二级三级| 亚洲高清二区| 久久久视频6r| 欧美一级精品在线| xxxxxx欧美| 免费观看中文字幕| 波多野结衣91| 亚洲熟妇无码久久精品| 欧美黑人极品猛少妇色xxxxx| 日韩欧美美女在线观看| 亚洲欧美日韩综合网| 亚洲一区二区三区激情| 国产尤物视频在线| 99re在线视频观看| 久久亚洲色图| 青青草激情视频| 日韩精品在线播放| 亚洲日韩中文字幕一区| 波多野结衣家庭教师在线播放| 中文字幕一区二区三区在线不卡| 欧美 日韩 国产 成人 在线| 国产福利视频一区二区| 欧美三级午夜理伦三级中文幕|