精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

一日一技:使用大模型實現全自動爬蟲

人工智能
今天我們實現的是最簡單的情況。不考慮反爬蟲。不考慮列表頁滾動下拉的情況。在下一篇文章中,我們會把模擬瀏覽器引入進來。借助于智能全面提升的GLM-4-Plus和GLM-4V-Plus,讓爬蟲能夠自己控制模擬瀏覽器,讓它自動點擊頁面,繞過反爬蟲,自動滾動下拉。

在文章一日一技:圖文結合,大模型自動抓取列表頁中,我提到可以使用大模型實現一個全自動爬蟲。只需要輸入起始URL加上需求,就可以借助模擬瀏覽器自動完成所有的抓取任務。今天,借著智譜全模型家族正式上線 bigmodel.cn這個契機,我們就來實現全自動爬蟲。

在實現的過程中,我發現涉及到的知識點可能一篇文章講不完,因此拆分成了多篇文章。

爬蟲演示

今天是第一部分,我們暫時不依賴模擬瀏覽器,而是使用httpx(你也可以使用requests)實現全自動爬蟲,傳入我博客文章列表頁,爬蟲會自動抓取前三頁所有博客文章的標題、正文、作者、發布時間。

爬取結果如下圖所示:

圖片圖片

運行過程如下圖所示:

圖片圖片

爬蟲首先會進入起始列表頁,抓取上面的所有文章。然后進入列表頁第二頁,再抓取所有文章,最后進入第三頁,再抓取所有文章。整個過程都是全自動的。不需要寫任何XPath,也不需要告訴爬蟲哪里是翻頁按鈕,文章的標題在哪里,發布時間在哪里,正文在哪里。

模塊拆解

代碼我已經放到Github:AutoCrawler[1]。由于最近智譜[2]又免費送了1億的Token,并且超過以后,調用API費用1折起,所以還是使用他們最新的基座大模型GLM-4-Plus來實現這個全自動爬蟲。

代碼分為如下幾個主要文件:

  • llm.py: 封裝智譜的大模型,以方便使用。代碼如下圖所示。大家可以根據這個輸入輸出修改成自己常用的大模型。我測試了國產的各家大模型,最后發現GLM-4-Plus在語言理解,網頁結構解析,指令遵循方面相對最好。

圖片圖片

  • utils.py: 常用工具函數,清洗HTML,重試等等
  • constants.py: 各種常量,包括各種Prompt
  • parser.py: 核心解析邏輯,解析列表頁、詳情頁,識別翻頁按鈕
  • main.py:調度邏輯。把各個模塊組合在一起

原理說明

字段解析與翻頁

其中,跟大模型相關的代碼在parser.py中。我們來看一下:

圖片圖片

代碼邏輯很簡單,分為兩個主要的方法,data_extract用來從列表頁提取出詳情頁URL,從詳情頁提取出作者、標題、發布時間和正文。paging_extract用來提取分頁按鈕中,下一頁對應的鏈接。

這個提取的過程就交給智譜GLM-4-Plus來完成。對于字段提取,對應的System Prompt如下:

你將扮演一個HTML解析器的角色。我將會提供一段HTML代碼,這段代碼可能代表了一個博客網站的文章列表頁或者文章詳情頁。你需要首先判斷這段HTML是屬于哪種類型的頁面。如果是文章詳情頁,那么頁面中通常會包含文章標題、發布時間、作者以及內容等信息;而如果是列表頁,則會列出多篇文章的標題及其對應的詳情頁鏈接。

請根據以下規則進行處理:

1. 分析提供的HTML代碼,確定頁面類型(`list` 或 `detail`)。
2. 根據頁面類型,提取必要的信息:
   - 如果是列表頁,請找到所有文章條目,并為每個條目提供標題和指向詳情頁的鏈接。
   - 如果是詳情頁,請找到文章標題、作者、發布時間和內容的XPath。確保XPath直接指向包含這些信息的具體元素值,例如使用`@屬性`或者`text()`來獲取確切的文本內容。
3. 盡量使用具有特征性的屬性如`id`或`class`來構造XPath,以確保XPath簡潔且魯棒。
4. 對于標題、作者、發布時間等字段,如果它們不是直接在某個標簽內,而是嵌套在其他標簽中,XPath應包括這些結構,以保證準確性。
5. 按照指定格式輸出結果。
6. 只需要返回JSON,不要解釋,不要返回無關內容

**輸出格式:**

- 對于列表頁,返回如下JSON結構:
  {
      "page_type": "list",
      "articles": [
          {"title": "文章標題", "url": "文章詳情頁URL"},
          {"title": "文章標題", "url": "文章詳情頁URL"},
          {"title": "文章標題", "url": "文章詳情頁URL"},
          // 更多文章...
      ]
  }

- 對于詳情頁,返回如下JSON結構:
  {
      "page_type": "detail",
      "fields": [
          {"field_name": "title", "xpath": "XPath to the title"},
          {"field_name": "author", "xpath": "XPath to the author"},
          {"field_name": "publish_time", "xpath": "XPath to the publish time"},
          {"field_name": "content", "xpath": "XPath to the content"}
      ]
  }

現在,請接收以下HTML代碼并開始分析:

可能有同學會疑惑,為什么對于列表頁,是直接讓大模型提取出URL,但對于詳情頁,卻是生成XPath而不直接提取內容呢?原因很簡單,因為現在大模型的Output Token遠遠低于Input Token,并且Output Token更貴。現在Input Token輕輕松松超過128K,但是Output Token大部分都在4096,只有少數在8192。對于長文章,把Output Token全部用完了可能都沒法輸出完整的正文。而且輸出的內容越多,費用就越高,速度就越慢。你以為我不想讓大模型直接輸出提取好的內容?

而由于列表頁的內容并不多,標題加上URL用不了多少字,所以就直接輸出了。

獲取翻頁鏈接的System Prompt,如下:

你將扮演一個HTML解析器的角色。我將會提供一段HTML代碼,這段代碼可能代表了一個博客網站的文章列表頁。你需要找到頁面上的翻頁鏈接,并提取出下一頁的URL  
  
請根據以下規則進行處理:  
  
1. 分析提供的HTML代碼,找到翻頁按鈕。  
2. 翻頁按鈕上面的文本可能是『下一頁』、『next』、『>』、『Load more』等,也可能是一個數字,代表頁碼,也可能是paging標簽或者classname包含pagination的某個標簽。沒有固定的標準,你需要智能識別  
3. 返回下一頁的URL,如果沒有下一頁,返回空字符串  
4. 按照指定格式輸出結果。  
5. 只需要返回JSON,不要解釋,不要返回無關內容  
  
返回JSON格式:  
  
{"page_type": "paging", "url": "下一頁的url"}

這就是常規的Prompt,沒什么好解釋的。

爬蟲流程調度

我們最后來看看main.py的代碼:

圖片圖片

核心調度邏輯就這么幾行代碼。如果有同學經常刷算法題,應該會對這段代碼很熟悉。這里使用while循環來實現遞歸操作。

一開始,target里面只有我傳入的起始URL。然后進入while循環,當target隊列為空時結束循環。在循環里面,首先解析當前列表頁,獲得當前頁面所有的文章詳情頁URL,全部放入隊列中。再獲得下一頁的URL,也放入隊列中。接下來循環開始進入第二項,也就是第一篇文章詳情URL,進入里面,獲取源代碼,使用大模型解析出XPath,然后調用self.extract_detail通過lxml執行XPath從源代碼中提取出正文。接下來繼續第二篇文章……如此循環。

今天我們實現的是最簡單的情況。不考慮反爬蟲。不考慮列表頁滾動下拉的情況。在下一篇文章中,我們會把模擬瀏覽器引入進來。借助于智能全面提升的GLM-4-Plus和GLM-4V-Plus,讓爬蟲能夠自己控制模擬瀏覽器,讓它自動點擊頁面,繞過反爬蟲,自動滾動下拉。

參考資料

[1]AutoCrawler: https://github.com/kingname/AutoCrawler

[2]智譜: https://zhipuaishengchan.datasink.sensorsdata.cn/t/JX

[3]      視頻通話模型內測地址: https://bigmodel.cn/online-book/videocall

責任編輯:武曉燕 來源: 未聞Code
相關推薦

2024-08-27 22:08:13

2024-09-05 12:11:25

大模型抓取列表頁

2024-11-11 00:38:13

Mypy靜態類型

2021-09-26 05:01:55

Scrapy項目爬蟲

2023-10-28 12:14:35

爬蟲JavaScriptObject

2022-06-28 09:31:44

LinuxmacOS系統

2021-09-13 20:38:47

Python鏈式調用

2021-03-12 21:19:15

Python鏈式調用

2021-07-27 21:32:57

Python 延遲調用

2022-01-26 07:35:10

爬蟲Requestsgzip

2021-06-08 21:36:24

PyCharm爬蟲Scrapy

2021-04-27 22:15:02

Selenium瀏覽器爬蟲

2021-10-15 21:08:31

PandasExcel對象

2021-11-12 05:00:43

裝飾器代碼功能

2025-05-28 03:15:00

Scrapy數據sleep

2021-04-12 21:19:01

PythonMakefile項目

2021-12-15 22:04:11

瀏覽器重復登錄

2020-12-04 06:39:25

爬蟲網頁

2021-07-26 21:15:10

LRU緩存MongoDB

2021-01-22 05:47:21

Python關鍵字函數
點贊
收藏

51CTO技術棧公眾號

欧美一级爆毛片| 国产精品国产三级国产a| 97在线视频免费| 久久精品视频18| 日韩第二十一页| 亚洲一二三专区| 欧美久久久久久| 国产特级aaaaaa大片| 亚洲制服av| xvideos亚洲人网站| 性久久久久久久久久久| 国模私拍国内精品国内av| 亚洲精品视频一区| 欧美一区亚洲二区| 好吊视频一区二区三区| 蜜桃视频一区二区三区| 久久久久久中文| 免费91在线观看| 黄色欧美网站| 欧美一卡二卡在线| www.日日操| 国产精品探花在线| 国产精品国产三级国产三级人妇 | 久久久久99精品成人片毛片| 九九综合在线| 亚洲国产欧美一区| 国产又粗又长又爽又黄的视频| 亚洲午夜天堂| 亚洲国产精品自拍| 一区二区在线不卡| 男同在线观看| 成人av午夜电影| 91色在线观看| 中文字幕 欧美激情| 亚洲精品极品| 欧美丰满老妇厨房牲生活| 四季av中文字幕| 精品综合久久88少妇激情| 91精品国产综合久久香蕉的特点| 无码内射中文字幕岛国片| 第一福利在线视频| 一区二区国产视频| av电影一区二区三区| 日韩精品黄色| 国产精品三级av| 日韩欧美第二区在线观看| 四虎国产精品永远| 成人动漫视频在线| 国产精品日韩欧美一区二区三区| 国产免费叼嘿网站免费| 久久福利视频一区二区| 国产一区二区丝袜| 一区二区三区免费在线视频| 日韩和欧美一区二区三区| 欧美亚洲国产精品| 你懂的国产在线| 亚洲影视在线| 国产成人亚洲综合| 中文字幕69页| 日本女人一区二区三区| 国产精品日日摸夜夜添夜夜av| www.com亚洲| 日本成人超碰在线观看| 国产精品午夜一区二区欲梦| 中文字幕精品一区二区精| 日韩黄色免费电影| 国产免费亚洲高清| 国产精品免费无遮挡| 久久av老司机精品网站导航| 国产综合视频在线观看| 国产视频一区二区三区四区五区| 韩国女主播成人在线观看| 成人深夜直播免费观看| 精品人妻少妇AV无码专区 | 精品久久久久久久久中文字幕| 成年人午夜免费视频| 精品众筹模特私拍视频| 香蕉成人啪国产精品视频综合网 | 91麻豆精品国产91久久久久久久久 | 91在线看片| 中文字幕在线一区二区三区| 亚洲最新在线| 韩国日本一区| 色综合久久天天综合网| 国产无套粉嫩白浆内谢的出处| 日本一区二区中文字幕| 精品久久五月天| 亚洲av无码一区二区三区观看| 美日韩中文字幕| 精品国产网站地址| 日韩av黄色片| 日韩不卡免费视频| 91久久久久久久| 亚洲av成人精品一区二区三区在线播放| 91啪亚洲精品| 午夜探花在线观看| 天堂8中文在线最新版在线| 欧洲另类一二三四区| 红桃视频一区二区三区免费| 欧美成人基地| 久久精品人人爽| 亚洲欧美自拍视频| 国内精品伊人久久久久影院对白| 国产精品区二区三区日本| 国产福利小视频在线| 亚洲免费观看高清完整版在线 | 欧美一卡二卡| 欧美在线视频全部完| 久草免费资源站| 日韩av二区| 97成人精品区在线播放| 99久久精品国产色欲| 国产香蕉久久精品综合网| 中国女人做爰视频| 99蜜月精品久久91| 日韩的一区二区| 久久久久久视频| 久久亚洲影院| 国产精品区一区二区三含羞草| 95在线视频| 一本色道亚洲精品aⅴ| a级大片免费看| 欧美电影三区| 日本三级韩国三级久久| 日韩一级免费视频| 亚洲人123区| 美女网站免费观看视频| 美女主播精品视频一二三四| 美日韩精品视频免费看| 男操女视频网站| 91伊人久久大香线蕉| 欧美在线观看视频免费| 亚洲欧洲一二区| 一区二区三区美女xx视频| 奇米影视第四色777| 国产99久久久精品| 亚洲小视频在线播放| 99只有精品| 中文字幕欧美精品在线| 日本中文字幕第一页| 99精品欧美一区二区三区综合在线| 99视频精品全部免费看| 日韩欧美激情| 日韩在线欧美在线国产在线| 久久精品99北条麻妃| 久久久久久免费网| 国产二区视频在线播放| 牛牛影视一区二区三区免费看| 久久久久久久av| 亚洲av无码乱码国产精品| 一区二区三区在线高清| 黄页网站在线看| 欧美一区在线看| 成人av资源网| 2020国产在线| 亚洲精品国产拍免费91在线| 天堂资源在线播放| 99热99精品| 日韩精品一区二区三区久久| 首页亚洲中字| 国产精品国产三级国产aⅴ浪潮| 男人天堂综合| 欧美最猛性xxxxx直播| 国产又黄又粗视频| 麻豆传媒一区二区三区| 自拍偷拍99| 亚洲精品一区二区三区在线| 久久99久久亚洲国产| 蜜桃视频污在线观看| 午夜精品久久久久久久| 丰满圆润老女人hd| 麻豆视频一区二区| 中文字幕第50页| 亚洲1区在线观看| 97久久国产精品| 欧洲伦理片一区 二区 三区| 欧美性猛交xxxxxx富婆| 成人免费视频网站入口::| 成人午夜在线免费| 欧美日韩亚洲第一| 成人情趣视频网站| 91成人免费观看| 美女的胸无遮挡在线观看| 亚洲欧美另类人妖| 一级黄色片在线播放| 亚洲一区二三区| 天天躁日日躁aaaa视频| 精品一区二区三区蜜桃| 成年人网站国产| 国产一区网站| 51国偷自产一区二区三区| bbw在线视频| 最近2019年好看中文字幕视频| 亚洲va欧美va| 日本高清不卡视频| 黄色一级免费视频| 国产日韩欧美制服另类| 中文字幕欧美视频| 日韩和欧美的一区| 国产xxxx振车| 日韩av自拍| 国产精品乱码| 亚洲精品aa| 欧美在线视频一区| av观看在线| 中文字幕日韩免费视频| 蜜桃av中文字幕| 欧美日韩精品福利| 日产亚洲一区二区三区| 亚洲手机成人高清视频| 性少妇bbw张开| 国产麻豆成人精品| 久草综合在线观看| 制服诱惑一区二区| 日韩一级特黄毛片| 手机在线一区二区三区| 精品欧美国产| aiai久久| 91久久偷偷做嫩草影院| 日本一道高清亚洲日美韩| 久久久久久久久久久av| 老司机午夜在线| 亚洲香蕉成视频在线观看| 亚洲国产精品国自产拍久久| 欧美日韩夫妻久久| 在线观看国产区| 欧美日韩国产在线看| 久久精品99久久久久久| 国产精品大尺度| 久久久国产一级片| 国产亚洲精品久| 最近日本中文字幕| 高清在线不卡av| 日韩av福利在线观看| 久久99精品视频| 手机看片福利盒子久久| 久久精品日产第一区二区 | 日韩va欧美va亚洲va久久| 国产美女主播在线播放| 国产综合精品| 国产免费一区二区视频| 欧美激情精品久久久六区热门| 午夜探花在线观看| 在线观看国产精品入口| 自拍偷拍99| **女人18毛片一区二区| 午夜在线视频免费观看| 97在线精品| av动漫免费观看| 亚洲欧美综合久久久| 日韩中文在线字幕| 久久久久久无码精品大片| 欧美日韩国产免费观看视频| 国产日韩一区欧美| 精品成人自拍视频| 国产在线精品日韩| 欧美一区 二区| 久久一区免费| 国产欧美日韩精品一区二区免费 | 欧美国产日本韩| 五月天综合视频| 国产精品视频免费| 国产精品久久久免费看| 亚洲三级久久久| 国产免费无码一区二区视频| 一区二区三区.www| 国产污视频在线看| 激情成人中文字幕| 国产伦精品一区二区三区视频我| 色婷婷国产精品| 美女黄页在线观看| 欧美一区国产二区| 日韩在线视频观看免费| 日韩理论片久久| fc2在线中文字幕| 精品精品国产国产自在线| jizz性欧美| 孩xxxx性bbbb欧美| 在线免费日韩片| 国产伦精品免费视频| 日韩区欧美区| 欧美下载看逼逼| 99精品一区| 男女日批视频在线观看| 亚洲免费网址| 午夜视频在线网站| 不卡一区二区中文字幕| 九色porny自拍视频| 欧美国产日本韩| 18精品爽视频在线观看| 一本色道久久综合亚洲91| 国产又粗又大又爽视频| 精品乱码亚洲一区二区不卡| 国产黄色片在线观看| 欧美日本精品在线| 另类激情视频| 91精品在线国产| 日韩三级视频| 中国老女人av| 久久综合图片| 一本色道久久hezyo无码| 国产天堂亚洲国产碰碰| 激情五月婷婷在线| 欧美色图天堂网| 国产又爽又黄网站亚洲视频123| 中文字幕免费精品一区高清| 91九色美女在线视频| 成人黄色免费网站在线观看| 久久香蕉网站| 在线观看成人免费| 日韩**一区毛片| www.超碰97| 一区二区日韩电影| 一级α片免费看刺激高潮视频| 精品成人一区二区| 快射视频在线观看| 国产成人黄色av| 欧美日韩导航| 91传媒免费视频| 美女一区二区久久| 白白色免费视频| 亚洲国产精品嫩草影院| 国产免费av观看| 中文字幕不卡在线视频极品| 亚洲风情在线资源| 激情伦成人综合小说| 一区二区在线影院| 天天爽夜夜爽一区二区三区| 久久久久久久久99精品| 成年人午夜视频| 亚洲国产91色在线| 性欧美ⅴideo另类hd| 92国产精品久久久久首页| 色综合久久一区二区三区| 日本va中文字幕| 久久久一区二区三区| 在线观看日韩中文字幕| 亚洲二区在线播放视频| 日韩激情av| 波多野结衣久草一区| 亚洲国产精品91| 欧美激情第一区| 亚洲视频香蕉人妖| 在线观看日批视频| 最近2019好看的中文字幕免费| 日韩av超清在线观看| 午夜精品视频在线观看一区二区| 久久天堂成人| 亚洲理论片在线观看| 在线观看日韩国产| av在线电影观看| 国产精品视频1区| 日韩欧美综合| 一区二区成人网| 中文字幕亚洲一区二区av在线 | 日韩在线不卡av| 8v天堂国产在线一区二区| 麻豆网站在线观看| 91亚洲永久免费精品| 欧美日韩精选| 人妖粗暴刺激videos呻吟| 亚洲va欧美va人人爽午夜| 香蕉国产在线视频| 欧美亚洲激情在线| 狠狠操综合网| 天天干天天色天天干| 亚洲乱码日产精品bd| 亚洲AV无码一区二区三区性| 久久久久久久久爱| 欧美极品中文字幕| 色婷婷.com| 亚洲一区二区三区四区五区中文 | 高清不卡一二三区| 国产成人精品a视频一区| 亚洲奶大毛多的老太婆| 91p九色成人| 免费观看中文字幕| eeuss影院一区二区三区| 日韩视频在线观看一区| 日日骚av一区| 91亚洲无吗| 国产午夜福利视频在线观看| 国产亚洲欧美中文| av手机免费看| 清纯唯美亚洲激情| 日韩影院二区| 白丝校花扒腿让我c| 一本大道久久a久久精二百| 麻豆传媒视频在线观看免费| 国产精品久久久久久久小唯西川| 国产精品普通话对白| 超碰人人干人人| 欧美videos中文字幕| 国产综合色区在线观看| 老司机午夜网站| 久久一夜天堂av一区二区三区 | 澳门成人av网| 99精品一区二区三区的区别| 99久久99精品久久久久久| 亚洲天堂avav|