精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

一日一技:圖文結合,大模型自動抓取列表頁

人工智能
CogView-3-Plus能夠提供更加精細的文生圖能力。如果我們使用GLM-4V-Plus抓取網頁,使用GLM-4-Plus分析網頁的內容并生成文案,最后使用CogView-3-Plus生成配圖,然后自動發小紅書或者公眾號,形成閉環。

熟悉我的同學都知道,GNE可以自動化提取任意文章頁面的正文,專業版GnePro的準確率更是在13萬個網站中達到了90%。

但GNE一直不支持列表頁的自動抓取。這是因為列表頁的列表位置很難定義。例如下面這張圖片:

圖片圖片

對人來說,要找到文章列表很簡單,紅色方框框住的部分就是我們需要的文章列表。但如果讓程序自動根據HTML格式相似的規律來尋找列表頁,它可能會提取出藍色方框的位置、綠色方框的位置、灰色方框的位置,甚至導航欄。

之前我也試過使用ChatGPT來提取文章列表,但效果并不理想。因為傳給大模型HTML以后,他也不能知道這里面某個元素在瀏覽器打開以后,會出現什么位置。因此它本質上還是通過HTML找元素相似的規律來提取列表項目。那么其實沒有解決我的根本問題,上圖中的藍色、綠色、灰色位置還是經常會提取到。

前兩天使用GLM-4V識別驗證碼以后,我對智譜的大模型在爬蟲領域的應用充滿了期待。正好這兩天智譜上線了視頻/圖片理解的旗艦模型GLM-4V-Plus。于是我突然有了一個大膽的想法,能不能結合圖片識別加上HTML,讓大模型找到真正的文章列表位置呢?

說干就干,我這次使用少數派的Matrix精選頁面來進行測試。如下圖所示:

圖片圖片

需要注意的是,這個頁面是異步加載的頁面,因此通過在開發者工具中右鍵來獲取包含列表頁的源代碼,如下圖所示:

圖片圖片

接下來,為了節省Token省錢,我首先對這個HTML進行清洗,移除一些顯然不需要的HTML元素:

from lxml.html import fromstring, HtmlElement
from lxml.html import etree

def remove_node(node: HtmlElement):
    """
    this is a in-place operation, not necessary to return
    :param node:
    :return:
    """
    parent = node.getparent()
    if parent is not None:
        parent.remove(node)

with open('/Users/kingname/Downloads/sspai.html') as f:
    html = f.read()
selector = fromstring(html)

USELESS_TAG = ['style', 'script', 'link', 'video', 'iframe', 'source', 'picture', 'header', 'blockquote',
               'footer', 'svg']
for tag in USELESS_TAG:
    eles = selector.xpath(f'//{tag}')
    for ele in eles:
        remove_node(ele)


html_clean = etree.tostring(selector, pretty_print=True, encoding='unicode')
print(html_clean)

代碼如下圖所示:

圖片圖片

其實有很多頁面,在源代碼里面會有一個<script>標簽,它有一個type屬性,值是application/ld+json。它的text是一個大JSON,包含了頁面上的所有有用信息。只需要提取這個JSON并解析就能拿到需要的全部信息。不過這個情況不在今天的討論范圍,因此我們也把<script>一并刪去。

接下來,對少數派這個列表頁做一下截圖,調用GLM-4V-Plus模型時,同時上傳截圖和源代碼。如下圖所示:

圖片圖片

在system里面,我定義了一個函數,并通過注釋說明這個函數需要實現什么功能。讓GLM-4V-Plus首先理解圖片,然后分析HTMl,并補全我的Python代碼。

最后運行生成的代碼如下圖所示:

圖片

我把這段代碼復制出來執行,發現可以正確解析出列表頁中每篇文章的標題和URL,如下圖所示:

圖片圖片

它自動生成的XPath,到少數派頁面上手動驗證,發現確實能夠正確找到每一篇文章:

圖片圖片

看起來,GLM-4V-Plus模型確實天然適合做爬蟲:既能識別驗證碼,又可以識別網頁生成XPath提取數據。如果我再把DrissionPage用上,解決反爬蟲問題,最后通過模型的Tool Call機制來控制DP操作頁面,那就是全自動爬蟲了。后面就有無限的想象力了。

如果大家對GLM-4V-Plus+DrissionPage結合的全自動爬蟲有興趣,請在本文下面留言。我們下一篇文章,就來實現這個真正意義上的,自己動,自己抓,自己解析的,擁有自己大腦的全自動爬蟲。

除了GLM-4V-Plus 外,這一次的旗艦模型還有GLM-4-Plus和CogView-3-Plus模型。

GLM-4-Plus無論是解決復雜的數學問題、解析深奧的代碼算法,還是理解并解答各類邏輯推理題都有了極大的提升。使得模型能夠更好地反映人類的思維方式和偏好。

CogView-3-Plus能夠提供更加精細的文生圖能力。如果我們使用GLM-4V-Plus抓取網頁,使用GLM-4-Plus分析網頁的內容并生成文案,最后使用CogView-3-Plus生成配圖,然后自動發小紅書或者公眾號,形成閉環。

責任編輯:武曉燕 來源: 未聞Code
相關推薦

2024-10-16 21:47:15

2024-08-27 22:08:13

2024-11-11 00:38:13

Mypy靜態類型

2021-04-27 22:15:02

Selenium瀏覽器爬蟲

2021-10-15 21:08:31

PandasExcel對象

2025-05-28 03:15:00

Scrapy數據sleep

2021-04-12 21:19:01

PythonMakefile項目

2023-10-28 12:14:35

爬蟲JavaScriptObject

2021-04-19 23:29:44

MakefilemacOSLinux

2024-11-13 09:18:09

2022-06-28 09:31:44

LinuxmacOS系統

2021-09-13 20:38:47

Python鏈式調用

2021-03-12 21:19:15

Python鏈式調用

2021-04-05 14:47:55

Python多線程事件監控

2024-07-30 08:11:16

2024-07-30 08:16:18

Python代碼工具

2022-03-12 20:38:14

網頁Python測試

2021-05-08 19:33:51

移除字符零寬

2024-07-19 18:23:17

2021-07-27 21:32:57

Python 延遲調用
點贊
收藏

51CTO技術棧公眾號

欧美性大战久久久久久久蜜臀| 欧美r级在线| 99免费精品| 欧美一区二区网站| 人人妻人人添人人爽欧美一区| 青青操在线视频| 久久成人免费日本黄色| 欧美理论电影在线播放| 中文在线一区二区三区| a成人v在线| 亚洲尤物视频在线| 日韩欧美视频一区二区| 亚洲h视频在线观看| 玖玖在线精品| 欧美—级高清免费播放| 亚洲无人区码一码二码三码的含义 | 国产黄色的视频| 麻豆成人入口| 91精品国产综合久久精品图片| 国产精品12345| 在线看免费av| 99国产精品久久久久久久久久| 国产精品免费网站| 日本熟妇成熟毛茸茸| 久久在线视频| 精品一区二区三区四区在线| 日韩av福利在线观看| 婷婷激情一区| 欧美日韩亚洲91| 老司机午夜网站| 第一页在线观看| 99久久婷婷国产| 91福利视频导航| 中文字幕自拍偷拍| 久久精品麻豆| 97在线视频免费观看| 欧美日韩色视频| 国产一区不卡| 亚洲精品videossex少妇| 亚洲国产欧美日韩在线| 日韩av黄色| 91黄色免费看| 久久久久久香蕉| 3344国产永久在线观看视频| 依依成人综合视频| 精品一区二区成人免费视频| 啊v视频在线| 国产亚洲欧洲997久久综合| 成人免费在线看片| www.成人精品| 国产电影一区二区三区| 成人一区二区电影| 97人妻精品一区二区三区动漫| 久久久蜜桃一区二区人| 国产91精品久久久久| 国产一级性生活| 在线精品一区| 2019亚洲日韩新视频| 日本一二三区视频| 亚洲精品影院在线观看| 91精品国产电影| 天海翼一区二区| 国产精品三上| 国产aaa精品| 亚洲性猛交富婆| 捆绑调教美女网站视频一区| 国产精品久久久久久久9999| 亚洲网站免费观看| 激情久久五月天| 91久久嫩草影院一区二区| 99国产精品99| 国产99久久久国产精品潘金| 狠狠色综合欧美激情| 嫩草在线播放| 国产精品网站导航| 中文字幕超清在线免费观看| 黄色的视频在线观看| 性久久久久久久久久久久| 女人喷潮完整视频| 成人av集中营| 9191国产精品| 在线视频 日韩| 国产欧美亚洲精品a| 色系列之999| 精品一区免费观看| 久久只有精品| 91影视免费在线观看| 欧美视频一二区| 久久久综合精品| 亚洲自拍的二区三区| 婷婷在线播放| 色综合婷婷久久| 免费网站在线观看黄| 成人动态视频| 国产一区二区三区18| 欧美日韩在线观看成人| 国产亚洲激情| 91在线免费看网站| 亚州视频一区二区三区| 国产精品久久久久久户外露出| av 日韩 人妻 黑人 综合 无码| 鲁鲁在线中文| 91精品国产黑色紧身裤美女| 精品无码国产一区二区三区51安| 成人羞羞网站| 91精品国产91久久久| 一级黄色录像大片| 99国产麻豆精品| 四虎永久免费网站| 春暖花开亚洲一区二区三区| 欧美变态凌虐bdsm| 久久久国产一级片| 亚洲第一网站| 91久久精品一区二区别| 国产在线电影| 午夜成人在线视频| 中文字幕第66页| 第四色成人网| 欧美亚洲视频一区二区| www.麻豆av| 国产精品福利一区| 情侣黄网站免费看| 成人福利一区| 久久伊人色综合| 少妇一级淫片日本| 久久综合狠狠综合久久综合88| 亚洲啊啊啊啊啊| 日本在线一区二区| 中文字幕久久精品| 91video| 成人激情综合网站| 亚洲黄色网址在线观看| 成人软件在线观看| 精品亚洲永久免费精品| 日韩三级一区二区三区| 福利视频网站一区二区三区| 警花观音坐莲激情销魂小说| 国产精品传媒麻豆hd| 亚洲午夜久久久久久久| 久久国产黄色片| www..com久久爱| av无码久久久久久不卡网站| 一区三区自拍| 国产做受高潮69| 刘亦菲毛片一区二区三区| 亚洲自拍偷拍九九九| 日韩久久久久久久久久久| 91不卡在线观看| 91精品视频在线看| 最新日本在线观看| 日韩视频一区二区三区| 激情视频在线播放| 国产不卡视频一区二区三区| 免费高清一区二区三区| 岛国精品一区| 26uuu另类亚洲欧美日本一 | 成人午夜精品一区二区三区| 国产爆乳无码一区二区麻豆| 98视频精品全部国产| 国内成人精品视频| 亚洲欧美日韩免费| 欧美午夜无遮挡| 亚洲精品色午夜无码专区日韩| 日日夜夜精品视频天天综合网| 日韩福利二区| 亚洲一区av| 欧美国产视频一区二区| 少妇人妻偷人精品一区二区| 一道本成人在线| 日本一二三不卡视频| 奇米精品一区二区三区在线观看| 国产伦精品一区二区三区高清版| 91高清视频在线观看| 精品人在线二区三区| 久久精品久久国产| 国产99久久久久| 日韩精品 欧美| 美女亚洲一区| 国产精品三级网站| 国产黄色免费在线观看| 欧美一区二区女人| 免费中文字幕视频| av一区二区三区黑人| 日韩 欧美 高清| 亚洲精品一区二区妖精| 91国产丝袜在线放| 欧美aa在线| 永久免费看mv网站入口亚洲| 亚洲AV无码国产精品午夜字幕 | 自拍亚洲欧美老师丝袜| 国产精品亚洲一区二区在线观看| 欧美风情在线观看| 香蕉av一区二区三区| 欧美剧情片在线观看| 欧美精品入口蜜桃| 99re这里只有精品6| 不卡影院一区二区| 91久久夜色精品国产按摩| 亚洲尤物视频网| 午夜不卡影院| 精品国产一区二区三区久久| 国产精品无码天天爽视频| 亚洲成人av一区二区| 色欲AV无码精品一区二区久久| 韩国精品免费视频| 乱妇乱女熟妇熟女网站| 91精品啪在线观看国产81旧版| 91蜜桃网站免费观看| 肉色欧美久久久久久久免费看| 欧美xxxx18国产| 视频二区在线观看| 欧美一区二区精美| 中文字幕在线欧美| 亚洲日本在线天堂| 日韩人妻无码一区二区三区| 成人午夜在线免费| 日本中文字幕观看| 亚洲自拍另类| 日韩不卡一二区| 999久久久精品国产| 久久国产欧美精品| 国产电影一区二区| 国产精品∨欧美精品v日韩精品| caoporn-草棚在线视频最| 在线亚洲男人天堂| 手机看片福利在线观看| 91精品国产色综合久久久蜜香臀| 国产一级片毛片| 一区二区在线观看av| 少妇视频在线播放| 91啪亚洲精品| 中文字幕av一区二区三区人妻少妇| 免费一区视频| 免费的一级黄色片| 日韩一区亚洲二区| 久久天天狠狠| 97色成人综合网站| 亚洲最大福利网站| 日本成人一区二区| 国产综合香蕉五月婷在线| 卡通欧美亚洲| 欧美又大又硬又粗bbbbb| 麻豆蜜桃在线| 欧美激情手机在线视频 | 夜夜嗨av一区二区三区四区| 亚洲大尺度视频| 欧美成人一区二区| 国产精品天天操| 337p亚洲精品色噜噜狠狠| 无码人妻久久一区二区三区| 91国产福利在线| av片免费观看| 日本久久精品电影| 成人免费看片98欧美| 丁香五六月婷婷久久激情| 久青草免费视频| 一区二区三区精品视频在线| 男女全黄做爰文章| 亚洲免费视频成人| 中文字幕av播放| 亚洲三级在线播放| 污污的视频在线免费观看| 伊人开心综合网| 精品无码一区二区三区电影桃花 | 国产在线观看免费av| 伊人性伊人情综合网| 三上悠亚作品在线观看| 一区二区三区资源| 欧美片一区二区| 亚洲一区二区在线视频| 日本一级黄色录像| 欧美日韩一区二区三区在线免费观看 | 日韩在线资源网| 久久日韩视频| 中文字幕成人在线| 日韩av毛片| 97人洗澡人人免费公开视频碰碰碰| 波多野一区二区| 欧美理论电影在线观看| 看黄在线观看| 国产精品久久久久一区二区| 婷婷久久免费视频| 国产精品伊人日日| 午夜先锋成人动漫在线| 午夜老司机精品| 亚洲一区欧美| 国产真实老熟女无套内射| 视频在线观看一区二区三区| 天天干天天爽天天射| 国产一区二区在线看| 无码国产精品一区二区免费式直播 | 国内自拍视频网| 韩国成人在线视频| 无码精品一区二区三区在线播放| 国产三级精品视频| 亚洲天堂黄色片| 欧美日韩美女视频| 亚洲一级片免费看| 日韩大陆欧美高清视频区| 精品99又大又爽又硬少妇毛片| 久久久成人精品视频| 僵尸再翻生在线观看| 91精品一区二区| 日韩最新在线| 一区二区三区在线视频111| 亚洲片区在线| 中文字幕第38页| 高清久久久久久| 美国一级黄色录像| 亚洲v中文字幕| 亚洲特级黄色片| 亚洲欧美激情另类校园| 国产网友自拍视频导航网站在线观看| 久久久亚洲影院| 欧美韩国亚洲| 久久久久一区二区三区| 欧美www视频在线观看| 欧美一级片免费播放| 国产乱子伦一区二区三区国色天香| 在线精品视频播放| 国产精品传媒视频| 国产黄色免费观看| 亚洲国产三级网| 国产最新在线| 国产精品老女人精品视频| 亚洲bt欧美bt精品777| 中文字幕色呦呦| 蜜臀91精品一区二区三区| 粉嫩av懂色av蜜臀av分享| 亚洲一区二区三区视频在线| 在线观看中文字幕2021| 日韩精品欧美国产精品忘忧草 | 中文字幕在线欧美| 欧美一级欧美三级在线观看 | 超碰成人福利| 免费看日b视频| 国产最新精品精品你懂的| 国产高清一区二区三区四区| 一区二区三区在线免费视频| 中文字幕在线观看欧美| 永久免费精品影视网站| 精品众筹模特私拍视频| 97久久夜色精品国产九色| 亚州av乱码久久精品蜜桃| 久热精品在线播放| 国产精品卡一卡二| 中文字幕日本视频| 国产一区二区av| 乡村艳史在线观看| 免费国产在线精品一区二区三区| 亚洲激情另类| 精品人妻伦一二三区久| 亚洲超碰97人人做人人爱| 亚洲精品18p| 欧美激情一级欧美精品| 久久免费视频66| 精品这里只有精品| av在线综合网| 久久夜色精品国产噜噜亚洲av| 亚洲精品999| 一个人www视频在线免费观看| 国产精品国产精品| 亚洲影视在线| 欧美图片第一页| 在线观看精品一区| 麻豆av在线免费看| 91久久久亚洲精品| 欧美视频一区| 久久国产精品无码一级毛片| 欧美日韩国产中文精品字幕自在自线 | 国产www视频在线观看| 国产伦理一区二区三区| 亚洲精品影视| 人妻精品久久久久中文字幕| 色网站国产精品| 日韩黄色影院| 国产中文一区二区| 日一区二区三区| 你懂得在线观看| 亚洲福利视频二区| jizz内谢中国亚洲jizz| 亚洲a∨一区二区三区| 国产成人一级电影| 国产精品999在线观看| 国产一区二区三区精品久久久| 精品国产三级| 真人抽搐一进一出视频| 久久久亚洲高清| 最新中文字幕在线观看视频| 日韩午夜在线视频| 超碰97久久| 天天干天天草天天| 亚洲一区中文日韩| 久草在线青青草| 91手机在线观看| 午夜亚洲福利在线老司机| 免费看的黄色网| 亚洲国产精彩中文乱码av在线播放| 国产高清不卡| 欧美交换配乱吟粗大25p|