精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

本地構建Llama 3.2-Vision多模態LLM聊天應用實戰

譯文 精選
人工智能
在本文中,我們將學習如何使用開源Llama3.2-Vision模型與我們提供的圖像聊天,其間你會驚嘆于該模型的OCR、圖像理解和推理能力。示例工程的所有代碼都將方便地提供在一個Colab筆記本文件中。

譯者 | 朱先忠

審校 | 重樓

本文將以實戰案例探討如何在類似聊天的模式下從本地構建Llama3.2-Vision模型,并在Colab筆記本上探索其多模態技能。

簡介

視覺功能與大型語言模型(LLM)的集成正在通過多模態LLM(MLLM)徹底改變計算機視覺領域。這些模型結合了文本和視覺輸入,在圖像理解和推理方面表現出令人印象深刻的能力。雖然這些模型以前只能通過API訪問,但是最近發布的一些開源項目已經支持在本地執行,這使得它們對生產環境中一線應用更具吸引力。

在本文中,我們將學習如何使用開源Llama3.2-Vision模型與我們提供的圖像聊天,其間你會驚嘆于該模型的OCR、圖像理解和推理能力。示例工程的所有代碼都將方便地提供在一個Colab筆記本文件中。

Llama 3.2-Vision模型

背景

Llama是“大型語言模型MetaAI”的縮寫,是Meta公司開發的一系列高級大語言模型。他們的產品Llama 3.2推出了先進的視覺功能。視覺變體有兩種大小:11B和90B參數,可在邊緣設備上進行推理。Llama 3.2具有高達128k個標記的上下文窗口,支持高達1120x1120像素的高分辨率圖像,可以處理復雜的視覺和文本信息。

架構

Llama系列模型是僅使用解碼器的轉換器。Llama3.2-Vision模型建立在預訓練的Llama 3.1純文本模型之上。它采用標準的密集自回歸轉換器架構,與其前身Llama和Llama 2并無太大差異。

為了支持視覺任務,Llama 3.2使用預訓練的視覺編碼器(ViT-H/14)提取圖像表示向量,并使用視覺適配器將這些表示集成到凍結語言模型中。適配器由一系列交叉注意層組成,允許模型專注于與正在處理的文本相對應的圖像的特定部分(參考文獻【1】)。

適配器基于“文本-圖像”對進行訓練,以使圖像表示與語言表示對齊。在適配器訓練期間,圖像編碼器的參數會更新,而語言模型參數保持凍結以保留現有的語言能力。

Llama 3.2-Vision模型架構:視覺模塊(綠色)集成到固定語言模型(粉紅色)中

這種設計使Llama 3.2在多模態任務中表現出色,同時保持其強大的純文本性能。生成的模型在需要圖像和語言理解的任務中展示了令人印象深刻的能力,并允許用戶與他們的視覺輸入進行交互式交流。

編碼實戰

有了對Llama 3.2架構的基本了解后,讓我們深入研究其實際實現。但首先,我們需要做一些準備工作。

準備

在Google Colab上運行Llama3.2—Vision11B之前,我們需要做一些準備:

1.GPU設置

  • 建議使用至少具有22GB VRAM的高端GPU進行高效推理(參考文獻【2】)。
  • 對于Google Colab用戶來說:需要導航至“運行時”>“更改運行時類型”>“A100 GPU”。請注意,高端GPU可能不適用于免費的Colab用戶。

2.模型權限

請求訪問Llama 3.2模型在鏈接https://www.llama.com/llama-downloads/處提供。

3.HuggingFace設置

如果你還沒有Hugging Face賬戶,請在鏈接https://huggingface.co/join處創建一個。

如果你沒有Hugging Face賬戶,請在鏈接https://huggingface.co/join處生成訪問令牌。

對于Google Colab用戶,請在谷歌Colab Secrets中將Hugging Face令牌設置為名為“HF_TOKEN”的秘密環境變量。

4.安裝所需的庫

加載模型

設置環境并獲得必要的權限后,我們將使用Hugging Face轉換庫來實例化模型及其相關的處理器。處理器負責為模型準備輸入并格式化其輸出。

model_id = "meta-llama/Llama-3.2-11B-Vision-Instruct"

model = MllamaForConditionalGeneration.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto")

processor = AutoProcessor.from_pretrained(model_id)

預期的聊天模板

聊天模板通過存儲“用戶”(我們)和“助手”(AI模型)之間的交流,通過對話歷史記錄來維護上下文。對話歷史記錄的結構為一個稱為消息的字典列表,其中每個字典代表一個對話輪次,包括用戶和模型響應。用戶輪次可以包括圖像文本或純文本輸入,其中{"type": "image"}表示圖像輸入。

例如,經過幾次聊天迭代后,消息列表可能如下所示:

messages = [
{"role": "user",      "content": [{"type": "image"}, {"type": "text", "text": prompt1}]},
{"role": "assistant", "content": [{"type": "text", "text": generated_texts1}]},
{"role": "user",      "content": [{"type": "text", "text": prompt2}]},
{"role": "assistant", "content": [{"type": "text", "text": generated_texts2}]},
{"role": "user",      "content": [{"type": "text", "text": prompt3}]},
{"role": "assistant", "content": [{"type": "text", "text": generated_texts3}]}
]

此消息列表隨后會傳遞給apply_chat_template()方法,以便將對話轉換為模型期望格式的單個可標記字符串。

主函數

在本教程中,我提供了一個chat_with_mllm函數,該函數可實現與Llama 3.2 MLLM的動態對話。此函數能夠處理圖像加載、預處理圖像和文本輸入、生成模型響應并管理對話歷史記錄以啟用聊天模式交互。

def chat_with_mllm (model, processor, prompt, images_path=[],do_sample=False, temperature=0.1, show_image=False, max_new_tokens=512, messages=[], images=[]):

# 確保列表形式:
if not isinstance(images_path, list):
images_path =  [images_path]

#加載圖像
if len (images)==0 and len (images_path)>0:
for image_path in tqdm (images_path):
image = load_image(image_path)
images.append (image)
if show_image:
display ( image )

#如果開始了一個關于一個圖像的新的對話
if len (messages)==0:
messages = [{"role": "user", "content": [{"type": "image"}, {"type": "text", "text": prompt}]}]

# 如果繼續對圖像進行對話
else:
messages.append ({"role": "user", "content": [{"type": "text", "text": prompt}]})

# 處理輸入數據
text = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(images=images, text=text, return_tensors="pt", ).to(model.device)

    生成相應
generation_args = {"max_new_tokens": max_new_tokens, "do_sample": True}
if do_sample:
generation_args["temperature"] = temperature
generate_ids = model.generate(**inputs,**generation_args)
generate_ids = generate_ids[:, inputs['input_ids'].shape[1]:-1]
generated_texts = processor.decode(generate_ids[0], clean_up_tokenization_spaces=False)

# 附加該模型對對話歷史記錄的響應
messages.append ({"role": "assistant", "content": [  {"type": "text", "text": generated_texts}]})

return generated_texts, messages, images

與Llama聊天

蝴蝶圖像示例

在我們的第一個示例中,我們將與Llama3.2進行聊天,討論一張孵化蝴蝶的圖像。由于Llama3.2-Vision在使用圖像時不支持使用系統提示進行提示,因此我們將直接在用戶提示中附加說明,以指導模型的響應。通過設置do_sample=True和temperature=0.2,我們可以在保持響應一致性的同時實現輕微的隨機性。對于固定答案,你可以設置do_sample==False。保存聊天歷史記錄的messages參數最初為空,如images參數中所示:

instructions = "Respond concisely in one sentence."
prompt = instructions + "Describe the image."

response, messages,images= chat_with_mllm ( model, processor, prompt,
images_path=[img_path],
do_sample=True,
temperature=0.2,
show_image=True,
messages=[],
images=[])

# 輸出:"The image depicts a butterfly emerging from its chrysalis, 
#           with a row of chrysalises hanging from a branch above it."

圖片來自Pixabay(https://www.pexels.com/photo/brown-and-white-swallowtail-butterfly-under-white-green-and-brown-cocoon-in-shallow-focus-lens-63643/)。

我們可以看到,輸出準確而簡潔,表明模型有效地理解了圖像。

對于下一次聊天迭代,我們將傳遞一個新提示以及聊天歷史記錄和圖像文件。新提示旨在評估Llama3.2的推理能力:

prompt = instructions + "What would happen to the chrysalis in the near future?"
response, messages, images= chat_with_mllm ( model, processor, prompt,
images_path=[img_path,],
do_sample=True,
temperature=0.2,
show_image=False,
messages=messages,
images=images)

# 輸出: "The chrysalis will eventually hatch into a butterfly."

我們在提供的Colab筆記本中繼續此聊天,并得到了以下對話:

對話通過準確描述場景,突出了模型的圖像理解能力。它還展示了它的推理能力,通過邏輯地連接信息來正確推斷蛹會發生什么,并解釋為什么有些蛹是棕色的,而有些蛹是綠色的。

模因圖像示例

在這個例子中,我將向模型展示我自己創建的模因,以評估Llama的OCR能力并確定它是否理解我的幽默感。

instructions = "You are a computer vision engineer with sense of humor."
prompt = instructions + "Can you explain this meme to me?"


response, messages,images= chat_with_mllm ( model, processor, prompt,
images_path=[img_path,],
do_sample=True,
temperature=0.5,
show_image=True,
messages=[],
images=[])

這是輸入模因:

作者制作的表情包。原始熊圖像由Hans-Jurgen Mager制作。

這是模型的回應:

我們可以看到,該模型展示了出色的OCR能力,并理解了圖像中文本的含義。至于它的幽默感——你覺得怎么樣,它明白了嗎?你明白了嗎?也許我也應該努力培養我的幽默感!

結束語

在本文中,我們學習了如何在本地構建Llama3.2-Vision模型并管理聊天式交互的對話歷史記錄,從而增強用戶參與度。我們探索了Llama 3.2的零樣本能力,并領悟了其場景理解、推理和OCR技能。

我們還可以將其他一些高級技術應用于Llama 3.2,例如對獨特數據進行微調,或使用檢索增強生成(RAG)來進行預測并減少幻覺。

總體而言,本文帶領你深入了解了快速發展的多模態LLM領域及其在各種應用中的強大功能。

參考文獻

【0】本文示例項目在Colab Notebook地址:https://gist.github.com/Lihi-Gur-Arie/0e87500813c29bb4c4a6a990795c3aaa

【1】Llama 3模型介紹地址:https://arxiv.org/pdf/2407.21783

【2】Llama 3.2 11B Vision模型要求:https://llamaimodel.com/requirements-3-2/

譯者介紹

朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:Chat with Your Images Using Llama 3.2-Vision Multimodal LLMs,作者:Lihi Gur Arie

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2024-12-16 07:00:00

2024-01-11 16:24:12

人工智能RAG

2025-01-08 08:21:16

2024-10-29 11:54:25

2023-11-10 08:00:00

微服務架構開發

2024-08-08 13:04:28

2024-12-18 18:57:58

2023-10-31 16:37:55

大型語言模型人工智能

2024-03-12 10:05:47

大型語言模型

2024-09-26 14:40:45

2024-07-11 16:16:27

ChatGPTLLM

2025-05-06 08:40:00

2024-11-19 14:40:00

AI技術

2024-09-26 17:54:10

2024-11-22 08:22:58

2024-07-02 09:00:00

2024-07-31 08:14:17

2024-11-19 15:00:00

模型開源

2025-03-18 08:00:00

大語言模型KubeMQOpenAI

2023-12-25 09:07:50

AI人工智能Ferret
點贊
收藏

51CTO技術棧公眾號

一本色道久久综合亚洲91| 国产激情一区二区三区桃花岛亚洲| 日韩久久免费电影| 国产一线二线三线在线观看| 福利在线视频网站| 播五月开心婷婷综合| 国产精品jizz在线观看麻豆| 亚洲天堂一级片| 日本xxxx免费| 国产综合无码一区二区色蜜蜜| 亚洲视频成人| 久久久精品国产亚洲| 屁屁影院国产第一页| 精品国产美女a久久9999| 亚洲一区二区视频在线| 日韩精品第一页| 亚洲第一天堂网| 美女视频黄a大片欧美| 午夜精品一区二区三区在线视频 | 激情综合色综合久久| 韩国精品美女www爽爽爽视频| 欧美自拍偷拍网| 欧美挤奶吃奶水xxxxx| 欧美日本在线播放| 激情综合在线观看| 女人黄色免费在线观看| 中文字幕av一区二区三区免费看| 国产精品一区二区你懂得| 一级片视频网站| 噜噜爱69成人精品| 97免费中文视频在线观看| 侵犯稚嫩小箩莉h文系列小说| 国产精品免费大片| 亚洲精品国产电影| 成人精品视频99在线观看免费 | 午夜视频在线观看一区二区| 在线播放 亚洲| 黄色软件在线| www国产精品av| 国产精品一区在线观看| 精品久久久久久亚洲综合网站| 免费不卡在线观看| 日韩美女在线看| 亚洲精品男人的天堂| 韩日成人在线| 欧美国产高跟鞋裸体秀xxxhd| 免费在线观看黄色小视频| 国产一区二区三区91| 精品视频在线导航| 中文字幕 亚洲一区| 国产suv精品一区| 精品国产凹凸成av人网站| 日本成人xxx| 精品视频在线一区| 日韩精品一区二| 在线播放第一页| 国产精品超碰| 日韩精品在线观| 国产做受69高潮| 9191在线视频| 午夜久久av| 精品国产不卡一区二区三区| 2一3sex性hd| 亚洲第一福利社区| 一区二区三区视频观看| 欧美亚洲色综久久精品国产| 欧美黄色录像片| 欧美精品生活片| 日本少妇吞精囗交| 久久精品人人做人人爽电影蜜月| 国产精品久久久久77777| 夜夜躁很很躁日日躁麻豆| 韩国v欧美v日本v亚洲v| 99国产高清| 五月婷婷丁香花| 国产丝袜欧美中文另类| 亚洲一卡二卡三卡| 国产91在线视频蝌蚪| 一区二区三区成人| heyzo亚洲| 草莓视频成人appios| 6080yy午夜一二三区久久| 欧美人与性动交α欧美精品| 精品国产一区二区三区不卡蜜臂| 亚洲美女在线视频| 日韩在线视频免费看| 欧美午夜一区| 国产成人一区二区三区| 国产喷水吹潮视频www| 成年人国产精品| 亚洲春色在线视频| 国产精品探花在线| 欧美性色欧美a在线播放| 亚洲精品中文字幕乱码无线| 疯狂撞击丝袜人妻| 亚洲综合色婷婷在线观看| 亚洲加勒比久久88色综合 | 国产精品久久三区| 无码人妻精品一区二区蜜桃网站| 亚洲插插视频| 欧美二区三区91| 大地资源二中文在线影视观看 | 99久久精品国产导航| 日韩中文字幕一区| 成人女同在线观看| 精品视频一区二区不卡| 好吊色视频一区二区三区| 波多野结衣的一区二区三区| 久久久久久亚洲精品中文字幕 | 亚洲第一网站男人都懂| 男女男精品视频网站| 国产一区二区你懂的| 成人国产精品久久久| 飘雪影院手机免费高清版在线观看 | 麻豆精品国产传媒mv男同 | 日本欧美肥老太交大片| 久久久久中文字幕| 国产一区二区三区黄片| 久久午夜老司机| 福利在线一区二区| 高清一区二区三区av| 亚洲最新视频在线| 久久99精品波多结衣一区| 国产精品一二三| 热这里只有精品| jizz免费一区二区三区| 亚洲欧美www| 日韩 国产 在线| 国产精品18久久久久| 中文字幕av导航| 国产成人福利夜色影视| 亚洲欧洲国产一区| 羞羞影院体验区| 99在线热播精品免费| 国产精品久久..4399| 日韩视频一二区| 精品久久久999| 国产一区二区三区在线观看| 蜜桃视频在线观看www| 成人av电影在线| 久久久国内精品| 国产亚洲观看| 久色乳综合思思在线视频| 在线免费看91| 国产精品国产三级国产aⅴ原创| 国产精品亚洲二区在线观看| 久久99高清| 国产精品电影观看| 69久久精品| 欧美日韩免费不卡视频一区二区三区| 四虎成人免费影院| 日韩高清一区在线| 亚洲一区二区三区精品视频| 热久久久久久| 久久av红桃一区二区小说| 一级做a爱片久久毛片| 国产精品久久久久9999吃药| www.色欧美| 综合久久精品| 超碰在线97av| 蜜桃视频在线网站| 亚洲美女av在线| 国产精品高清无码| 国产精品福利一区| 一级黄色免费毛片| 亚洲一级网站| 欧美一区三区二区在线观看| 久久亚洲国产精品尤物| 超薄丝袜一区二区| 免费国产羞羞网站视频| 欧美日韩国内自拍| 夫妇交换中文字幕| 国产一区二区三区免费观看| 久艹在线免费观看| 欧美特黄一级视频| 五月激情六月综合| av小说在线观看| 日韩成人一区二区| 日韩不卡一二区| 国偷自产av一区二区三区| 日韩av免费在线| 日本不卡三区| 亚洲电影免费观看高清完整版在线| 中文字幕精品三级久久久| 国产精品午夜春色av| 亚洲天堂网站在线| 国产一区二区三区久久久久久久久| 日韩av图片| 日本一区二区三区视频在线看 | 亚洲精品久久久久久一区二区| 国产va免费精品观看精品| 午夜精品一区二区三区在线视| yw193.com尤物在线| 日韩午夜激情视频| 日韩精品在线免费视频| 日韩毛片视频在线看| 污污污www精品国产网站| 美女尤物国产一区| 国产无限制自拍| 久久精品播放| 久久久水蜜桃| 老司机亚洲精品一区二区| 欧美一区第一页| 日本片在线观看| 欧洲一区二区av| 欧美精品videos极品| 国产日韩欧美一区二区三区综合| 欧美日韩一区二区区别是什么| 日韩中文字幕不卡| 日韩网站在线免费观看| 欧美hentaied在线观看| 欧美日韩国产免费一区二区三区| 精品午夜视频| 国产精品一区二区久久精品| 性感女国产在线| 久久久久久久久久久久久久久久久久av | 伊人伊成久久人综合网站| 亚洲成人一级片| 欧美卡1卡2卡| 国产精品自拍第一页| 污片在线观看一区二区| 欧美日韩精品在线观看视频| 中文字幕不卡的av| 国产成人av一区二区三区不卡| 粉嫩13p一区二区三区| 欧美日韩久久婷婷| 久久电影网站中文字幕| 欧美一级裸体视频| 免费在线亚洲欧美| 精品人妻少妇一区二区| 欧美日韩国产欧| 樱空桃在线播放| 91一区二区三区四区| 四虎影院一区二区三区 | 欧美日韩一区二区三区电影| 精品国精品国产自在久国产应用| 久久精彩视频| 同性恋视频一区| 精品一区国产| 欧美wwwsss9999| 国产美女精品在线观看| av综合网站| 国产亚洲一区在线播放| 大香伊人久久精品一区二区| 国产精品高清一区二区三区| 波多野结衣在线一区二区| 国产精品综合久久久久久| 中文无码日韩欧| 国产精品福利视频| 6080亚洲理论片在线观看| 91久久精品国产91久久性色tv| 四虎国产精品成人免费影视| 成人天堂噜噜噜| 玖玖精品一区| 99久久精品无码一区二区毛片 | 自拍视频一区二区三区| 色综合久久网| 国产 国语对白 露脸| 欧美日韩精选| 成人毛片一区二区| 亚洲欧美清纯在线制服| 蜜臀久久99精品久久久酒店新书| 青青草成人在线观看| 91小视频在线播放| 国产精品88av| 在线免费观看a级片| 久久综合色鬼综合色| 国产又粗又长免费视频| 亚洲欧美激情小说另类| 久久久精品视频在线| 精品久久久一区二区| 中文字幕a级片| 91精品国产色综合久久ai换脸| 亚洲高清视频在线播放| 亚洲福利在线视频| 国产小视频在线| 久久精品国产亚洲精品2020| 四虎影视国产在线视频| 91超碰caoporn97人人| 日本综合久久| 91久久极品少妇xxxxⅹ软件| 日韩免费电影在线观看| 亚洲免费不卡| 影院欧美亚洲| 99视频在线视频| 国产麻豆一精品一av一免费| 国产精品无码专区| 国产精品无人区| 国产亚洲小视频| 欧美性三三影院| 日批视频免费播放| 日日骚av一区| 在线观看爽视频| 亚洲最大av网站| 免费黄色成人| 国产肉体ⅹxxx137大胆| 日韩精品视频网| 亚洲av成人片无码| 国产精品麻豆99久久久久久| 日韩黄色a级片| 91精品婷婷国产综合久久 | 999在线精品| 色综合久久av| 日韩午夜高潮| 午夜一级免费视频| 久久综合丝袜日本网| 免费在线观看av网址| 欧美性色黄大片手机版| 日韩欧美在线观看一区二区| 欧美成人精品激情在线观看| 欧美一区久久久| 国产欧美欧洲| 欧美一区二区三区另类 | 国内免费精品视频| 777奇米四色成人影色区| 毛片免费在线观看| 国产综合在线看| 91麻豆精品激情在线观看最新| 亚洲7777| 日韩电影在线观看电影| 无码任你躁久久久久久老妇| 亚洲色图第一区| 一级黄色录像大片| 亚洲网站视频福利| 亚洲精品中文字幕| 国产综合精品一区二区三区| 午夜日韩福利| 欧美专区第二页| |精品福利一区二区三区| 一级片在线免费播放| 亚洲男子天堂网| 亚洲天堂电影| 久久久久久国产精品mv| 黄色国产精品| 韩国黄色一级片| 一区二区在线免费观看| 国产又粗又大又黄| www国产亚洲精品久久网站| 久久精品资源| 一本色道久久综合亚洲精品婷婷| 日韩电影在线免费| 国产sm调教视频| 在线精品视频一区二区| 国产人成在线视频| 国产成人精品视频| 精品久久精品| 欧美一级特黄a| 国产精品国产三级国产普通话三级| 欧美成人精品网站| 中文在线不卡视频| aⅴ在线视频男人的天堂 | 久久亚洲人体| 中文字幕一区二区三区四区五区| 免费观看日韩电影| 黄色一级片一级片| 在线播放中文字幕一区| 老司机在线看片网av| 69堂成人精品视频免费| 国产精品v欧美精品v日本精品动漫| 国产精品果冻传媒| 午夜伦理一区二区| 青春草在线观看| 国产精品中文字幕在线| 偷拍欧美精品| www.com日本| 欧美日韩免费在线观看| 黄色国产在线| 国产在线观看不卡| 欧美日韩国产在线一区| 成人性生活免费看| 欧美综合色免费| 天堂av最新在线| 欧美日韩大片一区二区三区| 奇米精品一区二区三区在线观看| 蜜桃av免费在线观看| 欧美xxxxxxxx| 粉嫩一区二区| 欧美日韩在线免费观看视频| 国产91露脸合集magnet| 亚洲黄色免费观看| 日日骚av一区| 青青一区二区| 五月天亚洲视频| 夜夜嗨av一区二区三区四季av| 性插视频在线观看| 国产精品丝袜视频| 激情综合电影网| 国产在线免费av| 精品91自产拍在线观看一区| 日韩欧美一区二区三区在线观看| 8x8x华人在线| 国产日产欧美一区二区视频| 国产成人毛毛毛片| 国产成人亚洲综合91精品| 欧美日韩日本国产亚洲在线| 欧美做受xxxxxⅹ性视频| 日韩欧美一卡二卡| 欧亚一区二区| 加勒比成人在线| 中文字幕日韩av资源站|