看看 AI 大牛日常如何使用大模型
1、目錄
- LLMs 的演變格局
- 超越文本:擁抱多模態
- 思考模型:何時讓人工智能“思考”
- 工具使用:互聯網搜索和深度研究
- 深度研究:通過集成搜索和推理生成全面報告
- 文件上傳用于文檔和多媒體
- Python 解釋器:動態代碼執行和數據分析
- 自定義視覺和代碼工具:Claude 工件和光標作曲器
- 音頻交互和 NotebookLM 播客生成
- 視覺模態:圖像輸入/OCR、圖像輸出和視頻處理
- 個性化:記憶、自定義指令和自定義 GPTs
- 初學者的經驗教訓:最大化你的 LLM 體驗
- 結束語
2、LLMs 的演變格局
Karpathy 首先描繪了不斷擴展的 LLMs 生態系統。雖然 ChatGPT 仍然是推動力量,但他還強調了 Gemini、Copilot、Claude、Grok 等新興競爭對手,以及 DeepSeek 和 LeChat 等國際參與者。每個模型都提供獨特的功能、定價層次和體驗。
“ChatGPT 是對話式人工智能的原始黑幫,但生態系統已經發展成為一個多樣化的實驗和專業化的游樂場,”他解釋道。

LLMs 的演變格局
在播客的過程中,Karpathy 還提供了一些鏈接,你可以在其中比較和分析這些模型的性能:
使用這 2 個鏈接,我們可以跟蹤當前可公開利用的幾種模型。
3、超越文本:擁抱多模態
讓我們在下面詳細探討多模態。
?文本生成
在生成文本方面,ChatGPT 等模型在創造性任務中表現出色,例如寫詩歌、求職信、簡歷甚至電子郵件回復。正如 Karpathy 所說,我們與這些模型的互動以“聊天氣泡”的形式出現,這些氣泡包含了你與人工智能之間的動態對話。

文本生成
解密魔法:token 和上下文
每次你輸入查詢時,模型都會將你的文本分解為更小的單元塊,稱為 token。你可以使用 OpenAI 的 Tokenizer 或 Tiktokenizer 等工具探索此過程。這些 token 形成一個序列,通常稱為 token 序列或上下文窗口,它充當人工智能的工作內存。

iktokenizer

chatgpt model
在幕后,輸入和輸出序列中還添加了額外的標記。這些技術包括詞性標注和命名實體識別,類似于你在 Penn Treebank 中找到的內容。這些標簽有助于模型更好地理解每個詞的角色和身份。
token 化算法和特殊 token
現代語言模型通常使用字節對編碼將單詞拆分為子詞。例如,單詞 “university” 可能被分解為 “uni”、“vers” 和 “ity”。此過程確保即使是罕見或復雜的單詞也能以模型可處理的方式表示。

token 化算法和特殊 token
一些重要的特殊 token 包括:
- <|endoftext|>:token 序列的結束。
- <|user|> 和 <|assistant|>:區分用戶輸入和人工智能的輸出。
Karpathy 用一個圖表生動地說明了這一點,顯示了一個新的聊天如何從一個空的 token 流開始。一旦你輸入查詢,模型就會接管,附加自己的 token 流。這個連續的流,稱為上下文窗口,代表了指導人工智能響應的工作內存。
人工智能訓練的兩大支柱:預訓練和后訓練

╱╲人工智能訓練的兩大支柱
“我喜歡把模型想象成一個 1 TB 的 zip 文件,它充滿了來自互聯網的壓縮知識,但是人類在后訓練中的觸碰賦予了它靈魂,”他解釋道。
Transformer 架構
LLMs 的核心是 Transformer 架構。關鍵元素包括:
- 自注意力機制:此機制允許模型衡量序列中不同 token 的重要性。它計算注意力得分,以便模型在生成響應時可以專注于輸入的相關部分。
- 位置編碼:由于 Transformer 缺乏固有的順序信息,因此會向 token 添加位置編碼以保留單詞的順序。
- 前饋網絡和層歸一化:這些組件幫助處理注意力輸出并穩定訓練。
要真正理解這些模型如何生成文本,了解其訓練的如下兩個主要階段至關重要。
預訓練:將互聯網壓縮成參數
在這個階段,模型處理來自書籍、網站、代碼存儲庫和學術論文的大量數據。把它看作將世界知識壓縮到參數 “zip 文件” 中:
- 數據規模和來源:GPT-4 等模型處理的 token 數量相當于數百萬本書或數十億個網頁。
- Transformer 架構:這些網絡通過順序處理 token 來學習單詞之間的關系。
- 參數壓縮:知識存儲在神經網絡參數中,充當“有損 zip 文件”。這意味著雖然模型保留了一般知識,但一些細枝末節可能會被省略。
- 概率性質:由于模型根據可能性預測下一個 token ,因此有時會生成不完全準確的輸出,通常稱為幻覺。
- 成本和局限性:預訓練非常昂貴,需要幾個月的計算時間,成本高達數千萬美元。此過程還導致知識截止,這意味著模型的信息僅限于其最后一次訓練更新。
后訓練:專門用于人類互動
預訓練之后,模型經過后訓練(或監督微調),學習與人類互動:
- 人類標記數據:對話通過精選示例進行微調,其中提示與理想響應配對。
- 角色扮演:模型學會扮演特定角色,無論是老師、助手還是客戶支持代理,使其互動更加自然。除了記憶,用戶還可以設置自定義指令來調整人工智能的語氣、風格和正式程度。此功能在需要語言學習或內容創建的任務中特別有用,因為聲音的一致性至關重要。
- 任務專業化:通過針對性訓練,在問答、代碼生成和創意寫作等領域提高了性能。
- 減少幻覺:雖然不能完全消除,但后訓練有助于加強事實準確性。
Karpathy 還指出,隨著我們與這些模型的對話變得越來越長,重新開始新的聊天以切換主題通常是有益的。這將重置上下文窗口,確保模型的響應保持準確和高效。
模型選擇:找到平衡點
選擇模型時,必須在成本和性能之間進行權衡:
- 免費層:提供適合簡單任務(如草擬電子郵件或創意寫作)的基本功能。
- 付費層:提供高級功能,包括更廣泛的知識、更快的推理和對互聯網搜索和代碼執行等工具的訪問。例如,調試復雜代碼的開發人員可能會選擇 GPT-4,盡管成本較高,而總結教科書章節的學生可能會發現免費模型已經足夠好用。

模型選擇
一個有趣的個人技巧來自于實驗多個模型。例如,當我問 Gemini 推薦一個酷城市時,我得到了 Zermatt 的答案,這是一個我覺得很有吸引力的建議。Gemini 的界面左上角有一個模型選擇器,你可以通過它升級到更高級的層次以提高性能。Grok 也是如此:我更喜歡使用 Grok 3,因為它是最先進的版本。實際上,我經常為多個模型付費,并向它們詢問同一個問題,將它們視為我的個人 “LLM 委員會”。這樣,我可以比較響應并決定哪個模型最適合我的需求,無論我是在計劃度假還是解決技術問題。
關鍵要點是,為你正在處理的特定挑戰嘗試不同的提供商和定價層次。通過這種方式,你可以找到最適合你工作流程的模型,甚至利用多個模型獲得全面的視角。
解碼和采樣技術
在生成文本時,模型并不是每次都簡單地選擇可能性最高的 token 。相反,它使用各種解碼策略:
- 核采樣(Top-p 采樣):模型從累積概率達到閾值的 token 子集中進行選擇。
- Top-k 采樣:將選擇限制為可能性最高的前 k 個 token 。
- 束搜索:并行探索多個可能的 token 序列,以找到最連貫的輸出。
通過外部工具增強功能
現代 LLMs 不僅僅是生成文本,它們還可以集成外部工具以提升其功能:
- 互聯網搜索:獲取最新信息以克服知識截止。
“當我閱讀《國富論》時,模型通過總結章節和回答我的澄清問題來幫助我理解其中的微妙之處。這就像有一個知識淵博的學習伙伴,”他說。
- Python 解釋器:執行計算、數據分析和可視化。他展示了如何使用此功能繪制公司估值隨時間變化的趨勢,同時還提醒用戶驗證人工智能生成代碼中的任何假設。
“當一個乘法問題變得太復雜而無法在腦海中解決時,模型只需編寫一個 Python 腳本并運行它。這就像有一個初級數據分析師在手邊,” Karpathy 解釋道。
- 文件上傳:允許處理 PDF 或電子表格等文檔,從而生成詳細的摘要和數據提取。
?圖像生成和視頻集成
Karpathy 展示了 LLMs 正在超越文本。他展示了如何通過將字幕系統與專用圖像生成模型(例如 ideogram.ai)結合,按需生成視覺效果。他指出,這種技術“縫合”了兩個獨立的模型,以便用戶體驗保持無縫,即使底層過程是獨立的。
“圖像輸出并不是完全在模型中完成的。這是字幕和單獨的圖像生成器之間的一次美麗合作,”他說。
此外,Karpathy 還介紹了視頻功能,其中模型可以通過攝像頭“看到”。在一個演示中,他將攝像頭對準日常物品:一本書的封面、一張詳細的地圖,模型正確識別并評論了每個物品。所有這些都將在后面詳細解釋。
?語音和音頻功能
語音交互是視頻的一個重要亮點。Karpathy 解釋說,在移動設備上,用戶可以通過說話而不是打字來提問。除了簡單的轉錄之外,高級模式還允許模型以各種“角色”生成音頻響應,從 Yoda 的智慧語調到粗魯的海盜口音。
“不要打字,用你的聲音。這樣很快,有時甚至更有趣,當人工智能用有個性的語氣回答你時,” 他說。
他進一步區分了“假音頻”(將語音轉換為文本,然后再轉換回來)和“真音頻”,后者直接對音頻進行標記。真音頻處理通過消除中間步驟,使互動更加流暢和自然,代表了一次飛躍。所有這些都將在后面詳細解釋。
?日常互動和實際問題解決
Karpathy 分享了幾個實際示例,從計算飲料中的咖啡因含量到交互式代碼故障排除。這些日常用例展示了無縫集成的人工智能工具如何在日常生活中提高生產力和決策能力。
“我曾經問過 ChatGPT 一杯美式咖啡中含有多少咖啡因。它迅速回憶起大約 63 毫克,這是一個簡單但強大的日常人工智能輔助示例,” 他解釋道。
?高級數據分析和可視化
除了日常任務之外,Python 解釋器的集成將人工智能變成了一名稱職的數據分析師。無論是從財務數據生成趨勢線,還是調試復雜代碼,這些功能為專業人士和愛好者提供了巨大的價值。
“想象一下,有一個初級數據分析師不僅為你編寫代碼,還實時可視化數據趨勢。這就是集成工具使用的力量,” Karpathy 斷言。
4、思考模型:何時讓人工智能“思考”
現代 LLMs 中最令人著迷的進步之一是“思考模型”的出現。這些模型旨在通過有效地“大聲思考”來解決復雜問題,就像人類在解決難題時一樣。
?訓練之旅:從預訓練到強化學習
Karpathy 解釋說,LLMs 的開發包括多個階段:
- 預訓練:模型從互聯網上吸收大量數據,學習預測序列中的下一個 token 。
- 監督微調:人類策劃的對話幫助塑造模型的響應,使其更具互動性和友好性。
- 強化學習(RL):這就是事情變得有迷的地方。模型在一大堆問題上進行練習,這些問題從數學難題到編碼挑戰,類似于教科書練習。通過這種練習,它開始發現有效的“思考策略”。這些策略模仿內心獨白,模型在其中探索不同的想法,回溯并重新審視其假設,以得出解決方案。
?發現“思考”過程
強化學習階段相對較新,僅在過去幾年中出現,被視為一次突破。這是模型學習在給出答案之前“思考”的階段。與其急于得出最終 token ,思考模型可能會生成一系列內部推理步驟,指導其得出更準確的解決方案。
DeepSeek 是第一個公開討論這一概念的公司,他們發表了一篇關于通過強化學習激勵 LLMs 推理能力的論文,我們在之前的視頻中探討過這篇論文。這一強化學習的突破使模型能夠優化其內部推理,這是人類標注者以前難以通過硬編碼實現的過程。
具體示例
以下是我個人經歷的一個具體示例:
他曾經在優化多層感知器的梯度檢查失敗的編碼問題上遇到困難。他復制并粘貼代碼,然后尋求建議。起初,GPT-4.0(OpenAI 的旗艦最強大的模型)在沒有思考的情況下做出了回應。它列出了幾個潛在的問題和調試技巧,但沒有一個建議能夠準確指出核心問題。模型只是提供了一般性建議,而不是解決問題。
然后,他切換到 OpenAI 的一個思考模型,該模型可以通過下拉菜單獲得,包括 O1、O3 Mini、O3 Mini High 和 O1 Pro(后者是高級訂閱用戶的最高級版本)。OpenAI 的思考模型通過強化學習進行了調整。當他問同一個問題時,思考模型花了一些時間,發出了一系列詳細的內部推理步驟(其“思考過程”的總結)。大約一分鐘后,它確定問題是由于參數不匹配引起的。這種額外的思考使其能夠準確解決問題。這個模型花了一分鐘生成了一個詳細的內部思維鏈,最終確定我在打包和解包過程中參數不匹配。結果?在經過一系列反思步驟之后,得出了一個正確的解決方案。
?LLM 委員會
他不依賴單一模型。他經常向多個模型詢問同一個問題,將它們視為他的個人 “LLM 委員會”。例如,雖然一個模型可能會以標準響應迅速解決問題,但另一個更高級的思考模型可能會花費幾分鐘,但會提供一個高度準確且經過深思熟慮的答案。這種方法在解決復雜的數學問題或復雜的代碼調試時特別有用。
我還嘗試了其他模型:
- Claude:當我向 Claude 提供相同的提示時,它正確識別并解決了問題,盡管其方法與其他模型不同。
- Gemini:Gemini 也提供了正確的答案,有時甚至不需要任何額外的“思考”時間。
- Grok 3:Grok 3 在經過一段時間的內部“思考”之后,也提供了一個堅實的解決方案。
- Perplexity.ai (DeepSeek R1):該模型甚至會顯示其內部推理的片段(原始思想),如果你展開它們,可以了解其解決問題的過程。

Perplexity 的思考過程
對于日常查詢(例如旅行建議),非思考模型可能因其速度而更受歡迎。然而,對于深入的技術或關鍵任務,切換到思考模型可以顯著提高準確性和性能。
?何時使用思考模型
思考模型在以下任務中最為有益:
- 復雜的數學問題:當簡單的算術不夠用時。
- 復雜的代碼調試:對于可能隱藏在邏輯層中的微妙問題。
- 深度推理任務:需要一系列思考過程才能得出正確答案的問題。
對于日常查詢,例如旅行建議或快速事實核查,標準的非思考模型可能因其更快的響應時間而更受歡迎。然而,如果準確性至關重要且問題本質上復雜,切換到思考模型是值得的。
5、工具使用:互聯網搜索和深度研究
現代 LLMs 通過與外部工具集成,克服了靜態知識的局限性:
?互聯網搜索:訪問實時信息
到目前為止,我們與 LLMs 的互動僅限于文本,即預訓練數據的 “zip 文件”,它提供了 token 。然而,現實世界的應用要求這些模型訪問新鮮、最新的信息。這就是互聯網搜索的用武之地。
雖然傳統的 LLM 互動僅依賴預訓練知識,即靜態數據的 “zip 文件”,但互聯網搜索的集成將這些模型轉變為動態信息中心。模型不再需要手動篩選搜索結果并躲避分散注意力的廣告,而是可以主動檢索最新信息,將其集成到其工作內存中,并準確回答你的查詢。
?工作原理
- 觸發搜索:當模型識別到你的查詢涉及最新或不斷發展的信息時,它會發出一個特殊的搜索 token 。這會指示應用程序暫停常規 token 生成并啟動網絡搜索。
- 執行搜索:模型生成的查詢用于搜索互聯網。系統訪問多個網頁,提取相關文本,并編譯信息。
- 集成結果:檢索到的內容隨后被注入到模型的上下文窗口和工作內存中,以便人工智能可以提供一個豐富了最新數據和適當引用的答案。

token
例如,如果你問“《白蓮花》第 3 季的新劇集什么時候播出?”模型會發現這些信息不在其預訓練數據中。然后,它會搜索網絡,將結果文章加載到上下文中,并為你提供最新的時間表以及驗證鏈接。
?特定于模型的行為
不同的模型具有不同程度的互聯網搜索集成:
- Claude:截至我最后一次更新(2024 年 4 月),Claude 不支持集成網絡搜索。它僅依賴其知識截止到那時,因此它會直接說不知道。
- Gemini:例如,Gemini 2.0 Pro Experimental 可能沒有完全訪問實時信息,而 Gemini 2.0 Flash 顯示的來源和相關內容表明其具有內置搜索工具。
- ChatGPT:在某些情況下,ChatGPT 會自動檢測到需要搜索;在其他情況下,你可能需要顯式選擇“搜索網絡”選項。
- Perplexity.ai:以其強大的搜索集成而聞名,Perplexity 通常會檢索并顯示實時數據以及引用,使其成為類似于 Google 搜索的查詢的熱門選擇。
?現實世界的用例
我經常使用互聯網搜索工具進行各種查詢:
- 當前事件和趨勢:例如,檢查總統日市場是否開放 Perplexity 迅速確認其已關閉。
- 小眾信息:例如,“《白蓮花》第 3 季在哪里拍攝?”或 “Vercel 是否提供 PostgreSQL?”這些問題可以從最新的在線數據中受益。
- 動態更新:關于蘋果發布、股票波動(例如,“為什么 Palantir 的股票在上漲?”)或甚至具體問題(例如,“Brian Johnson 使用哪種牙膏?”)的詢問都非常適合搜索工具,因為這些細節可能會隨著時間的推移而發生變化。
- 熱門話題:當我在 Twitter 上看到關于 USAID 或最新旅行建議的嗡嗡聲時,快速搜索可以為我提供當前上下文的摘要,而無需手動單擊多個鏈接。
?實用技巧
- 明確:有時,直接提示模型“搜索網絡……”以確保其檢索實時數據是有幫助的。
- 交叉驗證:始終檢查提供的引用以確認信息的準確性。
- 模型選擇:并非每個模型都配備了互聯網搜索。根據你的需求,選擇支持實時數據的模型(例如,帶搜索選項的 ChatGPT 或 Perplexity.ai),或者準備好在模型之間切換以獲得全面的答案。
6、深度研究:通過集成搜索和推理生成全面報告
深度研究使 LLMs 能夠超越表面答案,通過將廣泛的互聯網搜索與高級推理相結合,生成全面的報告。此過程允許模型從各種來源收集、處理和綜合信息,幾乎就像為任何主題生成自定義研究論文一樣。
?工作原理
當你激活深度研究(通常是高級訂閱功能,例如每月 200 美元)時,模型會開始一個擴展的過程:
- 啟動:你提供一個詳細的提示。例如,考慮以下提示:“CAAKG 是 Brian Johnson 的長壽配方中每份 2.5 克的健康活性成分之一。你能研究一下 CAAKG 嗎?告訴我它為什么可能在長壽混合物中找到,其在人類或動物模型中的可能效力,其潛在的作用機制以及任何安全性或毒性問題。”
- 澄清問題:在深入研究之前,模型可能會詢問澄清問題,例如是否要專注于人類臨床研究、動物模型或兩者兼而有之,以細化其搜索策略。
- 多源查詢:然后,模型會發出多個互聯網搜索查詢。它掃描學術論文、臨床研究和可信網頁,積累來自多個來源的文本。這些文檔隨后被插入到其上下文窗口中,這是一個巨大的工作內存,可以容納數千個 token 。
- 綜合:一旦研究階段完成(對于復雜查詢,可能需要約 10 分鐘),模型會將收集到的數據綜合成一個連貫的報告。它生成詳細的摘要,包括引用以供驗證,甚至突出顯示關鍵點,例如在各種模型(蠕蟲、果蠅、小鼠和正在進行的人類試驗)中提出的建議作用機制、效力研究以及潛在的安全問題。

llm token
?技術方面
- 迭代搜索:深度研究利用迭代互聯網搜索和內部“思考”步驟。模型使用強化學習策略來決定哪些來源最相關以及如何將它們編織成一個結構化的響應。
- 上下文積累:隨著模型檢索信息,每個文檔的內容都會添加到上下文窗口中。這個龐大的 token 存儲庫允許模型同時引用多個來源。
- 引用集成:最終報告附帶引用,使你可以驗證每個信息片段。這在模型的輸出是概率性的并且有時可能包含幻覺或不準確之處時尤為重要。
- 鏈式思考處理:在整個過程中,模型可能會揭示其內部推理的片段(如果你展開它們),說明它如何將不同的數據片段連接起來得出結論。
?實踐中的示例
- 補充研究:在上述關于 CAAKG 的提示示例中,模型處理了數十篇研究論文、臨床研究和綜述文章。然后,它生成了一份詳細報告,概述:
a.CAAKG 為什么可能包含在長壽混合物中。
b.其在人類和動物模型中的效力。
c.建議的作用機制。
d.任何潛在的安全性或毒性問題。

深度搜索
- 行業比較:他還使用深度研究來比較產品,例如研究小鼠的壽命延長。模型提供了一個廣泛的概述,討論了各種長壽實驗,同時編譯了來自多個來源的數據。
- LLM 實驗室分析:在另一個用例中,他要求一個表格,比較美國的 LLM 實驗室,包括資金水平和公司規模。雖然生成的表格有一些遺漏(例如 XAI)和意外的包含(例如 Hugging Face),但它仍然為進一步調查提供了一個有價值的起點。
?實用考慮
- 初稿,而非最終稿:始終將深度研究輸出視為初稿。使用提供的引用作為進一步閱讀和后續問題的指南。
- 不同的深度:不同平臺提供的深度研究深度不同。例如,我的經驗表明,Chachapiti 的提供目前是最全面的,而 Perplexity.ai 和 Grok 提供的摘要較短。
- 延長的處理時間:準備好長時間的處理時間(有時超過 10 分鐘),因為模型收集和綜合大量數據。
7、文件上傳用于文檔和多媒體
文件上傳使 LLMs 能夠通過將外部文檔和多媒體文件直接集成到其工作內存中來擴展其上下文。例如,如果你對藝術學院最近發表的關于在 DNA 上訓練的語言模型的論文感到好奇,你可以簡單地將 PDF(甚至大小為 30 MB 的 PDF)拖放到模型的界面中。通常,模型會將文檔轉換為文本 token ,通常會丟棄非文本元素(如圖像)。一旦在 token 窗口中,你可以請求摘要、提出詳細問題或深入探討文檔的特定部分。這使得你可以與人工智能一起“閱讀”論文,并以互動方式探索其內容。
“上傳文檔就像將你的個人圖書館交給人工智能。然后,它可以篩選信息并幫助你理解所需的細節,這正是你在處理復雜研究論文時所需要的,” Karpathy 在演講中說。

文件上傳用于文檔和多媒體
?現實世界的示例和用例
考慮一個場景,你正在審查基因組序列分析的突破性研究。通過直接將 PDF 上傳到系統,你可以問模型“你能總結這項研究中使用的方法嗎?”模型會將論文轉換為 token ,處理關鍵部分,并為你提供一個連貫的摘要,附帶引用。這種方法不僅限于學術論文;它還適用于產品手冊、法律文件甚至長篇報告,例如血液測試結果。
例如,我最近上傳了我的 20 頁血液測試報告。模型轉錄了結果,使我能夠問“這些膽固醇水平對我的健康意味著什么?”這種兩步過程,首先驗證轉錄準確性,然后提出詳細問題,確保了所獲得的見解盡可能可靠。
8、Python 解釋器:動態代碼執行和數據分析
現代 LLMs 現在集成了 Python 解釋器,將它們轉變為動態、互動式編碼助手。此功能使模型能夠生成、執行甚至調試 Python 代碼,實時進行,就在你的對話中。
“Python 解釋器集成是一個改變游戲規則的功能。你不再需要在聊天窗口和 IDE 之間切換,你可以在一個無縫體驗中獲得代碼、其輸出甚至是可視化圖表,” Karpathy 在演示中解釋道。
?實踐中的工作原理
當你遇到復雜問題,例如調試多層感知器的梯度檢查失敗時,模型可以自動生成 Python 代碼來診斷問題。例如,你可能會問“你能幫我調試這個梯度檢查失敗嗎?”模型生成模擬錯誤場景的代碼,執行它,然后在聊天中直接返回詳細輸出,例如錯誤消息和變量狀態。
在另一個案例中,我需要繪制 2023 年的銷售趨勢圖。我只需請求“生成 2023 年銷售數據的圖表,”模型編寫并執行必要的 Python 腳本。生成的圖表隨即顯示,帶有注釋和趨勢,節省了我手動編碼的麻煩。

Python 解釋器
?擴展用例
- 數據可視化:除了基本圖表之外,解釋器還可以生成復雜的可視化效果,例如熱圖、散點圖或時間序列圖。這在快速數據分析中特別有用,而無需離開聊天界面。
- 算法測試:如果你正在嘗試機器學習模型,你可以讓解釋器運行模擬并甚至比較不同模型的性能。
- 調試輔助:在處理復雜代碼錯誤時,模型的逐步執行有助于找出在大型代碼庫中可能難以發現的問題。
9、自定義視覺和代碼工具:Claude 工件和光標作曲器
現代 LLMs 已經不僅僅是文本生成器,它們還是創意工作室。使用 Claude 工件,你可以構建自定義小應用程序或生成交互式圖表。例如,想象一下,你需要一個項目的流程圖。通過幾個明確的提示,Claude 工件可以生成一個圖表,將你的想法以視覺方式組織起來。正如 Karpathy 所指出的那樣,“Claude 工件不僅僅提供純文本,它還提供交互式視覺效果,使你的概念栩栩如生。”

adam smith 閃卡
此外,Cursor: Composer 作為你的實時編碼助手。無論你是在編寫新代碼還是調試錯誤,Cursor: Composer 都可以生成、編輯甚至可視化代碼片段。例如,當我在原型設計一個新的 Web 應用程序時,我只需輸入“生成一個響應式布局在 React,” 該工具不僅生成了代碼,還突出顯示了不同組件的交互方式。這種無縫集成加快了開發速度,同時幫助你逐步了解底層邏輯。

Cursor Composer
10、音頻交互和 NotebookLM 播客生成
現代 LLMs 中的音頻功能顯著增強了用戶互動。使用標準的 音頻輸入/輸出,你可以通過說話而不是打字來提問。例如,你可能會問“天為什么是藍色的?”并獲得文本和音頻響應。Karpathy 指出,“語音輸入讓你感覺像是在與朋友交談,而模型則專心聽著。”
高級語音模式 更進一步,通過直接對音頻進行標記來處理音頻。與其先將語音轉換為文本,再轉換回來,模型通過頻譜直接對音頻進行標記。這意味著它可以捕捉語調和語氣中的微妙之處。想象一下,你問“用 Yoda 的聲音講個笑話,”然后聽到“智慧的見解我將分享,嗯嗯,有趣,它是。”
補充這些功能的是 NotebookLM,它通過上傳的文檔生成自定義播客。例如,上傳一篇關于基因組分析的 30 MB 研究論文后,你可能會問“你能生成一個總結這篇論文關鍵點的播客嗎?”幾分鐘內,NotebookLM 綜合內容并生成一個 30 分鐘的音頻摘要,你可以在通勤時收聽。

音頻交互和 NotebookLM 播客生成
11、視覺模態:圖像輸入/OCR、圖像輸出和視頻處理
圖像輸入與 OCR 允許你將照片和屏幕截圖轉換為可搜索的文本。例如,當我上傳了一種健康補充劑的營養標簽時,我問“關鍵成分是什么,為什么包含它們?”模型成功提取了文本,并解釋了每個組成部分,包括安全等級。

上下文窗口

圖像輸出
圖像輸出工具,例如 DALL-E 和 Ideogram,允許你生成自定義視覺效果。你可以提示模型,例如“生成一幅以賽博朋克風格描繪今日頭條的藝術作品,”然后觀看人工智能創建一個圖像,以視覺方式概括新聞。Karpathy 指出,“看到今日頭條的標題變成一幅令人驚嘆的藝術作品是多么有趣。”

視頻輸入 進一步推動了視覺處理。使用你的攝像頭,你可以進行指點交談。例如,如果你將手機對準一本書的封面,你可能會問“這本書的標題是什么?”模型會分析視覺快照并提供準確答案。同時,視頻輸出 系統,例如 Sora 或 Veo 2,可以將文本描述轉換為動態視頻剪輯,從而生成引人入勝的視頻摘要或教程。
12、個性化:記憶、自定義指令和自定義 GPTs
個性化是使與 LLMs 的互動真正屬于你的關鍵。這些功能確保人工智能不僅響應你的查詢,還適應你獨特的風格和反復的需求。
?記憶:跨對話保留上下文
LLMs 可以在記憶庫中存儲來自過去互動的關鍵細節,并將其附加到未來的上下文窗口中。這意味著隨著時間的推移,模型會了解你的偏好和習慣。例如,如果你提到你喜歡的電影類型或特定的研究興趣,未來的對話將自動反映這些知識。“這就像模型逐漸了解你,形成一個個性化的對話,隨著互動的增加而不斷發展,” Karpathy 觀察到。
?自定義指令:塑造人工智能行為
自定義指令允許你定義希望模型如何響應的確切方式。你可以指定語氣、冗長度甚至特定任務的規則。無論你需要模型以簡單的術語解釋復雜主題,還是在翻譯中采用特定風格,這些指令都會注入到每次對話中,確保一致性和個性化體驗。

自定義指令
?自定義 GPTs:構建特定任務的模型
自定義 GPTs 允許你為重復任務創建專門版本的模型。想象一下,擁有一個專門的助手來學習語言,它可以提取詞匯并創建閃卡,或者一個編碼助手,它可以始終生成準確的代碼片段。通過提供幾個示例,你可以通過少量提示構建一個自定義模型,節省時間并提供更精確的結果。“自定義 GPTs 就像擁有一個個性化的、特定任務的助手,它完全符合你的需求,” Karpathy 解釋道。

示例

ocr 結果
13、初學者的經驗教訓:最大化你的 LLM 體驗
對于那些剛剛起步的人,Karpathy 的見解為充分發揮 LLMs 潛力提供了明確的路徑:
- 理解 token 化:了解你的輸入如何分解為 token ,因為這是模型處理的基本構建塊。
- 保持簡潔:通過在切換主題時重新開始來管理你的上下文窗口;擁擠的上下文會削弱響應的效果。
- 實驗不同的模型:使用免費層進行簡單任務,并在需要更高準確性或額外功能時考慮升級到高級模型。
- 利用外部工具:不要猶豫集成互聯網搜索、文件上傳甚至 Python 解釋器以擴展模型的功能。
- 保持更新:關注提供商更新,加入社區論壇,并嘗試測試版功能,以跟上不斷發展的生態系統。
14、結束語
Andrey Karpathy 的視頻帶我們深入了解了 LLMs 的內部工作原理,從 token 化和基于 Transformer 的架構的細微差別,到通過工具集成和多模態互動解鎖的廣泛功能。這些模型將大量知識壓縮到數十億甚至數萬億個參數中,使用復雜的訓練技術來預測下一個 token 并生成類似人類的響應。通過結合預訓練與針對性的后訓練,并集成外部工具(如互聯網搜索和 Python 解釋器),現代 LLMs 正在演變成多才多藝、智能的合作伙伴,能夠在日常生活中提供信息和靈感。
正如 Karpathy 簡明扼要地總結的那樣:
“從壓縮的 token 到交互式聊天氣泡,LLMs 的內部工作原理是優雅的數學原理和大規模數據壓縮的結合。每一次新進展都使我們更接近一個人工智能成為日常生活中不可或缺的一部分的未來。”
這個全面的生態系統,從個性化功能到高級研究和多模態集成,為每個人提供了一個強大的平臺,無論是初學者還是專家。
llm token
? ?

















