精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Open Deep Search:開源推理智能體實現深度搜索,打破閉源壟斷

發布于 2025-3-31 01:55
瀏覽
0收藏

當前,AI搜索人工智能領域主要由Perplexity、OpenAI DeepResearch等部分閉源搜索AI方案主導,閉源特性限制了透明度與創新。本文推出的ODS作為開源方案,填補了開源搜索AI的性能空白,促進該領域的社區發展、創新與創業,且在基準測試中展現出超越部分閉源方案的性能,具有重要實用價值。

文章推出開放深度搜索(ODS),旨在縮小專有搜索AI解決方案與開源同類產品的差距。ODS由開放搜索工具和開放推理智能體組成,可與用戶選定的基礎大語言模型協同工作。文中詳細介紹了這兩個組件的工作原理,通過在SimpleQA和FRAMES基準測試上的實驗,表明ODS與DeepSeek-R1結合使用時,性能接近甚至超越現有先進基線模型,實現了搜索AI領域的先進性能 。

摘要&摘要

我們推出開放深度搜索(Open Deep Search, ODS),旨在縮小諸如Perplexity的Sonar Reasoning Pro和OpenAI的GPT-4o Search Preview等專有搜索人工智能解決方案與開源同類產品之間日益擴大的差距。ODS的主要創新之處在于,通過推理智能體增強最新開源大語言模型(LLMs)的推理能力,這些智能體能夠明智地使用網絡搜索工具來回答查詢。具體而言,ODS由兩個組件構成,它們可與用戶選擇的基礎大語言模型協同工作:開放搜索工具(Open Search Tool)和開放推理智能體(Open Reasoning Agent)。開放推理智能體負責解釋給定任務,并通過編排一系列行動來完成任務,這些行動包括調用工具,其中之一便是開放搜索工具。開放搜索工具是一種新型網絡搜索工具,其性能優于專有同類產品。與強大的開源推理大語言模型(如DeepSeek-R1)相結合,ODS在兩個基準測試(SimpleQA和FRAMES)上的表現接近甚至有時超越了現有的最先進基線模型。例如,在FRAMES評估基準上,ODS的準確率比最近發布的GPT-4o Search Preview這一現有最佳基線模型提高了9.7%。ODS是一個通用框架,可無縫增強任何大語言模型(如在SimpleQA上達到82.4%準確率、在FRAMES上達到30.1%準確率的DeepSeek-R1)的搜索和推理能力,以實現最先進的性能:在SimpleQA上達到88.3%的準確率,在FRAMES上達到75.3%的準確率。

?研究背景:搜索人工智能將大語言模型的檢索增強生成能力與實時信息檢索結合,但該領域進展主要由專有解決方案主導,開源替代方案存在性能差距,且限制了領域的透明度、創新和創業發展。

?技術創新:推出開放深度搜索(ODS)這一開源AI搜索解決方案,包含開放搜索工具和開放推理智能體。開放搜索工具改進了搜索流程,開放推理智能體提升了推理能力,使ODS在多個基準測試中達到或超越先進閉源方案的性能,促進搜索AI領域開源生態發展。

?實現設計:

開放搜索工具:通過查詢改寫生成新查詢,從搜索引擎結果頁面API檢索相關上下文并格式化處理,還通過抓取網頁、嵌入段落塊等操作增強大語言模型的上下文。

開放推理智能體:ODS-v1基于思維鏈和ReAct智能體,結合思維鏈自洽性、少樣本學習等技術;ODS-v2基于代碼鏈和CodeAct智能體,通過生成可執行Python代碼調用工具。

?實驗結果:在SimpleQA和FRAMES基準測試中,ODS與DeepSeek-R1結合,ODS-v1在SimpleQA上準確率達87.7%、FRAMES上達56.7%;ODS-v2在SimpleQA上準確率達88.3%、FRAMES上達75.3%,超過Perplexity等部分閉源搜索AI,在FRAMES上超越GPT-4o Search Preview。

1. 引言

搜索人工智能,即搜索引擎增強的大語言模型(LLMs),它將大語言模型的檢索增強生成(RAG)能力(例如參考文獻[9])與從搜索引擎進行的實時信息檢索相結合。這種整合解決了大語言模型靜態知識庫的問題,使其能夠提供最新且與上下文相關的回復 。最近的研究(如參考文獻[27])表明,將搜索引擎結果頁面(SERP)應用程序編程接口(API)作為上下文輸入到大語言模型中,其效果優于諸如自詢問(self-ask)等先前方法。

搜索人工智能領域的進展主要由專有解決方案主導,如谷歌搜索、必應搜索、ChatGPT搜索和Grok。特別是Perplexity AI(參考文獻[21])在這個市場上表現出色,甚至對成熟的行業領導者構成了威脅。然而,這種閉源解決方案限制了透明度、創新和創業。為了培育搜索人工智能開發者社區、利用集體智慧、促進創新并鼓勵創業,我們推出了開放深度搜索(ODS),這是一種開源人工智能搜索解決方案,在基準評估中實現了最先進的性能,與最佳閉源替代方案相匹配甚至超越它們。

Open Deep Search:開源推理智能體實現深度搜索,打破閉源壟斷-AI.x社區

表1:所提出的開源搜索框架ODS,與開源推理大語言模型DeepSeek-R1(參考文獻[4])一起使用時,在FRAMES(參考文獻[8])和SimpleQA(參考文獻[30])這兩個流行的事實性評估基準上,其性能超過了Perplexity(參考文獻[21])、Perplexity Sonar Reasoning Pro(參考文獻[22])等閉源的最先進搜索人工智能解決方案。與GPT4o Search Preview相比,ODS-v2在FRAMES準確率上有顯著提升,但在SimpleQA準確率上略遜一籌。ODS-v1使用基于ReAct的智能體(2.2.1節),ODS-v2使用基于CodeAct的智能體(2.2.2節)。

Perplexity AI有兩款提供API訪問的搜索人工智能產品:默認的Perplexity(參考文獻[21])和專為復雜推理任務定制的Perplexity Sonar Reasoning Pro(參考文獻[22])。表1展示了它們在兩個流行的評估基準SimpleQA(參考文獻[30])和FRAMES(參考文獻[8])上的性能。值得注意的是,所提出的兩個版本的開放深度搜索(與開源的DeepSeek-R1模型一起使用時)均優于Perplexity AI的旗艦搜索人工智能產品。另一個重要的基線模型是OpenAI于2025年3月11日發布的專為搜索人工智能定制的GPT-4o Search Preview(參考文獻[17])。開放深度搜索的第二個版本,即ODS-v2+DeepSeek-R1,在FRAMES基準上超越了GPT-4o Search Preview,在SimpleQA基準上幾乎與之持平。為了實現這種最先進的性能,我們在開放深度搜索中進行了兩項創新:開放搜索工具和開放推理智能體。

?開放搜索工具:Perplexity和OpenAI的搜索解決方案都是閉源產品。Perplexity的開源替代方案,如OpenPerplex(參考文獻[19])和Perplexica(參考文獻[20]),是開源搜索工具,它們將輸出進行總結并輸入到大語言模型中,以回答感興趣的查詢。然而,這些開源搜索工具存在一些弱點,仍有很大的改進空間。首先,OpenPerplex和Perplexica主要將原始的搜索引擎結果頁面(SERP)結果作為上下文傳遞給大語言模型。此外,它們根據與用戶查詢的相關性對片段進行分塊和重新排序。相比之下,我們的方法采用了更復雜的搜索過程,我們稱之為開放搜索工具(將在2.1節詳細解釋)。具體來說,我們在必要時重新表述查詢,從排名前N的片段中提取上下文,并應用分塊和重新排序來過濾掉相關性低于閾值的內容。這確保了包含所有相關的搜索結果上下文。此外,我們針對維基百科、arXiv和PubMed等主要API實施了自定義網站處理。

?開放推理智能體:如表1所示,我們提供兩種版本的開放推理智能體:一種基于ReAct智能體(參考文獻[33]),另一種基于CodeAct智能體(參考文獻[14])。開放推理智能體的目標是解釋查詢、評估檢索到的上下文,并使用適當的工具(包括我們提供的用于網絡搜索的開放搜索工具)來回答查詢。詳細內容請參考2.2節。

2. 開放深度搜索(ODS)

開放深度搜索(ODS)是一個即插即用的框架,用戶可以無縫插入他們選擇的任何基礎大語言模型,既可以是開源大語言模型,也可以通過API訪問閉源大語言模型。在我們的實驗中,我們將ODS與Llama3.1-70B模型或DeepSeek-R1模型結合使用。ODS由兩部分組成:開放搜索工具和開放推理智能體,這兩部分都使用基礎大語言模型。開放搜索工具是我們用于搜索和處理來自互聯網信息的開源工具,將在2.1節中解釋;開放推理智能體是我們的開源智能體,它可以通過訪問工具來回答查詢,將在2.2節中解釋。

我們為開放推理智能體提供兩種解決方案:一種使用ReAct智能體(我們將其稱為版本一ODS-v1),另一種使用CodeAct智能體(我們將其稱為版本二ODS-v2)。包含這兩個版本ODS的開源代碼庫可在https://github.com/sentient-agi/OpenDeepSearch上找到。我們使用術語“ODS-v?+基礎模型”來指代ODS的特定實例。例如,ODS-v1+Llama3.1-70B指的是ODS的第一個版本,它使用ReAct智能體并以Llama3.1-70B作為基礎模型;ODS-v2+DeepSeekR1指的是ODS的第二個版本,它使用CodeAct智能體并以DeepSeek-R1作為基礎模型。

Open Deep Search:開源推理智能體實現深度搜索,打破閉源壟斷-AI.x社區

圖1:用戶可以選擇插入他們選擇的任何基礎大語言模型,并利用開放深度搜索(ODS)開源框架的優勢。ODS由兩個組件組成:開放搜索工具和開放推理智能體。查詢首先輸入到開放推理智能體中,開放推理智能體編排可用的工具集來解釋和回答查詢。我們設計的開放搜索工具是最重要的工具之一,它從網絡上檢索的多個來源提供高質量的上下文。在我們的實驗中,我們使用Llama3.1-70B和DeepSeek-R1作為基礎模型。

2.1 開放搜索工具

我們提供的開放搜索工具在保持對可擴展開源系統承諾的同時,改進了搜索引擎增強大語言模型領域的最新進展(參考文獻[27])。特別是,我們的方法重新審視了傳統方法在查詢、檢索和增強流程中的不同組件。開放搜索工具以查詢為輸入,并生成一個上下文,該上下文由網絡搜索的相關段落組成,用于輸入到基礎大語言模型中。開放搜索工具的質量對于ODS的成功至關重要,我們將在第3節和附錄A中通過示例展示這一點。

2.1.1 查詢改寫

我們搜索流程的第一步是接收原始用戶查詢,并生成k個保持原始上下文的新改寫查詢。這一步的必要性源于原始查詢的語義結構與為提供滿意答案所需的潛在上下文之間的差距。例如,用戶可能想知道“如何讓我的網絡更快”,然而,谷歌搜索可能無法給出令人滿意的結果,因為該查詢本身過于寬泛,且隱含的上下文可能未被涵蓋。查詢改寫器彌補了寬泛查詢與隱含上下文之間的差距,并會生成其他查詢,如“如何增強Wi-Fi信號”、“如何增加帶寬”和“如何降低延遲”。我們發現這一步對于提高檢索上下文的覆蓋范圍和多樣性,進而提高我們系統的整體性能至關重要。

2.1.2 檢索

搜索流程的第二步是從搜索引擎結果頁面API(SERP)檢索相關上下文。從API調用檢索到的結果隨后被格式化、處理,并插入到大語言模型的上下文中。我們的格式化過程受到FreshPrompt(參考文獻[27])提示格式的啟發,我們在每個片段中包含每個搜索結果返回的元數據,如標題、URL、描述和發布日期(如果可用)。此外,當搜索上下文中包含沖突信息時,我們提示大語言模型優先考慮可靠來源,如政府機構、教育機構和知名研究機構。

2.1.3 增強

作為我們流程中的一個額外步驟,我們選擇通過從SERP API檢索到的排名前m的鏈接中添加相關段落來增強大語言模型的上下文。具體來說,我們抓取相關網頁,嵌入段落塊,并根據與用戶查詢相關的重新排名分數從每個網頁中檢索排名前n的相關段落。這使得上下文能夠為需要“深度”推理的查詢提供深入的答案。

2.2 開放推理智能體

開放推理智能體以用戶的查詢為輸入,并使用基礎大語言模型和各種工具生成答案。上一節中的開放搜索工具是開放推理智能體使用的關鍵工具之一。我們為用戶提供兩種解決方案:一種基于思維鏈(Chain-of-thought)和ReAct智能體(其最終的端到端系統稱為ODS-v1),另一種基于代碼鏈(Chain-of-code)和CodeAct智能體(其最終的端到端系統稱為ODS-v2)。

2.2.1 基于ReAct智能體的ODS-v1

我們的第一個開放推理智能體基于思維鏈(CoT)推理(參考文獻[6, 31])和ReAct(參考文獻[33])智能體。

?思維鏈(CoT)提示:思維鏈提示通過鼓勵模型在回答前停下來思考,激發了大語言模型智能體令人印象深刻的推理能力(參考文獻[28, 3])。零樣本思維鏈(Zero-shot CoT)只需在輸入到模型的提示末尾附加“讓我們一步一步地思考。”這句話(參考文獻[6])。通過將思維鏈與少樣本提示相結合,結果會進一步改善,我們采用了這種方法。少樣本思維鏈(Few-shot CoT)是指在提示中附加幾個思維鏈示例,作為一種上下文學習形式(參考文獻[31])。

?思維鏈自洽性(CoT-SC):思維鏈自洽性進一步改進了簡單思維鏈中使用的貪心解碼技術。它不是簡單地采用單一的貪心推理路徑,而是對多個不同的推理路徑進行采樣,并對它們進行比較,然后從所有路徑中選擇最一致的答案。這在包括算術和問答任務在內的多個推理任務中,相較于簡單的思維鏈有了顯著的改進(參考文獻[29])。

Open Deep Search:開源推理智能體實現深度搜索,打破閉源壟斷-AI.x社區

?ReAct中的少樣本學習:ReAct中的少樣本學習利用一小部分示范示例來指導模型的推理和行動模式。

Open Deep Search:開源推理智能體實現深度搜索,打破閉源壟斷-AI.x社區

圖2:ODS-v1中使用的ReAct提示結構示意圖

?動態少樣本學習:ReAct通過基于示例的提示實現少樣本學習,其中一小部分示范示例指導模型的推理和行動模式。為了優化提示效率,動態少樣本選擇系統利用向量相似性匹配為每個任務檢索最相關的示例,在保持性能的同時降低提示復雜度。我們開展了一項社區活動,以設計用于我們少樣本模板的200個ReAct提示。參與者被要求根據自己的推理直覺進行提示設計,從而產生了廣泛的方法。我們為他們提供了描述ReAct提示結構(思想/行動/行動輸入/觀察)的模板以及測試集中的一些示例查詢。我們確保他們無法訪問基準測試本身。由于ReAct提示中代表了多樣化的思維過程,這項活動顯著提高了我們ReAct智能體的性能。附錄B中提供了最終少樣本提示的示例。

?工具集成:該框架與外部工具集成,實現了更復雜的問題解決能力。我們在ODS-v1中使用了三種工具:

網絡搜索:2.1節中的開放搜索工具。

數學處理:與Wolfram Alpha API集成,用于處理算術和復雜的數學計算。

繼續思考:使用基礎大語言模型繼續推理,以分解復雜查詢。

?ODS-v1:我們在ODS-v1的開放推理智能體中集成了思維鏈一致性采樣、ReAct智能體框架和少樣本提示。對于任何查詢,我們首先運行開放搜索工具,其產生的上下文以及原始查詢被輸入到ReAct智能體中。ReAct智能體使用由結構化步驟組成的提示:<思考>、<行動>、<行動輸入>和<觀察>,以<問題>開始,以<最終答案>結束。這些步驟會迭代,直到返回響應,但如果信息不足,智能體可能不會返回答案。ReAct智能體有三個行動選項?!袄^續思考”(<行動>=繼續思考)用于擴展復雜問題分解的推理過程。“搜索”(<行動>=搜索互聯網)利用OpenPerplex查找事實信息,如日期、名稱和學術內容?!坝嬎恪保?lt;行動>=計算)連接到Wolfram Alpha API,用于處理基礎模型通常難以處理的數值計算。

當ReAct智能體無法提供答案時(由Llama - 3 - 8B判斷模型確定),系統會默認使用思維鏈自洽性方法。這個備用過程會對大語言模型進行r次調用,對相似的響應進行聚類,并從最大的聚類中隨機返回一個響應,最終得出最終答案。

在以下取自FRAMES基準測試的示例中,我們可以觀察到ODS - v1相較于諸如Perplexity的Sonar Reasoning Pro等最先進的封閉模型在推理方面的優勢。ODS和Sonar Reasoning Pro模型都對潛在答案感到困惑。然而,ODS正確識別出112英寸為正確答案,并使用Wolfram - Alpha工具進行了額外檢查,按要求將答案轉換為2,845毫米。相反,Sonar Reasoning Pro只是給出了2,858毫米的錯誤答案。

FRAMES中的一個問題:1975年勒諾·馬歇爾詩歌獎(Lenore Marshall Poetry Prize)的獲得者,如果在魯皮·考爾(Rupi Kaur)出版《牛奶與蜂蜜》(Milk and Honey)一書時還活著,他/她會是多少歲?正確答案:90歲

Open Deep Search:開源推理智能體實現深度搜索,打破閉源壟斷-AI.x社區

Open Deep Search:開源推理智能體實現深度搜索,打破閉源壟斷-AI.x社區

圖3:FRAMES中的一個示例問題和答案,ODS - v1使用Wolfram計算器工具準確計算年齡差,得出正確答案90歲。相反,Perplexity采用了錯誤的推理路徑,報告年齡為79歲。

2.2.2 基于CodeAct智能體的ODS - v2

?代碼鏈(CoC):雖然思維鏈(CoT)在語義推理中已被證明是有效的,但在處理需要精確數值或符號計算的任務時,它常常遇到挑戰。為了解決這些限制,代碼鏈(參考文獻[11])(CoC)利用大語言模型的代碼編寫能力來生成和執行代碼或偽代碼,以解決算法和語義問題。這種方法不僅拓寬了大語言模型能夠處理的推理問題的范圍,還提高了它們在解決復雜任務時的準確性。在各種基準測試中,代碼鏈的表現優于傳統的思維鏈方法,這突出了將代碼生成和執行集成到大語言模型中以實現更強大推理能力的潛力。

?CodeAct:最近的進展(參考文獻[14])表明,與傳統的基于JSON的方法相比,生成可執行的Python代碼來調用工具在性能上有顯著提升。特別是,大語言模型天生擅長使用代碼壓縮任務的行動空間。此外,代碼作為一種表示模式,比基于JSON的方法更自然地適合采取行動,因為它可以更容易地進行組合、模塊化和泛化。在ODS - v2中,我們調整了搜索工具,使其能夠與SmolAgents(參考文獻[25])的框架協同工作,因為該框架允許定制且易于分發。我們最基本的由搜索驅動的推理智能體使用(參考文獻[25])CodeAgent(CodeAct的一個變體),并可訪問我們的搜索工具,如圖4所示。ODS - v2的更高級迭代涉及多個工具和智能體協同工作,以解決可能涉及或不涉及搜索的更復雜任務。

Open Deep Search:開源推理智能體實現深度搜索,打破閉源壟斷-AI.x社區

圖4:ODS - v2中的CodeAct智能體回答一個多跳問題

3. 實驗

基線模型:我們將ODS與Perplexity(參考文獻[21])中流行的閉源搜索人工智能(其默認搜索人工智能,我們稱為Perplexity,以及一種先進的推理搜索人工智能,稱為Perplexity Sonar Reasoning Pro(參考文獻[22]))以及OpenAI的最先進搜索人工智能GPT - 4o Search Preview(參考文獻[17])進行比較。這些是可訪問搜索引擎的最先進人工智能解決方案。作為單獨的基線模型,我們還將其與大語言模型進行比較:GPT - 4o、Llama - 3.1 - 70B和DeepSeekR1。盡管這些模型無法訪問互聯網,但我們在表1中展示了具有推理能力的大語言模型在我們的FRAMES(參考文獻[8])和SimpleQA(參考文獻[30])評估基準測試中表現出人意料地好。

3.1 兩個評估基準的數值分析:FRAMES和SimpleQA

我們使用兩個評估基準:FRAMES(參考文獻[8])和SimpleQA(參考文獻[30])。最初,SimpleQA旨在在不進行網絡瀏覽的情況下測試前沿模型的事實性,而FRAMES旨在測試模型在單跳和多跳查詢中的事實性和檢索能力,在FRAMES中會給出真實的維基百科文章。在我們的場景中,我們使用這兩個基準來評估可訪問互聯網的搜索人工智能的準確性。

3.1.1 FRAMES的數值分析

FRAMES(事實性、檢索和推理測量集)數據集(參考文獻[8])包含824個具有挑戰性的多跳問題,需要整合來自維基百科的多個來源的信息。參考文獻[8]中報道的最佳單查詢搜索方法,在使用來自維基百科數據轉儲中單個查詢檢索到的4個具有最高BM25分數(參考文獻[24])的文檔時,Gemini - Pro1.5 - 0514(2024年5月14日發布)的得分為47.4%。在表2中,ODS - v1 + DeepSeek - R1在每個查詢使用一次網絡搜索的相同條件下達到了56.7%的準確率。這比最先進的推理大語言模型(如DeepSeek - R1和GPT - 4o)以及搜索人工智能(如Perplexity和Perplexity Sonar Reasoning Pro)有了顯著提高,如表1所示?;贑odeAct的ODS - v2 + DeepSeek - R1智能體選擇進行更多搜索,因此在FRAMES上平均每個查詢使用3.39次搜索,達到了75.3%的準確率。

Open Deep Search:開源推理智能體實現深度搜索,打破閉源壟斷-AI.x社區

有了我們的推理智能體,ODS - v1 + DeepSeek - R1可以選擇進行更多搜索,但它沒有這樣做。另一方面,當ODS - v1使用Llama3.1 - 70B作為基礎模型時,它會進行更多的網絡搜索以提高準確率,如表中所示,圖6中的示例也對此進行了說明。

Open Deep Search:開源推理智能體實現深度搜索,打破閉源壟斷-AI.x社區

表2:在兩個基準測試中,ODS平均每個查詢進行網絡搜索的次數。ODS會根據第一次搜索結果的質量和模型輸出進行調整,僅在必要時謹慎地進行額外搜索。

參考文獻[8]中報道,通過多次網絡搜索可以提高FRAMES上的準確率。例如,Gemini - Pro - 1.5 - 0514通過使用重新表述的提示運行搜索引擎15次,可以達到與ODS - v1 + DeepSeek - R1相似的性能。然而,這種多步多搜索方法效率低下,因為它不管示例的難度或模型輸出的正確性如何,都固定進行15次搜索。這是我們智能體框架的動機之一,在我們的智能體框架中,我們的推理智能體會根據初始搜索質量和模型輸出自適應地選擇是否再次搜索。這在表2中有所體現,當ODS - v1與較弱的Llama3.1基礎模型配對時,它會進行更多的網絡搜索。圖6中的示例展示了ODS - v1在初始搜索不足時如何謹慎地使用搜索功能。同樣,對于ODS - v2,它在SimpleQA上選擇進行較少的網絡搜索,因為SimpleQA是一個相對簡單的任務,只需要一個正確的信息來源,而FRAMES是一個更復雜的任務,需要多個信息來源。

Open Deep Search:開源推理智能體實現深度搜索,打破閉源壟斷-AI.x社區

圖6:FRAMES中的一個示例問題和答案,ODS - v1 + Llama3.1 - 70B意識到需要進行第二次搜索,再次搜索以找到國王克里姆森主唱的出生年份,并正確回答“1946年”。另一方面,Perplexity(參考文獻[21])無法確定國王克里姆森樂隊的主唱。

3.1.2 SimpleQA的數值分析

Open Deep Search:開源推理智能體實現深度搜索,打破閉源壟斷-AI.x社區

Open Deep Search:開源推理智能體實現深度搜索,打破閉源壟斷-AI.x社區

圖7:SimpleQA中的一個示例問題和答案,ODS-v1利用開放搜索工具檢索到的高質量上下文,通過交叉核對多個來源,確定了正確答案。而Perplexity Sonar Reasoning Pro在搜索中未能檢索到相關信息。

Open Deep Search:開源推理智能體實現深度搜索,打破閉源壟斷-AI.x社區

圖8:SimpleQA中的一個示例問題和答案,開放推理智能體正確識別出112英寸為正確答案,并使用WolframAlpha API進行了額外檢查,將答案轉換為2845毫米。相反,Perplexity Sonar Reasoning Pro在112.5英寸和112英寸這兩個潛在答案之間產生了混淆。我們在此處簡化了回復,完整回復請參考附錄A。

Open Deep Search:開源推理智能體實現深度搜索,打破閉源壟斷-AI.x社區

在表3中,我們調查了其他來源報道的SimpleQA準確率結果,以及ODS - v1 + Llama3.1 - 70B、ODS - v1 + DeepSeek - R1和ODS - v2 + DeepSeek - R1的結果。借助DeepSeek - R1的推理能力,ODS - v1 + DeepSeek - R1比ODS - v1 + Llama3.1 - 70B有了改進。還有一些更新的閉源解決方案,如GPT - 4o Search Preview(參考文獻[17])、Exa(參考文獻[1])、Linkup(參考文獻[15])和Perplexity Deep Research(參考文獻[23]),聲稱在SimpleQA上取得了更高的分數。ODS提供了一個開源解決方案,可以顯著縮小開源搜索人工智能解決方案與閉源解決方案之間的差距。

3.2 ODS的消融研究

在表4中,我們對基于ReAct的ODS - v1開放推理智能體的各個部分進行了消融研究。Llama3.1-70B模型單獨在SimpleQA中隨機選擇的500個示例子集上(為了提高效率,僅在本節中使用了子采樣評估數據集)的準確率為21.2%,在FRAMES上的準確率為34.3% 。使用我們的開放搜索工具(在表中簡稱為Search)后,SimpleQA的準確率大幅提高到82.4%,但FRAMES的性能卻下降到27.6%。我們的開放推理智能體有兩個部分:帶有自洽性解碼的思維鏈ReAct(CoT-ReAct)和少樣本提示(FewShot)。逐個添加這些組件后,在子采樣的SimpleQA和FRAMES上都逐漸取得了性能提升。這表明ODS-v1的每個組件都對最終實現的性能有貢獻。最后,通過將基礎模型從Llama3.1-70B替換為推理能力更強的DeepSeek-R1,我們展示了ODS-v1能夠利用大語言模型的推理能力來實現更好的性能。

Open Deep Search:開源推理智能體實現深度搜索,打破閉源壟斷-AI.x社區

4. 結論

為了彌合諸如Perplexity Sonar Reasoning Pro(參考文獻[22])和GPT-4o Search Preview(參考文獻[17])等最先進的專有搜索人工智能解決方案與它們的開源替代方案(參考文獻[27, 19, 20])之間日益擴大的差距,我們推出了開放深度搜索(ODS)。這種開源搜索人工智能可以以即插即用的方式與用戶選擇的任何大語言模型無縫結合。這使得ODS能夠利用推理大語言模型的最新進展,實現越來越高的準確率。

當使用DeepSeek-R1時,ODS在FRAMES基準測試上可以達到75.3%的準確率,比2025年3月11日發布的GPT-4o Search Preview高出10%(表1)。在另一個基準測試SimpleQA上,ODS顯著縮小了開源和閉源解決方案之間的差距。這一重要的里程碑是通過ODS的兩個組件:開放搜索工具和開放推理智能體之間的協同作用實現的。

? 我們推出開放搜索工具,從互聯網提供高質量的檢索結果,供ODS中的推理智能體框架作為工具使用。

? 開放推理智能體解釋給定的任務,并通過調用可用的工具來完成任務,這些工具包括搜索工具(我們提出的開放搜索工具)、計算器(由Wolfram Alpha API提供)、思考(使用提供的基礎大語言模型)和代碼解釋器(我們使用Python解釋器)。

與最新的強大推理大語言模型一起,構成ODS的這兩個開源組件確保了我們在搜索方面實現最先進的性能。開放搜索工具相對于專有同類產品的優勢在例如圖7和附錄A中的其他示例中得到了展示。開放推理智能體的優勢在例如圖6和圖8以及附錄A中的其他示例中得到了展示。

我們提供了兩種版本的開放推理智能體:一種基于ReAct,另一種基于CodeAct。我們公開發布所有開源實現,并邀請開源社區在我們的工作基礎上進行構建和進一步創新,從我們的最先進搜索人工智能解決方案開始。

參考資料

? 標題:Open Deep Search: Democratizing Search with Open-Source Reasoning Agents

? 作者:Salaheddin Alzubi?、Creston Brooks?、Purva Chiniya?、Edoardo Contente?、Chiara von Gerlach?、Lucas Irwin?、Yihan Jiang?、Arda Kaz??、Windsor Nguyen??、Sewoong Oh??、Himanshu Tyagi?、Pramod Viswanath??

? 標簽:AI搜索、開源技術、大語言模型、推理智能體

? 概述: 本文提出開放深度搜索(ODS)這一開源AI搜索解決方案,介紹其組成部分、工作機制,并通過實驗展示其在搜索人工智能領域超越部分閉源方案的性能優勢。

? 鏈接:https://arxiv.org/pdf/2503.20201

本文轉載自???旺知識???,作者:旺知識

收藏
回復
舉報
回復
相關推薦
久久精品99久久久久久久久| 色综合网站在线| 成人a视频在线观看| 丁香花五月激情| 欧美黑白配在线| 一本到高清视频免费精品| 亚洲欧洲精品在线| 好吊色在线观看| 日产国产欧美视频一区精品| 欧美精品在线观看| 国产精品三级在线观看无码| 欧美啪啪网站| 黄色成人在线播放| 最新不卡av| 天堂av网在线| 精品一区二区三区在线播放| 欧美性受xxx| 日本中文在线视频| 国产成人3p视频免费观看| 日韩午夜在线观看视频| 成人在线看视频| 色网在线观看| 中文字幕亚洲在| 欧美高清视频一区二区三区在线观看 | 开心激情综合| 欧美一区二区三区公司| 色一情一乱一伦一区二区三区日本| 天堂va在线| ㊣最新国产の精品bt伙计久久| 精品一区二区三区视频日产| 国产黄色美女视频| 免费成人在线观看视频| 国产乱人伦丫前精品视频| 欧美在线|欧美| 九色在线视频观看| 免费影视亚洲| 亚洲欧美日韩人成在线播放| 先锋在线资源一区二区三区| 欧美日韩免费做爰大片| av在线不卡观看免费观看| 亚洲综合国产精品| 91免费视频播放| 蜜桃久久久久久| 国产精品九九久久久久久久| 日韩精品在线免费视频| 亚洲高清二区| 韩国精品美女www爽爽爽视频| 丝袜美腿小色网| 91麻豆国产自产在线观看亚洲| 亚洲视频网站在线观看| 精品人妻少妇嫩草av无码| 成人av动漫| 精品国产91九色蝌蚪| 四虎国产精品永久免费观看视频| 久久久久久久久久久久电影| 欧美极品影院| 91丝袜国产在线播放| 精品国产乱码久久久久软件 | 中文字幕在线官网| 精品久久久久久国产91| 成熟丰满熟妇高潮xxxxx视频| 24小时免费看片在线观看| 亚洲高清久久久| 欧日韩免费视频| 亚洲天堂免费电影| 色综合中文综合网| 中文久久久久久| 在线免费成人| 日韩精品一区二区三区在线| 亚洲女则毛耸耸bbw| 精品福利网址导航| 亚洲精品色婷婷福利天堂| 精品少妇人妻一区二区黑料社区| 精品久久久亚洲| 精品国模在线视频| 久久精品视频日本| 在线视频免费在线观看一区二区| 欧美最猛性xxxxx(亚洲精品)| 国产第一页在线观看| 久久精品国产99国产| 亚洲mm色国产网站| 天堂在线观看av| 久久久久久久精| 亚洲午夜精品久久久久久浪潮| 国产理论在线观看| 亚洲成av人片在www色猫咪| 久久国产乱子伦免费精品| av在线播放一区| 精品成人一区二区| 性高潮久久久久久久| 91精品蜜臀一区二区三区在线| 欧美激情中文网| 麻豆成人免费视频| 精品制服美女久久| 国产一区二区不卡视频| av在线免费观看网| 亚洲高清免费在线| 日日躁夜夜躁aaaabbbb| 精品久久ai电影| 中文字幕久久亚洲| 国产无精乱码一区二区三区| 青青草成人在线观看| 成人资源视频网站免费| www亚洲人| 亚洲国产综合91精品麻豆| 中文字幕视频在线免费观看| jazzjazz国产精品久久| 尤物yw午夜国产精品视频明星| 国产成人无码aa精品一区| 香蕉国产精品偷在线观看不卡| 成人性生交大片免费看视频直播 | 国产尤物在线观看| 99久久国产免费看| 男女h黄动漫啪啪无遮挡软件| 无码小电影在线观看网站免费| 正在播放一区二区| 熟女俱乐部一区二区| 国产精品av久久久久久麻豆网| 国产精品美女免费看| 午夜影院在线视频| 一区二区免费看| 国产一区二区在线观看免费视频| 香蕉一区二区| 久久久久久久久久久久久久久久久久av | 激情久久av| 制服丝袜中文字幕在线| 欧美视频一区二区三区在线观看| 亚洲天堂av网站| 亚洲精品成人| 成人av色在线观看| 在线免费观看的av网站| 色综合视频一区二区三区高清| 中文字幕第九页| 91av精品| 91热精品视频| 国产日产一区二区三区| 欧美浪妇xxxx高跟鞋交| 国产精品久久久久久成人| 石原莉奈在线亚洲三区| 欧美一二三四五区| 成人教育av| 国产视频欧美视频| 9i看片成人免费看片| 99久久免费视频.com| 日本xxxxxxxxxx75| 久久精品凹凸全集| 97久久久久久| 国产精品国产高清国产| 精品成人国产在线观看男人呻吟| 免费观看污网站| 亚洲福利免费| 精品中文字幕一区| 在线男人天堂| 亚洲一级一级97网| 青青国产在线视频| 国产精品麻豆一区二区| jizzzz日本| 亚洲中无吗在线| 成人夜晚看av| 暖暖在线中文免费日本| 亚洲国产97在线精品一区| 日韩欧美不卡视频| 久久午夜电影网| 黄色手机在线视频| 91高清一区| 国产精品一区在线播放| 欧美激情网站| 在线观看欧美视频| 国产乱色精品成人免费视频| 一区二区三区在线播放| 中文字幕在线视频播放| 欧美在线综合| 在线精品亚洲一区二区| 日韩欧美久久| 91精品国产色综合久久不卡98| 国内精品一区视频| 欧美一区午夜精品| 国产污污视频在线观看 | 精品一区二区在线免费观看| 人妻无码一区二区三区四区| 另类尿喷潮videofree| 国产精品www| 黄网站免费在线播放| 精品久久五月天| 中文字幕乱伦视频| 一区二区三区日韩欧美精品 | 国产精品久久久久久久久免费桃花| 亚洲天堂av一区二区三区| 亚洲第一在线| 在线免费一区| 天堂日韩电影| 91精品美女在线| 蜜桃av在线| 久久综合电影一区| 免费在线视频一级不卡| 欧美大片顶级少妇| 波多野结衣在线电影| 亚洲综合在线观看视频| av手机在线播放| 成人午夜视频网站| 超碰在线播放91| 国产视频一区免费看| 中文字幕一区二区三区乱码 | 亚洲欧美激情在线视频| 99国产精品一区二区三区| 日韩欧美精品免费在线| 久草网站在线观看| 国产拍欧美日韩视频二区| 动漫av在线免费观看| 毛片不卡一区二区| 欧美日韩在线视频一区二区三区| 一区二区三区在线观看免费| 日韩精彩视频| 色狼人综合干| 国产91精品入口17c| 成人国产精品入口免费视频| 91极品女神在线| 欧美xxxx性xxxxx高清| 最新的欧美黄色| 黄色av免费在线看| 亚洲国内高清视频| 亚洲美女性生活| 91精品免费在线| 自拍偷拍福利视频| 日本韩国精品在线| 影音先锋亚洲天堂| 亚洲成年人网站在线观看| 青青操视频在线播放| 综合分类小说区另类春色亚洲小说欧美 | 福利视频免费在线观看| 欧美成人嫩草网站| 中文字幕免费在线不卡| 久久精品播放| 午夜精品一区二区三区四区| 你微笑时很美电视剧整集高清不卡| 国产精品免费一区二区| 亚洲精品不卡在线观看| 91久久在线观看| 中文字幕日本一区| 91精品国产自产在线| 欧美极品在线| 成人在线观看视频网站| 先锋影音一区二区| 成人在线激情视频| 97久久精品一区二区三区的观看方式 | 欧美亚洲黄色| 成人性生交大片免费看小说| 婷婷久久综合九色综合99蜜桃| 91精品免费看| 亚洲精品v亚洲精品v日韩精品| 999热视频| 国产美女撒尿一区二区| 狠狠色伊人亚洲综合网站色| 亚洲小说图片视频| 色涩成人影视在线播放| 欧洲毛片在线视频免费观看| 亚洲欧洲精品一区二区| **女人18毛片一区二区| www插插插无码免费视频网站| 黄色亚洲免费| 国产中文字幕视频在线观看| 久久xxxx| 小早川怜子一区二区三区| 国产麻豆精品久久一二三| 国产乱码一区| 成人精品在线看| 日韩欧美国产黄色| 亚洲综合五月天婷婷丁香| 欧美精品九九99久久| wwwav在线播放| 日韩久久精品成人| 3d成人动漫在线| 久久99国产精品久久久久久久久| 波多野结依一区| 国产不卡在线观看| 婷婷成人av| 国产麻豆日韩| 国产精品三级| 中文字幕乱码免费| 国产欧美丝祙| 手机版av在线| 成人av网站大全| 性爱在线免费视频| 一区二区三区丝袜| 国产精品视频免费播放| 欧美揉bbbbb揉bbbbb| 亚洲精华国产精华精华液网站| 亚洲欧美日本精品| 日韩av中文| 91超碰caoporn97人人| 亚洲精品三区| 久久精品一二三区| 66久久国产| 农村妇女精品一二区| 国内成人精品2018免费看| 国产精品嫩草av| 亚洲视频在线观看一区| 中文字幕免费在线观看视频| av日韩在线网站| 欧洲成人一区二区| 伊人成综合网| 婷婷丁香激情网| www.亚洲激情.com| 性色av无码久久一区二区三区| 精品久久久久久久久久久久| 国产情侣激情自拍| 亚洲色在线视频| xxx性欧美| 亚洲中国色老太| 99re66热这里只有精品8| 99爱视频在线| 国产成人h网站| 久久久久久久久久97| 一本一本久久a久久精品综合麻豆 一本一道波多野结衣一区二区 | 日韩资源在线| 欧美精品在线网站| 久久天天久久| 久久人人97超碰人人澡爱香蕉| 欧美日韩天堂| 久久精品久久99| 国产精品福利一区| 中文字幕在线播| 日韩精品欧美国产精品忘忧草| 麻豆蜜桃在线| 亚洲最大福利网站| 五月天久久网站| 久久久精品高清| 国产精品久久久久婷婷| 国产成人麻豆免费观看| 精品在线观看国产| 悠悠资源网亚洲青| 国产一区二区三区无遮挡| 欧美女人交a| 女教师高潮黄又色视频| 亚洲人成影院在线观看| 97在线视频人妻无码| 色av中文字幕一区| 精品久久久网| 亚洲免费视频一区| 美国一区二区三区在线播放| 熟女少妇内射日韩亚洲| 色播五月激情综合网| 岛国在线大片| 国产欧美va欧美va香蕉在线| 欧美手机视频| 久热在线视频观看| 日韩美女视频一区二区| 国产乱叫456在线| 久久不射电影网| aaa国产精品| 欧美一级视频免费看| 91丨porny丨中文| 影音先锋在线国产| 伊人男人综合视频网| а√天堂资源国产精品| 在线丝袜欧美日韩制服| 国产毛片精品视频| 国产一级特黄视频| 亚洲精品国产精品国产自| 小视频免费在线观看| 日韩国产欧美精品| 激情综合色丁香一区二区| 久久久久久久久毛片| 亚洲精品成a人在线观看| 性欧美超级视频| 一区二区三区四区国产| 国产精品资源在线观看| 日韩久久久久久久久| 亚洲免费伊人电影在线观看av| 欧美成人app| 男女爱爱视频网站| a在线欧美一区| 亚洲中文无码av在线| 久久精品这里热有精品| 久久国产精品免费精品3p| 日韩免费高清在线| 成人免费一区二区三区在线观看| 性色av蜜臀av| 日韩免费观看av| 91精品国产乱码久久久久久久| 国产精品扒开腿做爽爽爽a片唱戏| 色综合中文综合网| 51xtv成人影院| 免费在线国产精品| 国产一区欧美日韩| 国产成人免费看| 久久香蕉国产线看观看网| 日韩精选在线| 亚洲最大天堂网| 欧美性黄网官网| 国产在线1区| 免费精品视频一区| 国产高清亚洲一区| 亚洲色成人www永久网站| 欧美精品在线观看| 成人a'v在线播放| 日韩无码精品一区二区| 51精品秘密在线观看| 忘忧草在线日韩www影院| av日韩在线看|