精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

當LLM遇到Database:阿里達摩院聯合HKU推出Text-to-SQL新基準?

人工智能 新聞
在新基準 BIRD 上,ChatGPT 僅能達到 40.08%,相比人類 92.96% 還有很大差距。

背景

大模型(LLM)為通用人工智能(AGI)的發展提供了新的方向,其通過海量的公開數據,如互聯網、書籍等語料進行大規模自監督訓練,獲得了強大的語言理解、語言生成、推理等能力。然而,大模型對于私域數據的利用仍然面臨一些挑戰,私域數據是指由特定企業或個人所擁有的數據,通常包含了領域特定的知識,將大模型與私域知識進行結合,將會發揮巨大價值。

私域知識從數據形態上又可以分為非結構化與結構化數據。對于非結構化數據,例如文檔,通常都通過檢索的方式進行增強,可以利用 langchain 等工具可以快速實現問答系統。而結構化數據,如數據庫(DB),則需要大模型與數據庫進行交互,查詢和分析來獲取有用的信息。圍繞大模型與數據庫,近期也衍生出一系列的產品與應用,譬如利用 LLM 打造智能數據庫、執行 BI 分析、完成自動表格構建等。其中,text-to-SQL 技術,即以自然語言的方式與數據庫進行交互,一直以來都是一個備受期待的方向。

在學術界,過去的 text-to-SQL 基準僅關注小規模數據庫,最先進的 LLM 已經可以達到 85.3% 的執行準確率,但這是否意味著 LLM 已經可以作為數據庫的自然語言接口?

新一代數據集

最近,阿里巴巴聯合香港大學等機構推出了面向大規模真實數據庫的全新基準 BIRD (Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs), 包含 95 個大規模數據庫及高質量的 Text-SQL pair,數據存儲量高達 33.4 GB。之前最優的模型在 BIRD 上評估僅達到 40.08%,與人類 92.96% 的結果還有很大差距,這證明挑戰仍然存在。除了評估 SQL 正確性外,作者還增加了 SQL 執行效率的評估,期待模型不僅可以寫正確的 SQL,還能夠寫出高效的 SQL。

圖片

論文:https://arxiv.org/abs/2305.03111

主頁:https://bird-bench.github.io

代碼:https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/bird

圖片

目前,BIRD 的數據、代碼、榜單都已經開源,在全球的下載量已超10000。BIRD在推出之始,就引發了 Twitter 上的廣泛關注與討論。

圖片

圖片

海外用戶的評論也非常精彩:

圖片

不容錯過的 LLM 項目

圖片

非常有用的檢查點,提升的溫床

圖片

AI 可以幫助你,但還不能取代你

圖片

我的工作暫時是安全的...

方法概述

新的挑戰

該研究主要面向真實數據庫的 Text-to-SQL 評估,過去流行的測試基準,比如 Spider 和 WikiSQL,僅關注具有少量數據庫內容的數據庫 schema,導致學術研究與實際應用之間存在鴻溝。BIRD 重點關注海量且真實的數據庫內容、自然語言問題與數據庫內容之間的外部知識推理以及在處理大型數據庫時 SQL 的效率等新三個挑戰。

圖片

首先,數據庫包含海量且嘈雜數據的值。在左側示例中,平均工資的計算需要通過將數據庫中的字符串(String)轉化為浮點值 (Float) 之后再進行聚合計算(Aggregation);

其次,外部知識推斷是很必要的,在中間示例中,為了能準確地為用戶返回答案,模型必須先知道有貸款資格的賬戶類型一定是 “擁有者”(“OWNER”),這代表巨大的數據庫內容背后隱藏的奧秘有時需要外部知識和推理來揭示;

最后,需要考慮查詢執行效率。在右側示例中,采用更高效的 SQL 查詢可以顯著提高速度,這對于工業界來講具有很大價值,因為用戶不僅期待寫出正確的 SQL,還期待 SQL 執行的高效,尤其是在大型數據庫的情況下;

數據標注

BIRD 在標注的過程中解耦了問題生成和 SQL 標注。同時加入專家來撰寫數據庫描述文件,以此幫助問題和 SQL 標注人員更好的理解數據庫。

圖片

1. 數據庫采集:作者從開源數據平臺(如 Kaggle 和 CTU Prague Relational Learning Repository)收集并處理了 80 個數據庫。通過收集真實表格數據、構建 ER 圖以及設置數據庫約束等手動創建了 15 個數據庫作為黑盒測試,來避免當前數據庫被當前的大模型學習過。BIRD 的數據庫包含了多個領域的模式和值, 37 個領域,涵蓋區塊鏈、體育、醫療、游戲等。

2. 問題收集:首先作者雇傭專家先為數據庫撰寫描述文件,該描述文件包括完整的表明列名、數據庫值的描述,以及理解值所用到的外部知識等。然后招募了 11 個來自美國,英國,加拿大,新加坡等國家的 native speaker 為 BIRD 產生問題。每一位 speaker 都至少具備本科及以上的學歷。

3.SQL 生成:面向全球招募了由數據工程師和數據庫課程學生組成的標注團隊為 BIRD 生成 SQL。在給定數據庫和參考數據庫描述文件的情況下,標注人員需生成 SQL 以正確回答問題。采用雙盲(Double-Blind)標注方法,要求兩位標注人員對同一個問題進行標注。雙盲標注可以最大程度減少單一標注人員所帶來的錯誤。 

4. 質量檢測:質量檢測分為結果執行的有效性和一致性兩部分。有效性不僅要求執行的正確性,還要求執行結果不能是空值(NULL)。專家將逐步修改問題條件,直至 SQL 執行結果有效。 

5. 難度劃分:text-to-SQL 的難度指標可以為研究人員提供優化算法的參考。Text-to-SQL 的難度不僅取決于 SQL 的復雜程度,還與問題難度、額外知識易理解程度以及數據庫復雜程度等因素有關。因此作者要求 SQL 標注人員在標注過程中對難易程度進行評分,并將難度分為三類:簡單、適中和具有挑戰性。

數據統計

1. 問題類型統計:問題分為兩大類,基礎問題類型(Fundamental Type)和推理問題類型(Reasoning Type)。基礎問題類型包括傳統 Text-to-SQL 數據集中涵蓋的問題類型,而推理問題類型則包括需要外部知識來理解值的問題:

圖片

2. 數據庫分布:作者用 sunburst 圖顯示了數據庫 domain 及其數據量大小之間的關系。越大的半徑意味著,基于該數據庫的 text-SQL 較多,反之亦然。越深的顏色則是指該數據庫 size 越大,比如 donor 是該 benchmark 中最大的數據庫,所占空間: 4.5GB。

圖片

3.SQL 分布:作者通過 SQL 的 token 數量,關鍵詞數量,n-gram 類型數量,JOIN 的數量等 4 個維度來證明 BIRD 的 SQL 是迄今為止最多樣最復雜的。

圖片

評價指標

1. 執行準確率:對比模型預測的 SQL 執行結果與真實標注 SQL 執行結果的差異;

2. 有效效率分數:同時考慮 SQL 的準確性與高效性,對比模型預測的 SQL 執行速度與真實標注 SQL 執行速度的相對差異,將運行時間視為效率的主要指標。

實驗分析

作者選擇了在之前基準測試中,表現突出的訓練式 T5 模型和大型語言模型(LLM)作為基線模型:Codex(code-davinci-002)和 ChatGPT(gpt-3.5-turbo)。為了更好地理解多步推理是否能激發大型語言模型在真實數據庫環境下的推理能力,還提供了它們的思考鏈版本(Chain-of-Thought)。并在兩種設置下測試基線模型:一種是完全的 schema 信息輸入,另一種是人類對涉及問題的數據庫值的理解,總結成自然語言描述(knowledge evidence)輔助模型理解數據庫。

圖片

作者給出了一些結論:

1. 額外知識的增益:增加對數據庫值理解的知識(knowledge evidence)有明顯的效果提升,這證明在真實的數據庫場景中,僅依賴語義解析能力是不夠的,對數據庫值的理解會幫助用戶更準確地找到答案。

2. 思維鏈不一定完全有益:在模型沒有給定數據庫值描述和零樣本(zero-shot)情況下,模型自身的 COT 推理可以更準確地生成答案。然而,當給定額外的知識(knowledge evidence)后,讓 LLM 進行 COT,發現效果并不顯著,甚至會下降。因此在這個場景中, LLM 可能會產生知識沖突。如何解決這種沖突,使模型既能接受外部知識,又能從自身強大的多步推理中受益,將是未來重點的研究方向。

3. 與人類的差距:BIRD 還提供了人類指標,作者以考試的形式測試標注人員在第一次面對測試集的表現,并將其作為人類指標的依據。實驗發現,目前最好的 LLM 距離人類仍有較大的差距,證明挑戰仍然存在。作者執行了詳細的錯誤分析,給未來的研究提供了一些潛在的方向。

圖片

結論

LLM 在數據庫領域的應用將為用戶提供更智能、更便捷的數據庫交互體驗。BIRD 的出現將推動自然語言與真實數據庫交互的智能化發展,為面向真實數據庫場景的 text-to-SQL 技術提供了進步空間,有助于研究人員開發更先進、更實用的數據庫應用。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-07-12 14:45:54

達摩院模型

2025-05-23 08:47:00

2021-05-25 14:20:20

數據模型系統

2022-04-22 11:22:47

達摩院阿里巴巴

2025-11-04 08:43:00

智能體數據推理

2022-08-17 10:39:44

AI阿里達摩院文檔智能

2025-10-24 10:58:24

智能體大語言模型LLM

2020-12-29 09:36:57

科技趨勢阿里

2020-01-02 11:19:55

阿里巴巴2020科技趨勢5G

2020-02-17 11:08:06

AI 數據人工智能

2022-05-05 15:02:26

機器學習人工智能開源

2018-04-20 09:08:10

AI芯片阿里巴巴

2023-01-14 14:59:05

達摩院

2022-04-07 10:37:03

MLPerf阿里云平頭哥

2022-08-10 11:31:34

阿里達摩院虛擬電廠

2022-11-03 18:29:09

阿里云達摩院人工智能

2017-10-12 13:30:33

2018-06-07 16:00:28

阿里巴巴語音識別開源

2022-07-19 14:01:44

阿里達摩院AI

2023-02-09 09:29:53

ChatGPT
點贊
收藏

51CTO技術棧公眾號

91午夜精品| 高清全集视频免费在线| 国产日韩专区| 亚洲色图13p| 色啦啦av综合| 97超碰免费在线| 亚洲国产精品ⅴa在线观看| 亚洲一区二区三区四区在线播放| 在线观看 中文字幕| 欧美日韩高清| 欧美va亚洲va国产综合| 日日碰狠狠躁久久躁婷婷| 国产乱视频在线观看| 国产精品996| 日韩av免费在线看| 免费在线观看亚洲| 波多野结衣一区| 欧美精品一区二区三区蜜臀| 中文字幕国产传媒| 国产在线观看www| 1024成人网| 欧美精品与人动性物交免费看| 国产激情久久久久久熟女老人av| 玖玖在线精品| 午夜精品在线观看| 欧美另类videoxo高潮| 国产精品欧美三级在线观看| 精品美女在线观看| 亚洲黄色片免费| 伊人久久高清| 欧美性jizz18性欧美| 国内外成人激情免费视频| 久久这里精品| 97se亚洲国产综合在线| 高清免费日韩| 国产普通话bbwbbwbbw| 免费看黄色91| 国产精品白嫩初高中害羞小美女 | 蜜臀91精品国产高清在线观看| 欧美一区二区三区小说| 日本超碰在线观看| 日日夜夜天天综合| 一本久久综合亚洲鲁鲁五月天 | 亚洲奶水xxxx哺乳期| 欧美国产欧美亚州国产日韩mv天天看完整| 精品乱子伦一区二区三区| 亚洲第一第二区| 国产乱码精品一区二区三区av | 久久久久九九视频| 精品国产福利| 少妇av在线播放| 国产suv一区二区三区88区| 91亚洲国产成人精品性色| 在线观看日韩一区二区| 免费在线观看日韩欧美| 国产精品热视频| 亚洲免费视频二区| 日本午夜精品一区二区三区电影| 国产成一区二区| 无码视频在线观看| 日韩专区中文字幕一区二区| 国产成人精品av在线| 最近免费中文字幕大全免费版视频| 午夜综合激情| 国产成人精品日本亚洲| 亚洲综合图片网| 青草国产精品久久久久久| 国产玖玖精品视频| 国产免费高清视频| 国产91丝袜在线18| 狠狠色噜噜狠狠色综合久| 五月天婷婷社区| 久久久久久久久久看片| 四虎一区二区| 成人福利片网站| 亚洲图片自拍偷拍| 中文字幕日本最新乱码视频| 欧美成a人片在线观看久| 欧美中文字幕久久| 一级片黄色免费| 97久久综合区小说区图片区 | 黄色录像a级片| 亚洲调教一区| 日韩在线国产精品| 国产性70yerg老太| 亚洲在线一区| 国产精品永久免费| 高清毛片aaaaaaaaa片| 久久先锋影音av鲁色资源| 亚洲欧洲国产日韩精品| 欧洲一区二区三区| 色综合久久精品| 日本在线播放一区二区| 国产精品对白| 伊人久久大香线蕉av一区二区| 日韩精品一区二区亚洲av性色| 一区在线视频| 国产精品入口尤物| 农村少妇久久久久久久| 欧美国产成人精品| 欧美午夜小视频| 日韩制服诱惑| 亚洲福利视频久久| 国产又粗又黄又猛| 亚洲第一精品影视| 成人国产精品av| 涩涩视频在线观看免费| 亚洲欧洲日产国产综合网| 精品视频在线观看一区| 91成人小视频| 亚洲欧美成人一区二区在线电影| 一级黄色录像视频| 日韩电影免费在线看| 国产 高清 精品 在线 a| 国产精品秘入口| 亚洲成人777| 一道本在线免费视频| 欧美91在线| 欧美成人在线影院| 中文字幕乱码人妻无码久久| 99精品久久久久久| 老司机激情视频| 国内欧美日韩| 亚洲欧洲一区二区三区久久| 蜜桃视频成人m3u8| 欧美在线二区| 国产成人综合精品| 天天舔天天干天天操| 亚洲三级久久久| 亚洲色图38p| 欧美福利在线播放网址导航| 久久中国妇女中文字幕| 艳妇乳肉豪妇荡乳av无码福利| 99久久精品免费看国产| 国产 欧美 日韩 一区| 欧美在线se| 中文字幕亚洲情99在线| 波多野结衣一区二区在线| 99国产精品久久久| 性一交一乱一伧国产女士spa| 成人豆花视频| 久久精品人人爽| 国产精品一级视频| 亚洲欧洲av一区二区三区久久| 久久午夜夜伦鲁鲁一区二区| 国产成人精品三级高清久久91| 欧美亚洲第一区| 色视频在线观看福利| 天天综合色天天综合色h| 欧产日产国产精品98| 精品福利电影| 精品一区2区三区| 国内激情视频在线观看| 精品视频久久久| 四虎精品永久在线| 96av麻豆蜜桃一区二区| 黑人糟蹋人妻hd中文字幕| 西瓜成人精品人成网站| 青草青草久热精品视频在线观看| 日韩专区一区二区| 日韩欧美一区视频| 亚洲一区二区自偷自拍| 免费精品视频最新在线| 熟女视频一区二区三区| 中文字幕区一区二区三| 国模精品视频一区二区| 四虎永久在线精品免费网址| 大桥未久av一区二区三区| 国精品无码人妻一区二区三区| 久久精品女人| 视频一区视频二区视频| 亚洲日本中文| 欧美精品激情在线观看| 性插视频在线观看| 欧美在线视频不卡| √天堂中文官网8在线| 粉嫩一区二区三区在线看| 国产精品一区二区免费在线观看| 伊人久久大香线蕉无限次| 国产精品中文字幕在线观看| 9191在线播放| 日韩理论片久久| 97超碰人人模人人人爽人人爱| 一区二区在线观看视频| 国产麻豆天美果冻无码视频| 麻豆国产一区二区| 蜜臀av色欲a片无码精品一区| 九九久久成人| 亚洲影院高清在线| 亚洲精品永久免费视频| 久久夜色精品亚洲噜噜国产mv| 日本精品久久久久| 欧美日韩一区二区在线观看| 免费在线视频观看| 欧美国产一区视频在线观看| 国产伦精品一区二区三区妓女下载| 99亚洲精品| 公共露出暴露狂另类av| 爽爽窝窝午夜精品一区二区| 国产精品视频内| 97蜜桃久久| 久久九九国产精品怡红院| 日韩中文字幕免费在线观看| 在线精品视频一区二区三四| 国产亚洲色婷婷久久99精品| 国产精品三级久久久久三级| 黄色网址在线视频| 国内精品久久久久影院薰衣草| 狠狠97人人婷婷五月| 888久久久| 日韩av一级大片| 99这里只有精品视频| 国产美女91呻吟求| 亚洲美女久久精品| 国内自拍欧美激情| jizz性欧美| 在线视频中文亚洲| 免费a在线观看| 亚洲国产精品va在线| 国产美女主播在线观看| 欧美日韩中文另类| 日本韩国欧美中文字幕| 亚洲资源在线观看| 亚洲 欧美 变态 另类 综合| 欧美经典一区二区三区| 无套内谢大学处破女www小说| 国产精品一卡二| 国产福利精品一区二区三区| 免费美女久久99| caoporn超碰97| 久久一区中文字幕| 国产在线青青草| 亚洲区欧美区| 亚洲 欧美 综合 另类 中字| 99精品在线观看| 西游记1978| 欧美一站二站| 午夜精品一区二区在线观看 | 97超级碰碰| 亚洲青青一区| 91天堂在线观看| **日韩最新| 91视频九色网站| 在线播放成人| 成人精品视频99在线观看免费| 草民电影神马电影一区二区| 国产精品高精视频免费| 日本一区二区三区视频在线| 国产精品久久999| 亚洲欧美在线成人| 国产成人亚洲综合91精品| 中文字幕一区久| 茄子视频成人在线| 亚洲伦乱视频| 国产精品入口夜色视频大尺度| 国产福利亚洲| 成人免费观看a| 欧美日本三级| 高清一区二区三区视频| 欧美黄色网视频| 欧美xxxx黑人又粗又长密月| 精品久久网站| 2025韩国大尺度电影| 伊人情人综合网| 日韩极品视频在线观看| 在线综合欧美| 久久久久免费精品| 久久国内精品自在自线400部| 天天干天天操天天玩| 黄色精品一二区| 日本人妻一区二区三区| av电影天堂一区二区在线观看| 丝袜美腿中文字幕| 亚洲国产精品传媒在线观看| 日韩福利小视频| 亚洲一线二线三线久久久| 丁香六月婷婷综合| 欧美在线你懂得| 国产黄色av片| 精品亚洲一区二区| 香蕉视频在线免费看| 欧美日韩国产二区| 黄色成人免费网| 国产日韩欧美另类| jizz性欧美23| 日韩精品大片| 女生裸体视频一区二区三区| 啊啊啊一区二区| 久久国产三级精品| 日本不卡视频一区| 国产精品免费久久| 久久精品视频8| 欧美性受xxxx黑人xyx性爽| 国产喷水福利在线视频| 国产丝袜一区视频在线观看| 国产在线高清视频| 欧美又大又粗又长| 国产aⅴ精品一区二区四区| 精品伦精品一区二区三区视频| 成人羞羞视频在线看网址| 日本福利视频网站| 另类小说欧美激情| 亚洲国产综合视频| 中文字幕日本乱码精品影院| 国产精品久久久久久99| 日韩视频一区在线观看| 丁香在线视频| 性欧美在线看片a免费观看| 一区在线不卡| 欧美日韩精品免费看| 黄色成人在线网址| 17c国产在线| 国产人成亚洲第一网站在线播放| 久久免费小视频| 欧美高清hd18日本| 国产日韩精品在线看| 2019av中文字幕| 成人在线视频国产| 五月天久久狠狠| 久久久久久色| 变态另类丨国产精品| 亚洲午夜成aⅴ人片| 国产三级午夜理伦三级| 中文字幕自拍vr一区二区三区| 国产日韩电影| 精品国产一区二区三区四区vr | 成人香蕉社区| 久久久久久久久网| 黄一区二区三区| 懂色av粉嫩av蜜臀av一区二区三区| 91福利视频网站| 嫩草研究院在线观看| 韩国三级日本三级少妇99| 亚洲精品黑牛一区二区三区| 日本黄色播放器| 久久99精品一区二区三区三区| 夜夜春很很躁夜夜躁| 欧洲精品一区二区三区在线观看| 你懂的在线看| 日本sm极度另类视频| 伊甸园亚洲一区| 91淫黄看大片| 国产精品每日更新在线播放网址| 国产精品尤物视频| 在线视频欧美日韩| 欧美成人xxxx| 日本免费在线视频观看| 狠狠色丁香婷综合久久| 999精品视频在线观看播放| 8x8x8国产精品| 在线免费观看的av| 国产精品国产三级欧美二区| 亚洲日韩成人| 中文字幕在线观看的网站| 色播五月激情综合网| 福利在线午夜| 国产一区深夜福利| 亚洲色图网站| 亚洲精品无码一区二区| 亚洲线精品一区二区三区| 日韩在线视频第一页| 9.1国产丝袜在线观看| 欧美日韩123| 波多野结衣天堂| 日韩一区欧美一区| 亚洲乱色熟女一区二区三区| 午夜精品在线视频| 蜜桃a∨噜噜一区二区三区| 欧美成人官网二区| 四虎电影院在线观看| 国产精品第一页在线| 久久久久久久久久久9不雅视频| 三级黄色片免费看| 无吗不卡中文字幕| 成人在线免费公开观看视频| 亚洲999一在线观看www| 在线视频观看日韩| 高清国产在线观看| 日韩精品影音先锋| 精品91久久| 麻豆映画在线观看| 波多野结衣视频一区| 天天综合久久综合| 欧美日韩国产va另类| 中文字幕亚洲影视| 涩多多在线观看| 狠狠色狠狠色综合日日小说| av影片在线看| 国产精品免费看一区二区三区| 视频精品一区二区| 欧美精品一区二区成人| 亚洲欧美日韩爽爽影院| 国产精一区二区| 国产aaa一级片| 一区二区在线观看视频在线观看| 欧美精品a∨在线观看不卡 | 日韩中文字幕一区二区高清99| 日本久久久精品视频| 亚洲欧美国产77777| 国产系列电影在线播放网址|