精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

未來已來:數(shù)據(jù)如何驅(qū)動AI大模型的競爭

人工智能
數(shù)據(jù)是AI模型的"燃料",未來AI大模型的競爭,無疑將更加依賴高質(zhì)量的數(shù)據(jù)。因此,對數(shù)據(jù)的投入和利用,將決定中國在全球AI競賽中的地位和成績。

隨著人工智能的迅猛發(fā)展,高質(zhì)量數(shù)據(jù)的重要性已愈發(fā)明顯。以大型語言模型為例,近年來的飛躍式進(jìn)展在很大程度上依賴于高質(zhì)量和豐富的訓(xùn)練數(shù)據(jù)集。相比于GPT-2,GPT-3在模型架構(gòu)上的改變微乎其微,更大的精力是投入到了收集更大、更高質(zhì)量的數(shù)據(jù)集來進(jìn)行訓(xùn)練。例如,ChatGPT與GPT-3的模型架構(gòu)類似,但使用了RLHF(來自人工反饋過程的強(qiáng)化學(xué)習(xí))來生成用于微調(diào)的高質(zhì)量標(biāo)注數(shù)據(jù)。

認(rèn)識到這一現(xiàn)象,人工智能領(lǐng)域的權(quán)威學(xué)者吳承恩發(fā)起了“以數(shù)據(jù)為中心的 AI”運(yùn)動,這是一種新的理念,它主張在模型架構(gòu)相對固定的前提下,通過提升數(shù)據(jù)的質(zhì)量和數(shù)量來提升整個模型的訓(xùn)練效果。這其中包括添加數(shù)據(jù)標(biāo)記、清洗和轉(zhuǎn)換數(shù)據(jù)、數(shù)據(jù)縮減、增加數(shù)據(jù)多樣性、持續(xù)監(jiān)測和維護(hù)數(shù)據(jù)等。因此,未來在大模型開發(fā)中,數(shù)據(jù)成本(包括數(shù)據(jù)采集、清洗、標(biāo)注等成本)所占的比例可能會逐步提高。

AI大模型需要的數(shù)據(jù)集應(yīng)具備以下特性:

(1)高質(zhì)量:高質(zhì)量的數(shù)據(jù)集可以提高模型的精度和可解釋性,同時縮短模型收斂到最優(yōu)解的時間,也就是訓(xùn)練時長。

(2)大規(guī)模:在《Scaling Laws for Neural Language Models》一文中,OpenAI提出了LLM模型的"伸縮法則",即獨(dú)立增加訓(xùn)練數(shù)據(jù)量、模型參數(shù)規(guī)?;蜓娱L模型訓(xùn)練時間,預(yù)訓(xùn)練模型的效果會持續(xù)提升。

(3)多樣性:數(shù)據(jù)的多樣性有助于提高模型的泛化能力,過于單一的數(shù)據(jù)可能會導(dǎo)致模型過度擬合訓(xùn)練數(shù)據(jù)。

數(shù)據(jù)集的生成與處理

數(shù)據(jù)集的建立流程主要包括以下步驟:

  • 數(shù)據(jù)采集:數(shù)據(jù)采集的對象可能包括各種類型和格式的視頻、圖片、音頻和文本等。數(shù)據(jù)采集常用的方式有系統(tǒng)日志采集方法、網(wǎng)絡(luò)數(shù)據(jù)采集方法以及ETL。
  • 數(shù)據(jù)清洗:因為采集到的數(shù)據(jù)可能存在缺失值、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)等質(zhì)量問題,數(shù)據(jù)清洗就顯得尤為重要。數(shù)據(jù)清洗作為數(shù)據(jù)預(yù)處理中至關(guān)重要的環(huán)節(jié),清洗后的數(shù)據(jù)質(zhì)量在很大程度上決定了AI算法的有效性。
  • 數(shù)據(jù)標(biāo)注:這是流程中最重要的一個環(huán)節(jié)。管理員會根據(jù)不同的標(biāo)注需求,將待標(biāo)注的數(shù)據(jù)劃分為不同的標(biāo)注任務(wù)。每一個標(biāo)注任務(wù)都有不同的規(guī)范和標(biāo)注點(diǎn)要求,一個標(biāo)注任務(wù)將會分配給多個標(biāo)注員完成。
  • 模型訓(xùn)練:模型訓(xùn)練人員會利用標(biāo)注好的數(shù)據(jù)訓(xùn)練出需要的算法模型。
  • 模型測試:測試人員進(jìn)行模型測試并將測試結(jié)果反饋給模型訓(xùn)練人員,模型訓(xùn)練人員通過不斷地調(diào)整參數(shù),以便獲得性能更好的算法模型。
  • 產(chǎn)品評估:產(chǎn)品評估人員需要反復(fù)驗證模型的標(biāo)注效果,并對模型是否滿足上線目標(biāo)進(jìn)行評估。只有經(jīng)過產(chǎn)品評估環(huán)節(jié)的數(shù)據(jù)才算是真正過關(guān)。

然而,盡管中國的數(shù)據(jù)資源豐富,但由于數(shù)據(jù)挖掘不足,數(shù)據(jù)無法在市場上自由流通等因素,導(dǎo)致優(yōu)質(zhì)的中文數(shù)據(jù)集仍然稀缺。據(jù)統(tǒng)計,ChatGPT的訓(xùn)練數(shù)據(jù)中,中文資料的比重不足千分之一,而英文資料占比超過92.6%。此外,加利福尼亞大學(xué)和Google研究機(jī)構(gòu)的研究發(fā)現(xiàn),目前機(jī)器學(xué)習(xí)和自然語言處理模型使用的數(shù)據(jù)集有50%是由12家頂級機(jī)構(gòu)提供,其中10家為美國機(jī)構(gòu),1家為德國機(jī)構(gòu),只有1家機(jī)構(gòu)來自中國,即香港中文大學(xué)。

我們認(rèn)為,國內(nèi)缺乏高質(zhì)量數(shù)據(jù)集的原因主要有以下幾點(diǎn):

  • 高質(zhì)量數(shù)據(jù)集需要巨大的資金投入,但目前國內(nèi)對數(shù)據(jù)挖掘和數(shù)據(jù)治理的投入不足。
  • 國內(nèi)相關(guān)公司往往缺乏開源意識,導(dǎo)致數(shù)據(jù)無法在市場上自由流通。
  • 國內(nèi)相關(guān)公司成立較晚,數(shù)據(jù)積累相對于國外公司要少。
  • 在學(xué)術(shù)領(lǐng)域,中文數(shù)據(jù)集的重視程度低。
  • 國產(chǎn)數(shù)據(jù)集的市場影響力和普及度相對較低。

目前,國內(nèi)科技互聯(lián)網(wǎng)頭部企業(yè)主要通過公開數(shù)據(jù)和自身特有數(shù)據(jù)來訓(xùn)練大模型。例如,百度的“文心”大模型使用的特有數(shù)據(jù)主要包括萬億級的網(wǎng)頁數(shù)據(jù),數(shù)十億的搜索數(shù)據(jù)和圖片數(shù)據(jù)等。阿里的“通義”大模型的訓(xùn)練數(shù)據(jù)主要來自阿里達(dá)摩院。騰訊的“混元”大模型的特有訓(xùn)練數(shù)據(jù)主要來自微信公眾號、微信搜索等優(yōu)質(zhì)數(shù)據(jù)。華為的“盤古”大模型的訓(xùn)練數(shù)據(jù),除了公開數(shù)據(jù),還有B端行業(yè)數(shù)據(jù)加持,包括氣象、礦山、鐵路等行業(yè)數(shù)據(jù)。商湯的“日日新”模型的訓(xùn)練數(shù)據(jù)中,包括了自行生成的Omni Objects 3D多模態(tài)數(shù)據(jù)集。

中國的數(shù)據(jù)環(huán)境和未來

盡管現(xiàn)狀尚有不足,但中國的數(shù)據(jù)環(huán)境仍有巨大的潛力。首先,中國是全球最大的互聯(lián)網(wǎng)用戶群體,日產(chǎn)數(shù)據(jù)量巨大,為構(gòu)建大規(guī)模高質(zhì)量數(shù)據(jù)集提供了基礎(chǔ)。其次,中國政府對于AI和數(shù)據(jù)治理的重視,無論是政策支持還是資金投入,都為數(shù)據(jù)環(huán)境的改善和發(fā)展提供了有利條件。

未來,中國需要在以下幾個方面進(jìn)行努力:

  1. 建立數(shù)據(jù)采集和清洗系統(tǒng):建立一套完整的數(shù)據(jù)采集和清洗系統(tǒng),確保數(shù)據(jù)的質(zhì)量和有效性,為后續(xù)的模型訓(xùn)練提供可靠的數(shù)據(jù)基礎(chǔ)。
  2. 提高公開數(shù)據(jù)的可獲取性和使用性:鼓勵公司、研究機(jī)構(gòu)等公開數(shù)據(jù),讓數(shù)據(jù)在市場中自由流通,從而提高數(shù)據(jù)的可獲取性和使用性。
  3. 加大數(shù)據(jù)標(biāo)注投入:通過提高標(biāo)注效率和質(zhì)量,降低標(biāo)注成本,從而獲取更多、更高質(zhì)量的標(biāo)注數(shù)據(jù)。
  4. 培養(yǎng)更多的數(shù)據(jù)科學(xué)家和AI工程師:通過教育和培訓(xùn),增加數(shù)據(jù)科學(xué)家和AI工程師的數(shù)量和素質(zhì),以推動中國的AI研究和應(yīng)用。
  5. 加強(qiáng)國內(nèi)外的數(shù)據(jù)合作:通過數(shù)據(jù)合作,借鑒國外的成功經(jīng)驗,改進(jìn)數(shù)據(jù)的采集、處理、使用等方面的技術(shù)和方法,以提升中國數(shù)據(jù)的質(zhì)量和價值。

數(shù)據(jù)是AI模型的"燃料",未來AI大模型的競爭,無疑將更加依賴高質(zhì)量的數(shù)據(jù)。因此,對數(shù)據(jù)的投入和利用,將決定中國在全球AI競賽中的地位和成績。

責(zé)任編輯:姜華 來源: 今日頭條
相關(guān)推薦

2021-02-05 07:06:03

AI人工智能

2018-01-16 20:14:37

OpenPOWERAIIBM

2021-05-10 09:40:02

大數(shù)據(jù)互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用

2023-07-04 09:48:10

AI模型

2021-10-14 23:05:34

運(yùn)營商區(qū)塊鏈數(shù)據(jù)

2020-09-06 08:23:36

技術(shù)人工智能5G

2019-09-03 14:53:11

醫(yī)療機(jī)器人智慧醫(yī)療

2024-02-05 22:13:50

C++C++20開發(fā)

2015-08-24 09:59:19

dt

2022-06-28 12:02:11

ClouderaCDP混合數(shù)據(jù)

2020-10-22 15:20:24

北理工智慧校園永洪科技

2018-04-27 14:14:29

GMIC

2015-10-19 13:16:57

能源互聯(lián)網(wǎng)

2014-05-21 16:03:45

敏捷網(wǎng)絡(luò)華為

2019-11-11 16:19:39

人工智能

2018-08-09 16:03:14

2016-10-27 08:57:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

国产一区高清| 欧洲不卡视频| 日韩激情在线观看| 按摩亚洲人久久| 中文字幕天堂av| 成人在线爆射| 一区二区三区免费网站| 久久亚洲午夜电影| 91精品国产乱码久久久久| 你懂的视频一区二区| 日韩av在线直播| 中文字幕永久有效| 国产免费拔擦拔擦8x高清在线人| 国产欧美一区二区精品性色超碰| 亚洲影院污污.| 国产91精品看黄网站在线观看| 欧美电影一二区| 日韩av中文字幕在线| 成人亚洲免费视频| 天天综合网站| 性欧美疯狂xxxxbbbb| 一级日韩一区在线观看| 深夜影院在线观看| 国产高清不卡一区二区| 国产精品永久在线| 亚洲男人的天堂在线视频| 亚洲一级毛片| 在线观看成人黄色| 野花社区视频在线观看| **国产精品| 欧美日韩在线看| www.好吊操| 久热国产在线| 亚洲国产精品99久久久久久久久| 高清国产在线一区| 亚洲字幕av一区二区三区四区| 亚洲国产国产亚洲一二三| 日韩一区视频在线| 性欧美精品男男| 亚洲精品亚洲人成在线观看| 日韩免费高清av| 色天使在线观看| 欧美成人黄色| 欧美视频一区二区三区在线观看| 国产又黄又大又粗视频| 98色花堂精品视频在线观看| 一区二区三区日本| 麻豆传媒网站在线观看| 二区在线播放| 亚洲欧美电影院| 综合久久国产| 快射av在线播放一区| 国产精品久久久久一区| 亚洲精品第一区二区三区| 国产尤物视频在线| 国产午夜精品一区二区三区视频 | 日韩精品中文字幕一区二区| 在线播放91灌醉迷j高跟美女| 日韩精品你懂的| 欧美日韩尤物久久| 欧美三级午夜理伦三级中视频| 亚洲色图38p| 88xx成人网| 欧美日韩国产经典色站一区二区三区| 少妇网站在线观看| 九七电影院97理论片久久tvb| 欧美日韩视频在线观看一区二区三区| 中文字幕22页| 日本一区二区三区电影免费观看 | 国产中文字幕在线视频| 国产日韩影视精品| 午夜精品电影在线观看| 免费在线看黄色| 一区二区三区中文在线| 欧美视频在线观看网站| 超碰aⅴ人人做人人爽欧美| 欧美性猛交丰臀xxxxx网站| 国产v亚洲v天堂无码久久久| 色诱色偷偷久久综合| 日韩三级.com| 三叶草欧洲码在线| 成人精品久久| 色综合久综合久久综合久鬼88 | 日本片在线看| 欧美日韩国产中文字幕| 久久久久国产精品熟女影院| 国产电影一区| 日韩高清人体午夜| 四季av中文字幕| 欧美日韩国产精品一区二区亚洲| 午夜精品视频在线| 一区二区小视频| 福利91精品一区二区三区| 久久久7777| 黄色片网站在线| 精品久久中文字幕| 久久国产激情视频| 精品福利网址导航| 少妇高潮 亚洲精品| 国产亚洲精品久久久久久无几年桃| 国产精品美女| 亚洲aⅴ男人的天堂在线观看| 天天干天天操av| 最新日韩av在线| 中文字幕日本最新乱码视频| 麻豆视频久久| 伊人久久精品视频| 国产无遮无挡120秒| 麻豆精品一区二区综合av| 国产亚洲欧美另类一区二区三区| 成年人视频在线看| 偷拍与自拍一区| www.欧美激情.com| 国产探花一区二区| 性欧美办公室18xxxxhd| 国产美女精品视频国产| 国产午夜亚洲精品理论片色戒| 成人短视频在线观看免费| 国产91亚洲精品久久久| 日韩精品中文在线观看| 免费中文字幕在线观看| 美国av一区二区| 牛人盗摄一区二区三区视频| 波多野一区二区| 日韩一级大片在线观看| 啪啪一区二区三区| 日韩和欧美一区二区| 精品一区二区久久久久久久网站| 亚洲91av| 91精品国产色综合久久| 无码人妻丰满熟妇啪啪欧美| 亚洲少妇一区| 精品伊人久久大线蕉色首页| 成人女同在线观看| 日韩欧美123| 精品人妻伦九区久久aaa片| 日韩高清欧美激情| 欧美一区二区三区在线播放 | 欧美日韩中国免费专区在线看| 中文字幕乱妇无码av在线| 久久久久久久久久久久久久久久久久 | 欧美大片xxxx| 国内久久精品视频| 免费久久久久久| 二区三区精品| 欧美美女18p| 亚洲国产999| 亚洲综合在线观看视频| 白丝校花扒腿让我c| 欧美激情日韩| 国产精品果冻传媒潘| 色黄网站在线观看| 日韩欧美黄色影院| 国产亚洲精品久久777777| av亚洲精华国产精华| 成人在线观看你懂的| 日韩av网站在线免费观看| 2019国产精品自在线拍国产不卡| 少妇人妻精品一区二区三区| 偷拍日韩校园综合在线| 日本黄色动态图| 久久激情网站| 亚洲狠狠婷婷综合久久久| 日本黄色成人| 久久99热精品这里久久精品| 免费观看黄色av| 欧美视频在线免费| 日本成人免费视频| 国产主播一区二区| 美女扒开大腿让男人桶| 女厕嘘嘘一区二区在线播放 | 国产丰满美女做爰| 偷拍与自拍一区| 一级片久久久久| 国产一区二区三区黄视频| 女人帮男人橹视频播放| 天堂俺去俺来也www久久婷婷| 国产精品1234| 黄色大片在线播放| 亚洲国产精品久久久久秋霞蜜臀| 无码人妻精品一区二区蜜桃色欲| 国产精品理论在线观看| 日本少妇xxxx软件| 久久精品道一区二区三区| 中文字幕人成一区| 久久激情av| 国产日韩在线精品av| 电影k8一区二区三区久久 | 欧美一级淫片007| 国产精品老女人| 亚洲色图欧洲色图| 三级黄色片网站| 国内精品伊人久久久久影院对白| 成品人视频ww入口| 成人看的视频| 国产一区在线观| 99精品视频在线免费播放| 欧美在线一级视频| 在线观看h网| 夜夜嗨av一区二区三区免费区| 国产黄a三级三级看三级| 在线亚洲一区二区| 久久草视频在线| 最新不卡av在线| 日韩在线免费观看av| 粉嫩嫩av羞羞动漫久久久| 欧美日韩大尺度| 黄色日韩精品| 国产系列第一页| 狠狠做深爱婷婷综合一区| caoporn国产精品免费公开| 欧美日韩国产网站| 欧美一级大片视频| 欧美黑人猛交的在线视频| 中文字幕在线看视频国产欧美在线看完整 | 爱情岛论坛亚洲品质自拍视频网站| 国产亚洲精品一区二区| 天天干天天色天天| 日韩精品专区在线| 国产精品久久综合青草亚洲AV| 色狠狠色噜噜噜综合网| 日韩免费av片| 一区二区高清免费观看影视大全 | 国产吃瓜黑料一区二区| 久久99精品国产麻豆婷婷| 国产v亚洲v天堂无码久久久| 日韩五码在线| 99在线精品免费视频| 欧美一区二区| 久久视频免费在线| 欧美独立站高清久久| 日韩尤物视频| 国产剧情一区| 日韩精品极品视频在线观看免费| 欧美挤奶吃奶水xxxxx| 99视频免费观看| 亚洲乱码一区| 99久re热视频这里只有精品6| 国产高清视频一区二区| 国产在线拍揄自揄视频不卡99| 日韩另类视频| 国产精品极品尤物在线观看| 免费亚洲电影| 日韩免费在线观看视频| japanese23hdxxxx日韩| 日韩av毛片网| 电影亚洲精品噜噜在线观看| 国产成人aa精品一区在线播放| 2022成人影院| 国产不卡av在线免费观看| 久久久久久久| 国产精品对白刺激| 日本精品裸体写真集在线观看| 国产精品va在线| 成人黄色在线| 国产中文欧美精品| 国产高清亚洲| 国产美女精品在线观看| 欧美交a欧美精品喷水| 快播亚洲色图| 精品国产一区一区二区三亚瑟| 亚洲 日韩 国产第一区| 91亚洲一区| www国产免费| 影音先锋日韩资源| 无码播放一区二区三区| 首页欧美精品中文字幕| 亚洲欧美视频二区| 国产精品一区二区久激情瑜伽| 在线观看一区二区三区视频| 成人黄页毛片网站| 久久精品综合视频| 中文字幕电影一区| 亚洲色图综合区| 精品国产乱码久久久久久婷婷| 亚洲欧美一二三区| 91超碰这里只有精品国产| 国产超碰人人模人人爽人人添| 精品国产亚洲一区二区三区在线观看| 头脑特工队2在线播放| 最近更新的2019中文字幕| 羞羞的视频在线看| 欧美一乱一性一交一视频| 久久久加勒比| 精品卡一卡二| 99久久激情| 免费无码不卡视频在线观看| 免费成人性网站| 黄色国产在线视频| 国产精品伦理一区二区| 国产精品成人国产乱| 欧美日韩国产综合一区二区| 亚洲黄色在线观看视频| 尤物精品国产第一福利三区| 丰满大乳少妇在线观看网站| 国产精品久久久久久超碰| www.久久东京| 在线不卡日本| 久久不射2019中文字幕| 午夜免费一级片| 国产亚洲一区字幕| 日韩欧美亚洲视频| 91精品国产欧美一区二区| 你懂的在线观看视频网站| 色综合色综合网色综合| 国产精品一区二区免费福利视频 | 杨幂一区二区国产精品| 久久久国产精品麻豆| 久久亚洲精品大全| 欧美人妖巨大在线| 国产福利小视频在线观看| 国外成人在线播放| 国产在线一区不卡| 日本在线视频不卡| 99精品国产一区二区青青牛奶| 免费黄频在线观看| 亚洲国产精品v| 中文字幕黄色片| 亚洲精品动漫100p| 国产乱码在线| 91在线播放视频| 91亚洲国产高清| 亚洲老女人av| 国产欧美日韩另类视频免费观看| 成人免费区一区二区三区| 精品日韩欧美在线| h片在线免费| 亚洲va久久久噜噜噜久久天堂| 成人综合久久| 国产wwwxx| 国产日产欧美一区| 国产精品第六页| 亚洲女人天堂成人av在线| 少妇在线看www| 久久99九九| 欧美一级二区| 特大黑人巨人吊xxxx| 精品福利樱桃av导航| 免费看国产片在线观看| 久久全球大尺度高清视频| jazzjazz国产精品久久| 国产美女永久无遮挡| 国产福利电影一区二区三区| 日韩在线中文字幕视频| 日韩亚洲欧美中文三级| 欧美人与性动交α欧美精品济南到 | 欧美精品久久久久| 国产精品网站在线看| 人妻少妇精品久久| 99精品欧美一区二区三区小说 | 欧美二区三区| 天堂av在线一区| 久久久久久国产免费a片| 欧美色视频一区| 久草免费在线| 成人黄色在线免费观看| 一区二区三区高清视频在线观看| 国产高清自拍视频| 欧美亚洲国产一区二区三区va | 中文字幕精品影院| 三级a三级三级三级a十八发禁止| 国产精品久久久久久久久免费丝袜 | 国产婷婷色综合av蜜臀av | 久久午夜影视| 老司机福利在线观看| 9191久久久久久久久久久| 欧美xxxxhdvideosex| 极品尤物一区二区三区| 日韩在线播放一区二区| 成人做爰视频网站| 欧美成人vr18sexvr| 中文字幕资源网在线观看免费| 四虎影院一区二区三区 | 国产无码精品视频| 亚洲欧美日韩精品久久亚洲区 | 日韩成人在线免费观看| 亚洲综合av一区二区三区| 日本xxxxx18| www激情久久| 国产精品嫩草影院精东| 97在线观看免费| 国产高清久久| 国产精品久久AV无码| 欧美日韩一区在线观看| 国产啊啊啊视频在线观看| 亚洲高清视频一区二区| 国产成人精品免费| 欧美亚洲另类小说| 欧美人与性动交a欧美精品| 九色精品国产蝌蚪| 自拍偷拍激情视频| 日本精品一区二区三区高清| 精品51国产黑色丝袜高跟鞋| 蜜桃网站成人| 国产精品夜夜嗨| 波多野结衣二区三区| 欧美激情一级欧美精品| 欧美第一精品| 熟女俱乐部一区二区| 欧美xxxx在线观看|