性能超越Llama2-13B,可免費商用,姚星創業公司開源百億參數通用大模型
高性能、可商用,國產大模型又有開源新動向。
8 月 7 日,百億參數高性能通用大模型「XVERSE-13B」宣布開源。
- Hugging Face:https://huggingface.co/xverse/XVERSE-13B
- Github:https://github.com/xverse-ai/XVERSE-13B
而 XVERSE-13B 的打造者,正是前騰訊公司副總裁姚星老師于2021年初創立的AI 與元宇宙技術服務公司元象 XVERSE。
在離職創業之前,姚星主導創建了騰訊首個人工智能實驗室 AI Lab(2016 年)和首個機器人實驗室 Robotics X (2018 年),曾推進騰訊在機器學習、計算機視覺、語音到自然語言處理等前沿 AI 技術的研究與應用,主導推出多個有行業影響力的應用與產品,包括國家圍棋隊 AI 陪練「絕藝」、王者榮耀 AI「絕悟」、中國首款臨床用智能顯微鏡、AI 驅動的新藥發現平臺「云深智藥」及騰訊智慧種植方案 iGrow 等。
打造最強性能的開源大模型
XVERSE-13B 是目前同尺寸中效果最好的多語言大模型,可免費商用。它具備了高性能、全開源、可商用等諸多優勢,能大大降低高校和企業部署使用大模型的成本,不僅實現了國產可替代,也是中文應用更好的選擇。
在多項權威的標準中文和英文測評中,性能超越了 Llama-2-13B、Baichuan-13B 等國內外開源大模型(見下圖一)。

圖一:經過多項權威測評,XVERSE-13B 是目前同尺寸中效果最好的多語言大模型。
作為一個通用大模型,XVERSE-13B 可提供文本生成、自動化寫作、數據分析、知識問答、多語言翻譯、個性化交互、人物角色扮演、專業小助手等多方面的生成服務,在醫療、文旅、金融和娛樂等多個行業具有廣闊應用前景。
據了解,元象近期還將發布大模型 Chat 版,開箱即用,持續優化開發者體驗。
訓練語料對大模型效果至關重要。XVERSE-13B 構建了一個高達 1.4 萬億高質量、多樣化 tokens 的訓練數據集,同時優化采樣策略和數據組織方式,讓模型支持中、英、俄、西等 40 多種語言,并且多語言任務處理的性能與效果俱佳。
XVERSE-13B 支持 8192 的上下文窗口,是同尺寸模型中最長的,從而能出色應對復雜場景,比如更長的多輪對話、知識問答與摘要等,應用范圍更廣泛。
模型使用標準 Transformer 網絡結構,從零開始訓練,還自主研發多項關鍵技術,包括高效算子、顯存優化、并行調度策略、數據 - 計算 - 通信重疊、平臺和框架協同等,讓訓練效率更高,模型穩定性強,在千卡集群上的峰值算力利用率可達到 58.5%,位居業界前列。
多個權威中文測評中表現優異,超越 Baichuan-13B
為驗證模型各項能力,XVERSE-13B 通過 C-Eval、AGIEval 和 GAOKAO-Bench 等三個最具影響力的中文測評基準的綜合評估(圖二),表現優異,超越了同參數規模主流模型,如 Baichuan-13B、Llama-2-13B、Ziya-LLaMA-13B 等。

圖二:在多個權威中文測評中,XVERSE-13B 表現超越了同參數規模的主流模型。
在中文 C-Eval 的測評中(圖三),XVERSE-13B 綜合評分達到了 54.7 分,超越了同參數規模的主流模型。C-EVAL 測評基準由上海交通大學、清華大學以及愛丁堡大學聯合創建,是面向中文語言模型的綜合考試測試集,覆蓋了 52 個來自不同行業領域的學科。

圖三:C-Eval 中文測評結果。
在 AGIEval 測評里,XVERSE-13B 綜合評分達到 41.4 分,超越了同參數規模主流模型(圖二)。AGIEval 測評基準由微軟研究院發起,旨在全面評估基礎模型在人類認知和問題解決相關任務上的能力,包含了中國的高考、司法考試,以及美國的 SAT、LSAT、GRE 和 GMAT 等 20 個公開且嚴謹的官方入學和職業資格考試。
在 GAOKAO-Bench 測評中,XVERSE-13B 綜合評分達到了 53.9 分,顯著領先于同參數規模的主流模型(圖二)。GAOKAO-Bench 測評基準是復旦大學研究團隊創建的測評框架,以中國高考題目作為數據集,用于測評大模型在中文語言理解和邏輯推理能力方面的表現。
英文測評表現領先 Llama-2-13B
XVERSE-13B 的英文表現同樣出色,在英文最權威評測 MMLU 中,其綜合評分高達 55.1 分,幾乎在所有維度超越了同參數規模的主流模型(圖四),包括 Llama-2-13B、Baichuan-13B 等。

圖四:MMLU 英文測評結果。
MMLU 由加州大學伯克利分校等知名高校共同打造,集合了科學、工程、數學、人文、社會科學等領域的 57 個科目,主要目標是對模型的英文跨學科專業能力進行深入測評。其內容廣泛,從初級水平一直涵蓋到高級專業水平。
需要強調的是,測評只反映了大模型底座的核心能力,元象將持續迭代優化,全面提升模型能力。
免費可商用 哈工大率先使用助力研究
秉持開源精神,XVERSE-13B 代碼采用 Apache-2.0 協議,向學術研究完全開源,企業只需簡單登記,即可免費商用。
哈爾濱工業大學(下稱「哈工大」)作為我國最早從事自然語言處理研究的頂級科研團隊,已經率先使用 XVERSE-13B 大模型推進相關研究工作。哈工大計算機科學與技術學院張偉男教授表示,「開源是互聯網時代主流模式,不僅能貢獻社區,推動技術持續創新,還能利用協同解決算法透明性、穩定性、公眾信任度等共性問題。」
元象 XVERSE 創始人姚星表示:「真實世界的感知智能(3D),與真實世界的認知智能(AI),是探索通用人工智能(AGI)的必由之路,也是元象持續探索 3D 與 AI 前沿技術的動力。XVERSE-13B 是我們在國產技術自立自強上邁出的一小步,而開源開放將激發大模型生態活力,讓 AI 的未來發展邁出一大步,為實體經濟、數字經濟的發展注入強勁動力。我們期待與眾多企業與開發者攜手,開創大模型商用新紀元。」





































