性能超越Llama2-13B，可免費商用，姚星創業公司開源百億參數通用大模型

作者：機器之心 2023-08-07 13:40:39

作為一個通用大模型，XVERSE-13B 可提供文本生成、自動化寫作、數據分析、知識問答、多語言翻譯、個性化交互、人物角色扮演、專業小助手等多方面的生成服務，在醫療、文旅、金融和娛樂等多個行業具有廣闊應用前景。

高性能、可商用，國產大模型又有開源新動向。

8 月 7 日，百億參數高性能通用大模型「XVERSE-13B」宣布開源。

Hugging Face：https://huggingface.co/xverse/XVERSE-13B
Github：https://github.com/xverse-ai/XVERSE-13B

而 XVERSE-13B 的打造者，正是前騰訊公司副總裁姚星老師于2021年初創立的AI 與元宇宙技術服務公司元象 XVERSE。

在離職創業之前，姚星主導創建了騰訊首個人工智能實驗室 AI Lab（2016 年）和首個機器人實驗室 Robotics X （2018 年），曾推進騰訊在機器學習、計算機視覺、語音到自然語言處理等前沿 AI 技術的研究與應用，主導推出多個有行業影響力的應用與產品，包括國家圍棋隊 AI 陪練「絕藝」、王者榮耀 AI「絕悟」、中國首款臨床用智能顯微鏡、AI 驅動的新藥發現平臺「云深智藥」及騰訊智慧種植方案 iGrow 等。

打造最強性能的開源大模型

XVERSE-13B 是目前同尺寸中效果最好的多語言大模型，可免費商用。它具備了高性能、全開源、可商用等諸多優勢，能大大降低高校和企業部署使用大模型的成本，不僅實現了國產可替代，也是中文應用更好的選擇。

在多項權威的標準中文和英文測評中，性能超越了 Llama-2-13B、Baichuan-13B 等國內外開源大模型（見下圖一）。

圖一：經過多項權威測評，XVERSE-13B 是目前同尺寸中效果最好的多語言大模型。

據了解，元象近期還將發布大模型 Chat 版，開箱即用，持續優化開發者體驗。

訓練語料對大模型效果至關重要。XVERSE-13B 構建了一個高達 1.4 萬億高質量、多樣化 tokens 的訓練數據集，同時優化采樣策略和數據組織方式，讓模型支持中、英、俄、西等 40 多種語言，并且多語言任務處理的性能與效果俱佳。

XVERSE-13B 支持 8192 的上下文窗口，是同尺寸模型中最長的，從而能出色應對復雜場景，比如更長的多輪對話、知識問答與摘要等，應用范圍更廣泛。

模型使用標準 Transformer 網絡結構，從零開始訓練，還自主研發多項關鍵技術，包括高效算子、顯存優化、并行調度策略、數據 - 計算 - 通信重疊、平臺和框架協同等，讓訓練效率更高，模型穩定性強，在千卡集群上的峰值算力利用率可達到 58.5%，位居業界前列。

多個權威中文測評中表現優異，超越 Baichuan-13B

為驗證模型各項能力，XVERSE-13B 通過 C-Eval、AGIEval 和 GAOKAO-Bench 等三個最具影響力的中文測評基準的綜合評估（圖二），表現優異，超越了同參數規模主流模型，如 Baichuan-13B、Llama-2-13B、Ziya-LLaMA-13B 等。

圖二：在多個權威中文測評中，XVERSE-13B 表現超越了同參數規模的主流模型。

在中文 C-Eval 的測評中（圖三），XVERSE-13B 綜合評分達到了 54.7 分，超越了同參數規模的主流模型。C-EVAL 測評基準由上海交通大學、清華大學以及愛丁堡大學聯合創建，是面向中文語言模型的綜合考試測試集，覆蓋了 52 個來自不同行業領域的學科。

圖三：C-Eval 中文測評結果。

在 AGIEval 測評里，XVERSE-13B 綜合評分達到 41.4 分，超越了同參數規模主流模型（圖二）。AGIEval 測評基準由微軟研究院發起，旨在全面評估基礎模型在人類認知和問題解決相關任務上的能力，包含了中國的高考、司法考試，以及美國的 SAT、LSAT、GRE 和 GMAT 等 20 個公開且嚴謹的官方入學和職業資格考試。

在 GAOKAO-Bench 測評中，XVERSE-13B 綜合評分達到了 53.9 分，顯著領先于同參數規模的主流模型（圖二）。GAOKAO-Bench 測評基準是復旦大學研究團隊創建的測評框架，以中國高考題目作為數據集，用于測評大模型在中文語言理解和邏輯推理能力方面的表現。

英文測評表現領先 Llama-2-13B

XVERSE-13B 的英文表現同樣出色，在英文最權威評測 MMLU 中，其綜合評分高達 55.1 分，幾乎在所有維度超越了同參數規模的主流模型（圖四），包括 Llama-2-13B、Baichuan-13B 等。

圖四：MMLU 英文測評結果。

MMLU 由加州大學伯克利分校等知名高校共同打造，集合了科學、工程、數學、人文、社會科學等領域的 57 個科目，主要目標是對模型的英文跨學科專業能力進行深入測評。其內容廣泛，從初級水平一直涵蓋到高級專業水平。

需要強調的是，測評只反映了大模型底座的核心能力，元象將持續迭代優化，全面提升模型能力。

免費可商用哈工大率先使用助力研究

秉持開源精神，XVERSE-13B 代碼采用 Apache-2.0 協議，向學術研究完全開源，企業只需簡單登記，即可免費商用。

哈爾濱工業大學（下稱「哈工大」）作為我國最早從事自然語言處理研究的頂級科研團隊，已經率先使用 XVERSE-13B 大模型推進相關研究工作。哈工大計算機科學與技術學院張偉男教授表示，「開源是互聯網時代主流模式，不僅能貢獻社區，推動技術持續創新，還能利用協同解決算法透明性、穩定性、公眾信任度等共性問題。」

元象 XVERSE 創始人姚星表示：「真實世界的感知智能（3D），與真實世界的認知智能（AI），是探索通用人工智能（AGI）的必由之路，也是元象持續探索 3D 與 AI 前沿技術的動力。XVERSE-13B 是我們在國產技術自立自強上邁出的一小步，而開源開放將激發大模型生態活力，讓 AI 的未來發展邁出一大步，為實體經濟、數字經濟的發展注入強勁動力。我們期待與眾多企業與開發者攜手，開創大模型商用新紀元。」

責任編輯：張燕妮來源：機器之心

AI 模型

性能超越Llama2-13B，可免費商用，姚星創業公司開源百億參數通用大模型

打造最強性能的開源大模型

多個權威中文測評中表現優異，超越 Baichuan-13B

英文測評表現領先 Llama-2-13B

免費可商用 哈工大率先使用助力研究

免費可商用哈工大率先使用助力研究