阿里發了個簡歷AI神器,大小僅0.6B
復雜的簡歷,AI也能讀懂了。
阿里巴巴集團研究團隊,開發出了一套基于布局感知的簡歷解析框架。
該框架在簡歷解析任務上的準確率逼近Claude-4等業界頂尖大模型,處理整份簡歷僅需1-2秒。
而且這項創新直擊自動化簡歷解析的三大痛點——版面格式多樣、大模型成本高昂及響應速度慢,為智能招聘樹立了新的效率與精度標桿。
該技術框架的論文《Layout-Aware Parsing Meets Efficient LLMs: A Unified, Scalable Framework for Resume Information Extraction and Evaluation》已發布。

長久以來,自動化簡歷篩選一直是企業招聘的痛點。
面對多欄、圖文混排等五花八門的簡歷格式,基于規則的NER實體識別和傳統AI模型常常“束手無策”。
而直接使用強大的通用大語言模型,又面臨著響應延遲高、計算成本昂貴的困境,難以滿足大規模、高實時的工業級應用需求。
阿里巴巴的這項研究直面以上挑戰,提出了一個創新解決方案。
精準“讀懂”復雜簡歷
傳統模型按部就班地閱讀文本,遇到簡歷的復雜布局時,模型使用傳統方法需要進行文檔理解,鏈路會帶來大量耗時。
而阿里的新框架首先引入了一個“布局感知解析器”。
它如同人類的眼睛一樣,能夠看懂簡歷的整體結構,無論是左邊的個人信息欄,還是右邊的工作經歷,都能被識別并分割成獨立的邏輯區塊。
隨后,系統會將這些區塊按照人類的閱讀習慣重新排列組合,形成一個清晰、有序、帶索引的文本。這一步驟解決了布局混亂帶來的解析難題,為后續的精準信息提取奠定了堅實基礎。

兼顧頂尖準確率與超高效率
在解決了布局問題后,真正的優勢在于其高效的LLM提取策略。
研究團隊沒有選擇動用龐大的百億或千億參數模型,而是創新性地對一個僅有0.6B參數的小模型(Qwen3-0.6B)進行了微調。
通過專門構建的包含數萬份簡歷的指令數據集進行訓練,這個小模型學會了精準地從文本中提取關鍵信息。
更關鍵的是,團隊采用了“并行任務分解”和“索引指針”機制。
系統會將提取任務(如基本信息、工作經歷、教育背景)拆分,讓模型并行處理,大大縮短了響應時間。
在提取大段描述性文字時,模型不再逐字生成,而是直接返回文本所在的“行號范圍”(索引),系統再根據行號從原始文本中精確回填。
這不僅將生成token的數量降到最低,節約了成本,更保證了內容的100%保真,杜絕了模型“自由發揮”或信息“幻覺”的可能。
實驗結果令人矚目:在包含大量真實復雜簡歷的RealResume數據集上,這個微調后的0.6B模型F1-score(綜合衡量準確率的指標)達到了0.964。而其處理一份簡歷的平均耗時僅為1.54秒,遠快于Claude-4的4.62秒,實現了3-4倍的速度提升。

目前,該技術框架已在阿里巴巴集團內部的HR系統中全面部署。
在線上服務中,整個系統展現出強大的實時處理能力,吞吐量可達每分鐘240-300份簡歷,平均響應延遲低于2秒,10s內成功解析率達到100%。
這項研究證明了,通過創新的系統設計和模型優化,可以在不犧牲準確率的前提下,大幅降低大模型技術的使用門檻和成本。
GitHub地址
https://github.com/alibaba/SmartResume
論文地址
https://arxiv.org/abs/2510.09722
Demo地址
https://modelscope.cn/studios/Alibaba-EI/SmartResumeDemo
ModelScope地址:
https://modelscope.cn/models/Alibaba-EI/SmartResume
HuggingFace地址:
https://huggingface.co/Alibaba-EI/SmartResume





























