精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

錯題本 × LLM:人機(jī)協(xié)作如何煉成“最嚴(yán)代碼考官”

人工智能
當(dāng) LLM 代碼模型在 HumanEval 拿下 80+ 分,卻在 LeetCode 真機(jī)上連錯 40%,我們應(yīng)該意識到:問題不在模型,而在“尺子”。本文拆解上海 AI Lab & 西交大最新研究 SAGA,看如何用“人機(jī)協(xié)作”把測試用例做成可度量、可規(guī)模化的 AI 產(chǎn)品,讓評估從“玄學(xué)”變“科學(xué)”。

大家好,我是肆〇柒。在 vibe coding 活躍的當(dāng)下,有時,我們不得不思考一個問題:在軟件開發(fā)流程中,我們能否完全依賴、使用 LLM 生成的代碼?大型語言模型(LLM)在代碼生成基準(zhǔn)測試中的卓越表現(xiàn)備受矚目,從 HumanEval 到 LiveCodeBench,眾多基準(zhǔn)測試平臺見證了 LLM 在代碼生成任務(wù)上的飛速進(jìn)步。然而,隨著 LLM 日趨融入軟件開發(fā),其生成代碼的質(zhì)量和可靠性評估變得更加關(guān)鍵,因?yàn)檫@影響著生產(chǎn)落地應(yīng)用的品質(zhì)和服務(wù)價(jià)值。

那么,代碼驗(yàn)證作為衡量 LLM 生成代碼質(zhì)量的核心環(huán)節(jié),其評估方法的可靠性,直接影響著我們對模型性能的認(rèn)知,以及強(qiáng)化學(xué)習(xí)從可驗(yàn)證獎勵(RLVR)框架的有效性。但遺憾的是,當(dāng)前主流代碼生成評估基準(zhǔn)存在顯著局限性,這不僅高估了 LLM 的性能,還使得 RLVR 框架中的獎勵估計(jì)存在偏差。為此,上海人工智能實(shí)驗(yàn)室聯(lián)合西安交通大學(xué)等機(jī)構(gòu)的研究者,系統(tǒng)地研究了測試用例生成(TCG)任務(wù),提出了多維度量化測試套件全面性的指標(biāo)體系,并引入“人 - LLM 協(xié)作”方法 SAGA(Strategic Adversarial & Constraint-differential GenerAtive workflow),顯著提升生成測試用例的覆蓋率和質(zhì)量。并且還開發(fā)了 TCGBench,助力 TCG 任務(wù)研究。

實(shí)驗(yàn)表明,SAGA 在 TCGBench 上將驗(yàn)證器準(zhǔn)確度(Verifier Accuracy,VAcc,衡量測試套件能否一次性拒絕所有已知錯誤解的指標(biāo))提升了 15.86%,基于 SAGA 的 CodeCompass 基準(zhǔn)測試使模型 Pass@1 相對下降 9.56%,重塑了模型性能排行榜。這項(xiàng)研究已開源 TCGBench 和 TCGCoder-7B,期望推動 RLVR 研究發(fā)展。

這個研究非常有意思,我欣賞到的是一場 AI 原生的“定義任務(wù)”-“制定評估”-“人機(jī)交互”的一次研究實(shí)戰(zhàn)。這拋開研究課題內(nèi)容本身,對于自己落地 AI,很有借鑒意義。下面我們一起來看看研究歷程。

現(xiàn)有代碼驗(yàn)證方法的缺陷

主流代碼生成評估基準(zhǔn)存在諸多不足,這些缺陷可能導(dǎo)致我們對 LLM 性能的評估過于樂觀,許多潛在錯誤未被發(fā)現(xiàn)。以下是現(xiàn)有代碼驗(yàn)證方法的主要缺陷:

測試用例覆蓋不足

主流代碼生成評估基準(zhǔn)的測試用例數(shù)量有限且同質(zhì)化嚴(yán)重。HumanEval 平均每個問題僅提供 7.7 個測試用例,MBPP 每個問題僅提供 3 個,EvalPlus 盡管增加了測試數(shù)量,卻導(dǎo)致通過率驟降 15%,暴露出測試用例覆蓋面不足、同質(zhì)化嚴(yán)重的問題。

LLM 生成測試用例的偏差

LiveCodeBench 利用 LLM 生成大量測試用例,在提升測試效率方面具有顯著優(yōu)勢。然而,其生成的測試用例存在明顯偏差,傾向于反映 LLM 自身的典型、同質(zhì)化錯誤模式,而人類編程錯誤則更加多樣化,涵蓋邏輯錯誤、整數(shù)溢出等多種復(fù)雜情況。這種偏差導(dǎo)致 LLM 生成的測試用例難以有效檢測人類編寫的錯誤代碼。

下圖(a)顯示,LLM 驗(yàn)證器對人類代碼的漏檢率顯著高于 LLM 代碼。下圖(b)則揭示,LLM 誘導(dǎo)錯誤高度聚集,而人類錯誤分散。橫縱坐標(biāo)為前兩主成分,LLM 錯誤呈 “致密團(tuán)簇”(紅色),人類錯誤呈 “星云狀”(藍(lán)色)。距離越近代表錯誤模式越相似,可見 LLM 測試用例對 “團(tuán)簇外” 的人類錯誤幾乎無感知。這進(jìn)一步凸顯了現(xiàn)有驗(yàn)證器在應(yīng)對多樣化錯誤模式時的不足,強(qiáng)調(diào)了改進(jìn)測試用例生成方法的必要性。


(a) LLM 驗(yàn)證器對人類代碼漏檢率高;(b) LLM 錯誤模式分布與人類錯誤模式分布對比

既然“測得越多≠測得越好”,我們就需要一套更精細(xì)的尺子,來衡量“怎樣才算測得足夠好”。下面,我們先給出這套尺子的刻度——TCG 任務(wù)的正式定義與多維指標(biāo)。

測試用例生成任務(wù)的形式化定義與多維度評估指標(biāo)

帶著“尺子”的訴求,我們先把 TCG 任務(wù)放在放大鏡下:它到底要解決什么問題,又該用什么刻度來評價(jià)?

TCG 任務(wù)定義

多維度評估指標(biāo)

為更精準(zhǔn)衡量測試套件質(zhì)量,提出以下多維度評估指標(biāo):

至此,我們有了刻度,下一步自然要問:現(xiàn)有方法到底離“刻度滿分”還有多遠(yuǎn)?下面我們來了解一下三大主流范式。

現(xiàn)有 TCG 范式

在探討三種范式之前,我們先通過一張圖直觀對比它們的流程差異。

代碼評估流程與多種 TCG 范式

圖中清晰展示了:

  • 直接生成(Direct Generation)
  • 輸入解釋器(Input-Interpreter)
  • 人類先驗(yàn)(Human Priors,即本文中的 SAGA 方法)

三者在輸入來源、輸出驗(yàn)證方式上的關(guān)鍵區(qū)別。

直接生成范式

直接生成范式通過直接提示 LLM 生成完整測試用例,包括輸入和輸出。然而,這種方法對 LLM 的深度理解能力要求極高,尤其是對邊緣情況的把握。實(shí)驗(yàn)結(jié)果顯示,LLM 生成的測試用例保留率低,整體 DR 通常低于 60%,VAcc 低于 10%,且 LLM 生成的解決方案容易通過自身生成的測試用例,表明這些測試用例難以挑戰(zhàn)模型的認(rèn)知偏差。例如,在生成復(fù)雜算法(如圖算法、動態(tài)規(guī)劃算法)的測試用例時,直接生成范式往往難以覆蓋所有關(guān)鍵路徑和邊界條件,導(dǎo)致生成的測試用例質(zhì)量較低。

下圖(a)展示了 LLM 直接生成的測試用例質(zhì)量低,下圖(b)顯示了其高自通過率,這表明 LLM 生成的測試用例存在明顯不足,難以有效檢測代碼中的錯誤。

 (a) LLM 直接生成測試用例質(zhì)量低;(b) LLM 生成測試用例高自通過率

輸入解釋器范式

輸入解釋器范式由 LLM 生成隨機(jī)輸入,再由真實(shí)解釋器計(jì)算對應(yīng)輸出。雖然這種方法可以生成大量測試用例,但單純增加數(shù)量無法根本提升檢測率,因?yàn)闇y試用例之間存在相關(guān)性。通過理論推導(dǎo)和實(shí)驗(yàn)驗(yàn)證,我們發(fā)現(xiàn),隨著生成的測試用例數(shù)量 n 趨近于無窮大,在平均檢測概率 p 和平均正相關(guān) p eff 穩(wěn)定的情況下,檢測率的上限收斂于 。這表明,測試用例的相關(guān)性限制了檢測率的提升。例如,在測試一個數(shù)學(xué)計(jì)算函數(shù)時,輸入解釋器范式生成的測試用例可能集中在某些特定的數(shù)值范圍或計(jì)算模式內(nèi),導(dǎo)致無法有效檢測出在其他數(shù)值范圍或計(jì)算模式下的錯誤。

下圖(a)顯示,隨著測試用例數(shù)量增加,檢測率逐漸飽和,無法達(dá)到 100%。下圖(b)進(jìn)一步表明,檢測率與測試用例數(shù)量的對數(shù)呈半對數(shù)關(guān)系,驗(yàn)證了相關(guān)性對檢測率提升的限制。

(a) 檢測率隨測試用例數(shù)量增加而飽和;(b) 檢測率與測試用例數(shù)量的對數(shù)關(guān)系

Human Priors 范式(人類先驗(yàn))

Human Priors 范式利用人類的正確解決方案和錯誤解決方案來指導(dǎo) LLM 生成測試用例。與前兩種范式相比,該方法能夠更好地結(jié)合人類的編程經(jīng)驗(yàn)和 LLM 的語義理解能力,通過人機(jī)交互,從而生成更高質(zhì)量的測試用例。

三大范式對比

范式

輸入來源

輸出驗(yàn)證

主要缺陷

典型案例

直接生成

LLM 直接產(chǎn)出

人工/腳本

邊緣遺漏

TestChain

輸入解釋器

隨機(jī)采樣

真值解釋器

相關(guān)性飽和

LiveCodeBench

Human Priors

人類解+錯誤解

真值解釋器

需結(jié)構(gòu)化整合

SAGA

經(jīng)驗(yàn)告訴我們:單靠 LLM 或單靠人類直覺都不足以突破天花板。在 LLM 性能日趨強(qiáng)大的今天,我們可以嘗試“人機(jī)協(xié)作”,把二者擰成一股繩——這就是 SAGA(Strategic Adversarial & Constraint-differential GenerAtive workflow)。

SAGA:人 - LLM 協(xié)作的 TCG 框架

研究者提出 SAGA,正是為了回答“如何利用人類知識,卻不被人類知識的速度和規(guī)模所限”這一關(guān)鍵問題。

SAGA(Strategic Adversarial & Constraint-differential GenerAtive workflow)是一種創(chuàng)新的人 - LLM 協(xié)作框架,致力于生成高質(zhì)量、多樣化且具有區(qū)分性的測試套件。該框架通過結(jié)合人類編程見解與 LLM 推理,充分利用正確解決方案和錯誤提交中的信息,以指導(dǎo) LLM 構(gòu)建挑戰(zhàn)性測試輸入。

工作流程

SAGA 的工作流程如下:

1. 輸入階段 :SAGA 接收編程問題描述、正確解決方案以及錯誤提交。

2. 分析階段 :SAGA 對正確解決方案進(jìn)行多維度分析,提取約束處理差異和防御模式解構(gòu)等關(guān)鍵信息;同時對錯誤提交進(jìn)行差異分析,找出約束處理差異、防御完整性缺失和失敗模式。

3. 生成階段 :SAGA 利用提取的信息指導(dǎo) LLM 構(gòu)建挑戰(zhàn)性測試輸入,并生成相應(yīng)的測試用例。

4. 驗(yàn)證階段 :通過自驗(yàn)證腳本驗(yàn)證生成的測試用例是否符合問題約束和測試策略,確保測試用例的有效性和準(zhǔn)確性。

下圖展示了 SAGA 框架的整體架構(gòu),包括輸入、分析、生成和驗(yàn)證等階段,體現(xiàn)了其人 - LLM 協(xié)作的特點(diǎn)。

SAGA 框架架構(gòu)

多維度分析與差異分析

多維度分析從正確解決方案中提取深刻見解以設(shè)計(jì)挑戰(zhàn)性測試,主要涵蓋約束處理差異和防御模式解構(gòu)兩個方面:

  • 約束處理差異 :比較錯誤解決方案 Swrong 和正確解決方案 S′ 在處理問題特定約束上的差異,發(fā)現(xiàn)測試用例中約束條件的薄弱環(huán)節(jié),從而設(shè)計(jì)出更能暴露錯誤的測試用例。例如,在一個資源分配問題中,正確解決方案可能嚴(yán)格遵循資源限制條件,而錯誤解決方案可能在某些情況下超出資源限制。通過分析這種差異,可以生成專門測試資源限制條件的測試用例。
  • 防御模式解構(gòu) :將正確解決方案中的防御邏輯和問題解決策略分解為正式的數(shù)學(xué)或邏輯約束,如 “等價(jià)類:玩家配對”,“邊界值:[(1,2), (N,N?1)]”,使 SAGA 能針對奇點(diǎn)、極端值或特定結(jié)構(gòu)屬性生成邊緣和對抗性測試用例,提升測試用例的多樣性和針對性。例如,在一個網(wǎng)絡(luò)請求處理函數(shù)中,正確解決方案可能對各種異常請求(如超大請求、非法格式請求)進(jìn)行了完善的防御處理。通過解構(gòu)這些防御模式,可以生成相應(yīng)的異常請求測試用例,驗(yàn)證代碼在面對惡意攻擊或異常輸入時的魯棒性。

差異分析通過對比錯誤提交 Swrong 與其修正版本 S′ correct,發(fā)現(xiàn)常見錯誤模式。主要關(guān)注以下幾點(diǎn):

  • 約束處理差異 :找出 Swrong 和 S′ correct 在處理問題特定約束上的差異。例如,在一個數(shù)據(jù)處理任務(wù)中,錯誤提交可能未正確處理數(shù)據(jù)的完整性約束,而修正版本則修復(fù)了這一問題。通過分析這種差異,可以生成專門測試數(shù)據(jù)完整性約束的測試用例。
  • 防御完整性缺失 :揭示 Swrong 在處理邊緣情況或邊界輸入方面的不足。例如,錯誤提交可能未對極端輸入值(如非常大或非常小的數(shù)值)進(jìn)行有效的處理,導(dǎo)致程序崩潰或產(chǎn)生錯誤結(jié)果。通過差異分析,可以發(fā)現(xiàn)這些缺失的防御措施,并生成相應(yīng)的邊緣輸入測試用例。
  • 失敗模式分析 :生成能觸發(fā) Swrong 失敗但被 S′ correct 正確處理的特定輸入,將這些輸入納入測試套件 T,增強(qiáng)驗(yàn)證器的區(qū)分能力。例如,錯誤提交可能在處理并發(fā)訪問時存在死鎖問題,而修正版本通過優(yōu)化鎖機(jī)制解決了這一問題。通過失敗模式分析,可以生成特定的并發(fā)測試用例,驗(yàn)證代碼在高并發(fā)場景下的正確性。

自驗(yàn)證腳本

自驗(yàn)證腳本在確保生成測試輸入符合問題約束和測試策略方面發(fā)揮著重要作用。它在執(zhí)行前驗(yàn)證測試輸入是否滿足問題要求,如檢查輸入是否符合指定范圍、格式等,從而提升生成測試用例的準(zhǔn)確性和有效性,避免生成無效或不符合要求的測試用例。例如,在一個文件解析函數(shù)的測試中,自驗(yàn)證腳本可以檢查生成的測試文件是否符合特定的文件格式規(guī)范(如 JSON 格式、XML 格式),確保測試用例的有效性。

SAGA 的優(yōu)勢

與傳統(tǒng) TCG 范式相比,SAGA 具備以下優(yōu)勢:

1. 高質(zhì)量測試用例生成 :通過結(jié)合人類編程見解與 LLM 推理,SAGA 能夠生成更高質(zhì)量的測試用例,有效提升測試套件的檢測率和驗(yàn)證器準(zhǔn)確度。

2. 多樣化測試用例 :SAGA 的多維度分析和差異分析能夠生成多樣化的測試用例,覆蓋更廣泛的錯誤模式,降低測試用例之間的相關(guān)性。

3. 適應(yīng)性強(qiáng) :SAGA 對不同的 LLM backbone 具有良好的適應(yīng)性,即使使用較小的模型也能取得優(yōu)異的性能。

SAGA 的實(shí)驗(yàn)驗(yàn)證

通過實(shí)驗(yàn)驗(yàn)證 SAGA 框架在提升測試用例生成質(zhì)量方面的有效性,并與現(xiàn)有方法進(jìn)行對比,分析其優(yōu)勢和局限性,提出實(shí)驗(yàn)。

實(shí)驗(yàn)設(shè)置

在 TCGBench 上對 SAGA 進(jìn)行了全面驗(yàn)證。TCGBench 匯集了來自 Atcoder、Codeforces 和 Nowcoder 的 1840 個近期編程問題,每個問題平均包含 36.66 個錯誤用戶提交。我們采用了 DeepSeek-V3-0324、Qwen2.5-72B-Instruct 和 Qwen2.5-Coder-32B-Instruct 等開源 LLM 模型,并運(yùn)用檢測率(DR)、驗(yàn)證器準(zhǔn)確度(VAcc)、不同錯誤模式覆蓋率(DEPC)和多樣性比率(Diversity Ratio)等指標(biāo)進(jìn)行評價(jià)。

關(guān)鍵發(fā)現(xiàn)與圖表引用

實(shí)驗(yàn)結(jié)果顯示,SAGA 在檢測率、驗(yàn)證器準(zhǔn)確度等關(guān)鍵指標(biāo)上顯著優(yōu)于隨機(jī)輸入解釋器基線及其單獨(dú)分析組件。例如,在 270 道 TCGBench-Lite 難題上,SAGA 將 VAcc@50 從隨機(jī)基線的 16.72% 提升到 32.58%,提升 15.86 個百分點(diǎn),相當(dāng)于讓每三個原本蒙混過關(guān)的錯誤解中多抓出一個。其 AUC@50(0.5445)是基線的 2 倍。這表明 SAGA 能更有效地檢測錯誤,生成更具區(qū)分性的測試用例。

下圖(a)展示了 SAGA 在檢測率上的表現(xiàn)遠(yuǎn)超基線和單獨(dú)分析組件,下圖(b)顯示了 SAGA 在驗(yàn)證器準(zhǔn)確度上的顯著優(yōu)勢,下圖(c)和下圖(d)分別呈現(xiàn)了 SAGA 在不同錯誤模式覆蓋率和多樣性比率方面的優(yōu)秀表現(xiàn)。

(a) SAGA 檢測率表現(xiàn);(b) SAGA 驗(yàn)證器準(zhǔn)確度表現(xiàn);(c) SAGA 不同錯誤模式覆蓋率;(d) SAGA 多樣性比率表現(xiàn)

進(jìn)一步分析發(fā)現(xiàn),SAGA 生成的測試用例在不同錯誤模式覆蓋率和多樣性比率方面也表現(xiàn)出色,能夠更廣泛地覆蓋錯誤模式,降低測試用例之間的相關(guān)性,從而提高測試套件的整體質(zhì)量。例如,在一個字符串處理函數(shù)的測試中,SAGA 生成的測試用例涵蓋了各種字符串邊界情況(如空字符串、超長字符串、包含特殊字符的字符串),而基線方法生成的測試用例則主要集中在普通字符串情況,未能有效覆蓋邊界情況。

消融實(shí)驗(yàn)

通過對 SAGA 進(jìn)行消融實(shí)驗(yàn),研究者深入分析了其各個組件對性能的影響。結(jié)果表明,多維度分析和差異分析組件的協(xié)同作用是實(shí)現(xiàn) SAGA 優(yōu)越性能的關(guān)鍵。以下是消融實(shí)驗(yàn)結(jié)果:

配置

DR@50

VAcc@50

AUC@50

DivRatio@50

SAGA 完整框架

90.62%

32.58%

0.2228

94.06%

僅多維度分析

88.00%

26.05%

0.1923

95.81%

僅差異分析

88.16%

26.67%

0.1926

94.41%

基線方法

82.85%

21.89%

0.2586

-

從表中可以看出,SAGA 對 LLM backbone 變化表現(xiàn)出良好的魯棒性,即使使用較小的 Qwen2.5-Coder-7B 模型,也能取得與基線方法相媲美甚至更優(yōu)的性能。這充分證明了 SAGA 框架的有效性和適應(yīng)性。

下圖展示了 SAGA 在不同 LLM backbone 下的性能表現(xiàn),表明其在不同模型和問題來源下均能顯著提升檢測率和驗(yàn)證器準(zhǔn)確度。

SAGA 在不同 LLM backbone 下的檢測率和驗(yàn)證器準(zhǔn)確度表現(xiàn)

基于 SAGA 的高級應(yīng)用

帶著實(shí)驗(yàn)驗(yàn)證的信心,研究者讓 SAGA 直接“接管”了 270 道最新競賽題,由此誕生了更嚴(yán)苛、更公平的全新基準(zhǔn)——CodeComPass。

CodeComPass 基準(zhǔn)測試

研究者基于 SAGA 開發(fā)了 CodeComPass,這是一個高質(zhì)量的代碼生成評估基準(zhǔn)測試。與 LiveCodeBench-v6 相比,CodeComPass 在驗(yàn)證器質(zhì)量、對代碼生成模型評估的區(qū)分能力等方面實(shí)現(xiàn)了顯著提升。例如,在共享子集上,CodeComPass 的 DR@40 比 LiveCodeBench-v6 高出 14.59 個百分點(diǎn),VAcc@40 高出 10.78 個百分點(diǎn),多樣性比率高出 43.13%,AUC@40 高出 43.4%。這些提升表明,CodeComPass 能更準(zhǔn)確地評估代碼生成模型的性能。

CodeComPass 在不同難度問題上的平均 Pass@1 表現(xiàn)

上圖顯示了 CodeComPass 在不同難度問題上的平均 Pass@1 表現(xiàn),表明其對模型性能的區(qū)分能力更強(qiáng)。下圖則展示了模型在 CodeComPass 和 LiveCodeBench-v6 上的排名變化,凸顯了 CodeComPass 能更細(xì)致地揭示模型之間的性能差異。

模型在 CodeComPass 和 LiveCodeBench-v6 上的排名變化

對 RLVR 的影響

SAGA 生成的高質(zhì)量驗(yàn)證器顯著提高了 RLVR 框架的準(zhǔn)確性。通過提供更準(zhǔn)確的獎勵信號,SAGA 減少了獎勵欺騙現(xiàn)象,使模型在訓(xùn)練過程中能更真實(shí)地反映其性能。例如,在使用 SAGA 生成的測試套件進(jìn)行訓(xùn)練時,模型在復(fù)雜編程問題(如圖算法問題、動態(tài)規(guī)劃問題)上的性能提升更為顯著,代碼生成的正確性和魯棒性得到增強(qiáng)。這為開發(fā)更強(qiáng)大、更可靠的代碼生成模型奠定了基礎(chǔ)。

至此,從“發(fā)現(xiàn)問題”到“定義刻度”再到“交付工具”,我們已經(jīng)跑完一個完整閉環(huán)。這就是一個關(guān)于“評估”的研究案例。

總結(jié)

本文重新審視了基于 LLM 的 TCG 方法,通過構(gòu)建 TCGBench、提出 SAGA 框架以及開發(fā) CodeComPass 和 TCGCoder-7B 等實(shí)際舉措,為提升 LLM 代碼評估的可靠性提供了切實(shí)可行的方案,提升了 RLVR 的性能,也為自動化對抗測試合成和自適應(yīng)基準(zhǔn)整合奠定了基礎(chǔ)。這些成果在優(yōu)化代碼生成評估方法、提高模型訓(xùn)練效率和增強(qiáng)代碼生成質(zhì)量方面具有重要意義。

如同我在文章開頭所說的那樣,這份研究真正吸引我的是研究者對“方法論”的演示。這對于我們在 AI 應(yīng)用中的“評估”設(shè)計(jì)以及落地,具有較高的參考價(jià)值。以下是我的一點(diǎn)學(xué)習(xí)后的觀感,分享給大家:

把“評估”做成產(chǎn)品:一次 AI 原生的方法論演練

如果把這篇論文只看成一個“更高明的測試用例生成器”,就低估了它的示范價(jià)值。它真正精彩的,是把“評估”本身當(dāng)成一個可迭代、可度量、可規(guī)模化的 AI 產(chǎn)品——從任務(wù)定義、指標(biāo)設(shè)計(jì)、數(shù)據(jù)構(gòu)造、算法框架到最終交付,形成了一條AI-native 的閉環(huán)。下面我用五個關(guān)鍵詞,把這條閉環(huán)抽出來,供任何想在垂直場景落地 AI 的同學(xué)做一點(diǎn)參考,如果你覺得我說的不對,我希望能與你成為“覺察流”的社區(qū)伙伴,我們一起探討、進(jìn)化。

1. 痛點(diǎn)溯源:把“感覺不對”翻譯成“指標(biāo)不對”

  • 現(xiàn)象?HumanEval 看似 80+ 分,實(shí)則在 LeetCode 真·評測機(jī)上 20 %~40 % 的題被打出 WA(Wrong Answer)。
  • 翻譯?不是模型菜,而是“測試用例的檢測率 / 驗(yàn)證器準(zhǔn)確度”這兩個維度被嚴(yán)重高估。

啟發(fā):先別急著改模型,先改“尺子”。把“我覺得測試不夠”翻譯成可計(jì)算的 DR(Detection Rate) 與 VAcc(Verifier Accuracy),問題立刻有了抓手。

2. 任務(wù)定義:把“測試生成”升格為 TCG 任務(wù)

  • 輸入:問題描述 + 題解空間 + 歷史 WA/TLE(Time Limit Exceeded) 代碼
  • 輸出:用例集 T
  • 目標(biāo):最大化 DR(檢測率) & VAcc(驗(yàn)證器準(zhǔn)確度),同時最小化測試冗余, 也就是≈ 最小化 (平均有效相關(guān)系數(shù),可以理解為“測試之間不要互相抄答案”)。

啟發(fā):用一句話把任務(wù)寫成“帶約束的優(yōu)化問題”,后面就能用算法和數(shù)據(jù)來解。

3.據(jù)工廠:把公開平臺變成“錯誤市集”

  • 從 AtCoder / Codeforces / Nowcoder 抓 1840 道最新題 + 36.66 條真實(shí)錯誤提交 / 題
  • 人工去噪,不人為寫用例——讓數(shù)據(jù)保持“野生”分布

啟發(fā):高質(zhì)量數(shù)據(jù)不必從零標(biāo)注;把公開資源“切一刀”就能變成科研級數(shù)據(jù)集(TCGBench)。這一招可復(fù)制到任何帶評測記錄的開源社區(qū)。

4. 人機(jī)協(xié)作:讓 LLM 做“放大器”,人類做“瞄準(zhǔn)鏡”

SAGA 人機(jī)協(xié)作中,有個很妙的點(diǎn),就在于雙向蒸餾

  • 正向蒸餾:從 AC(Accepted) 代碼里提煉“等價(jià)類 + 邊界值 + 防御模式” → 告訴 LLM “該往哪打”。
  • 反向蒸餾:從 WA(Wrong Answer) 代碼里提煉“錯誤觸發(fā)路徑” → 告訴 LLM “別人在哪兒跌倒”。最后讓 LLM 寫腳本、寫解釋、寫自檢,完成大規(guī)模、低人力的對抗用例倉庫。

啟發(fā):與其讓 LLM 瞎猜,不如用“人類錯題本”給它裝一個導(dǎo)航系統(tǒng)(指導(dǎo)作用);既解決規(guī)模,又保留人類經(jīng)驗(yàn)。

5. 產(chǎn)品化交付:把“論文指標(biāo)”變成“行業(yè)基準(zhǔn)”

  • CodeComPass:270 道最新題 + 50.54 個 SAGA 用例 / 題 —> 直接替換 LiveCodeBench 子集,立刻讓排行榜重排座次。
  • TCGCoder-7B:用 15 k 題蒸餾出 7 B 小模型,推理成本降一個量級,效果卻吊打 70B 通用模型。

啟發(fā):評估基礎(chǔ)設(shè)施一旦做成“即插即用”的組件,就能反過來喂養(yǎng)訓(xùn)練、評測、產(chǎn)品迭代的全鏈路。

把“測得更準(zhǔn)”升級為“做得更對”

當(dāng)你把評估工具做成產(chǎn)品,它就不僅是“扣分器”,而成了持續(xù)改進(jìn)的飛輪

  • 對研究者而言:TCGBench + CodeComPass 提供了可復(fù)現(xiàn)、可對抗的科研沙盒;
  • 對工程師而言:SAGA 用例腳本可以直接嵌入 CI(持續(xù)集成),讓每一次 PR 都跑在更嚴(yán)苛的測試上;
  • 對 RL 訓(xùn)練者而言:更準(zhǔn)確的獎勵信號讓模型不再“鉆測試空子”,而是真正學(xué)會“寫對代碼”。

這正是 AI 時代的方法論:把“主觀經(jīng)驗(yàn)”轉(zhuǎn)成“可計(jì)算指標(biāo)”,把“人力痛點(diǎn)”轉(zhuǎn)成“數(shù)據(jù)紅利”,把“一次性實(shí)驗(yàn)”轉(zhuǎn)成“可持續(xù)迭代的系統(tǒng)”。

所以,我的理解,SAGA 是一套可遷移的模板。那么,,下一次,無論你是做表格理解、藥物發(fā)現(xiàn)還是硬件驗(yàn)證,都可以復(fù)現(xiàn)這條“定義任務(wù) - 設(shè)計(jì)指標(biāo) - 人機(jī)協(xié)作 - 數(shù)據(jù)閉環(huán) - 產(chǎn)品化交付”的步驟。

一句話:評估不是成本,而是杠桿;把它做到極致,剩下的就只是時間問題了。

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2025-08-29 09:11:00

2025-11-06 09:00:00

AILLM論文

2025-06-06 08:57:42

2021-04-08 09:33:02

機(jī)器人物聯(lián)網(wǎng)技術(shù)物聯(lián)網(wǎng)

2024-10-24 16:22:11

2020-07-07 10:37:17

人臉識別技術(shù)高考

2025-04-07 09:00:00

AI趨勢智能體Agent

2022-01-24 15:38:28

數(shù)據(jù)中心

2015-11-10 09:09:23

代碼程序員成長

2016-06-16 09:40:30

史上最嚴(yán)高考寶德服務(wù)器

2012-03-06 15:23:24

MagneticBil圖標(biāo)App Store

2011-07-06 09:47:42

蘋果

2025-10-17 09:58:36

2024-10-16 12:51:56

2025-05-14 08:23:35

2025-10-14 08:00:00

2013-06-20 09:28:24

2014-10-15 11:10:28

騰訊團(tuán)隊(duì)

2025-07-11 10:11:38

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

国产河南妇女毛片精品久久久| 青青草原在线亚洲| 亚洲精品视频在线| 国产伦精品一区二区三区在线| 免费在线视频观看| 一区二区三区在线资源| 午夜电影一区二区| 日韩欧美在线观看强乱免费| 亚洲最大成人在线视频| 欧美激情视频一区二区三区免费| 亚洲精品国产美女| www.com黄色片| 欧美另类tv| 久久久久久久久久久久久夜| 国产精品久久久久久久一区探花| 黄色片在线观看网站| 香蕉久久精品日日躁夜夜躁| 欧美精品少妇一区二区三区| 国产h视频在线播放| se在线电影| 99亚偷拍自图区亚洲| 国产精品一区专区欧美日韩| 日韩女优一区二区| 国产一区二区电影在线观看| 日韩精品一区二区三区蜜臀| 免费大片在线观看| 爱情岛亚洲播放路线| 国产精品国产三级国产三级人妇| 欧美久久久久久久| 女人18毛片一区二区三区| 久久超碰97人人做人人爱| 国产91av在线| 日韩免费av片| 午夜久久美女| 欧美成人sm免费视频| 人人人妻人人澡人人爽欧美一区| 久久久精品国产**网站| 欧美岛国在线观看| 91丝袜超薄交口足| 日本一区免费网站| 色天使久久综合网天天| 日本在线xxx| 98色花堂精品视频在线观看| 尤物视频一区二区| 三级网在线观看| 天天影视久久综合| 国产精品系列在线| 丝袜美腿玉足3d专区一区| 天天影院图片亚洲| 99久久综合99久久综合网站| 国产精品免费一区二区| 亚洲精品喷潮一区二区三区| 国产精品99久久久久久久vr| 91亚洲精品一区| av片免费播放| 极品少妇一区二区| 91日本在线视频| a级片在线播放| 国产成人在线网站| 电影午夜精品一区二区三区| а√中文在线资源库| 国产精品一色哟哟哟| 91在线看网站| 欧美 日韩 国产 精品| 成人国产精品免费| 精品一区二区三区日本| 欧美在线观看在线观看| 久久久久久久综合色一本| 欧美一区二区视频17c| 国产一级二级三级在线观看| 国产日韩高清在线| 一区二区三区欧美成人| 永久免费网站在线| 亚洲第一久久影院| 欧美性大战久久久久xxx| 唐人社导航福利精品| 欧美性猛片aaaaaaa做受| 狠狠干狠狠操视频| 日韩免费精品| 亚洲精品电影网| 久久久久久国产免费a片| 日韩国产综合| 欧美日本高清一区| 免费黄色网址在线| 麻豆国产精品官网| av日韩免费电影| 青青久草在线| 综合久久一区二区三区| 国产96在线 | 亚洲| 国产精品伦理| 欧美一卡在线观看| 亚洲精品乱码久久久久久不卡| 一道本一区二区三区| 色噜噜狠狠色综合网图区| 九九视频免费在线观看| 国产农村妇女精品一二区| 国产精品亚洲激情| 色婷婷在线视频| 中文字幕一区三区| 欧美久久久久久久久久久久久| 巨胸喷奶水www久久久| 欧美va亚洲va在线观看蝴蝶网| av女人的天堂| 在线观看日韩av电影| 国产精品27p| 超碰在线播放97| 欧美激情一区二区三区蜜桃视频| 肉大捧一出免费观看网站在线播放 | 91综合在线| 午夜欧美大片免费观看| 在线免费观看一区二区| 91在线视频播放地址| a级网站在线观看| av亚洲一区二区三区| 精品国产免费一区二区三区香蕉| 亚洲精品国产精品乱码在线观看| 亚洲精品专区| 97se国产在线视频| 3p在线观看| 丰满岳妇乱一区二区三区| 性生活一级大片| 日韩免费看片| 国产精品va在线播放| 欧美一级特黄aaaaaa大片在线观看| 中文字幕亚洲在| 天天影视综合色| 99er精品视频| 色偷偷噜噜噜亚洲男人的天堂| 黄色一级片免费在线观看| 成人一区在线观看| 久久久久久久免费视频| 黄色精品视频网站| 亚洲天堂av综合网| 毛片毛片女人毛片毛片| 成人精品免费看| av动漫在线播放| 国产亚洲成av人片在线观看 | 三级在线视频| 午夜精品久久久久久不卡8050 | 久久久久久亚洲综合影院红桃| 香港三级日本三级a视频| 91麻豆精品| 日韩午夜在线视频| 欧美性猛交xxxx乱大交hd | 免费在线观看91| yellow在线观看网址| 亚洲成色777777女色窝| 激情综合网五月婷婷| 成人一区二区三区视频| 国产性生活免费视频| 欧一区二区三区| 欧美精品久久久久久久| 丰满人妻熟女aⅴ一区| 亚洲免费观看高清| 善良的小姨在线| 好吊一区二区三区| 国产厕所精品在线观看| aa级大片免费在线观看| 日韩精品免费在线视频| 综合网在线观看| 国产亚洲婷婷免费| av天堂永久资源网| 国产精品羞羞答答在线观看| 国产精品久久国产精品99gif| 69视频在线| 欧美大片国产精品| 中日韩精品视频在线观看| 99久久国产综合精品色伊| 中文字幕乱码人妻综合二区三区| 国产亚洲一区二区三区啪| 91精品久久久久久久| 污片视频在线免费观看| 亚洲国产婷婷香蕉久久久久久| 综合激情网五月| 中文字幕亚洲成人| 又色又爽又黄18网站| 午夜一区在线| 天堂v在线视频| 国产成人高清精品免费5388| 日本一本a高清免费不卡| 超碰在线影院| 欧美成人欧美edvon| 国产免费一区二区三区四区五区| 国产精品久久看| 精品人妻一区二区免费| 日韩精品亚洲一区| 精品一区二区三区毛片| 午夜精品福利影院| 成人福利网站在线观看| www.youjizz.com在线| 最近2019年手机中文字幕| 肥臀熟女一区二区三区| 欧洲视频一区二区| 免费人成年激情视频在线观看| www成人在线观看| 一级黄色在线播放| 免费永久网站黄欧美| 成人短视频在线看| 国产麻豆精品久久| 国产69精品久久久久9999apgf| 免费成人直播| 色综合久久精品亚洲国产| 成人精品一区二区三区免费 | 一本一道波多野结衣一区二区| 三级av在线免费观看| 精品国产鲁一鲁****| 2019亚洲日韩新视频| 99福利在线| 中文字幕在线日韩| 国产精品爽黄69| 久久精品国产电影| 亚洲在线观看网站| 一区二区三区免费在线视频| 国产伦精品一区二区三区视频青涩| 久久天天狠狠| 日韩高清一区| 国内精品视频在线| 日本在线天堂| 亚洲欧美在线播放| 国产熟女一区二区丰满| 欧美日韩国产中字| 久久精品久久国产| 国产在视频线精品视频www666| 久久全球大尺度高清视频| 免费网站成人| 亚洲午夜女主播在线直播| 超碰caoprom| 麻豆一区二区三| 亚洲熟妇av一区二区三区| 欧美日韩岛国| 青青草原网站在线观看| 日本午夜一区| 日韩精品av一区二区三区| 日韩精品欧美大片| 国产日韩亚洲精品| 欧美中文在线| 亚洲深夜影院| 日韩精品一区二区三区四区五区 | 国产欧美高清视频在线| 91成人在线看| 韩日精品一区| 国产精品青草久久久久福利99| 日韩av福利| 欧美三区在线观看| 日韩精品久久久久久久酒店| 亚洲图片欧美综合| 久久久久久久国产视频| 一区二区三区不卡视频| 欧美黄色免费在线观看| 一区二区三区四区国产精品| 神马午夜精品91| 国产农村妇女毛片精品久久麻豆 | 尤物国产在线观看| 蜜臀久久99精品久久久久久9| 三级在线视频观看| 国产精品毛片久久久久久久av | 三上悠亚在线一区| 亚洲欧美文学| 国产免费裸体视频| 在线日韩中文| 日本精品免费在线观看| 久久资源在线| 亚洲人视频在线| 国产精品乡下勾搭老头1| 在线观看免费看片| 一区二区三区国产在线| 欧美精品99久久| 性欧美videos另类喷潮| 日韩中文字幕组| 日韩高清中文字幕一区| 蜜臀一区二区三区精品免费视频| 欧美日韩一区自拍| 成人免费自拍视频| 久久亚洲人体| 国产在线观看一区二区三区| 欧美黄色三级| 1卡2卡3卡精品视频| 成人污版视频| 精品欧美日韩在线| 不卡在线一区二区| 91国在线高清视频| 另类国产ts人妖高潮视频| 午夜视频在线瓜伦| 精品一区二区三区的国产在线播放| xxxx国产视频| 久久亚洲一级片| 亚洲精品在线免费观看视频| 五月婷婷丁香在线| 日韩午夜电影av| 一区视频免费观看| 同产精品九九九| 亚洲天堂中文字幕在线| 精品久久久久久电影| 视频在线观看免费高清| 美女视频黄频大全不卡视频在线播放| 国产乱码一区二区三区四区| 99久久精品99国产精品| 国产又色又爽又高潮免费| 午夜一区二区三区在线观看| av首页在线观看| 精品人在线二区三区| freemovies性欧美| 久久久久久12| 日本免费久久| 国产视频在线观看一区| 日本一区二区高清不卡| 欧美日韩在线一| 国产尤物一区二区在线| 亚洲专区区免费| 亚洲精品乱码久久久久久日本蜜臀| 午夜爽爽爽男女免费观看| 狠狠躁天天躁日日躁欧美| 精品国产999久久久免费| 欧美精品一区男女天堂| 黄色网址视频在线观看| 91av视频在线观看| 在线一区二区三区视频| 亚洲图片小说在线| 美女国产精品| 最近日本中文字幕| 一卡二卡欧美日韩| 国产精品毛片一区二区在线看舒淇| 国产剧情一区二区在线观看| 国产一区二区日韩| 2021av在线| 热门国产精品亚洲第一区在线| aaa国产精品视频| 国产精品12p| 日韩视频一区| 国产精品-区区久久久狼| 日韩高清不卡一区二区三区| 一级黄色免费视频| 一区二区三区资源| 国产一区二区小视频| 一区二区三区天堂av| 羞羞视频在线观看不卡| 国产精品成久久久久三级| 老牛影视av一区二区在线观看| 国产91社区| 视频二区欧美| 日产精品久久久久久久蜜臀| 国产麻豆日韩欧美久久| 国产亚洲精品熟女国产成人| 欧美日韩另类字幕中文| 日韩中文字幕免费观看| 欧美激情中文网| 欧美电影免费观看网站| 97在线视频观看| 综合中文字幕| 可以在线看黄的网站| 激情综合色播激情啊| 欧美黄色小视频| 精品国产aⅴ一区二区三区东京热 久久久久99人妻一区二区三区 | 成人午夜av电影| 日韩在线国产精品| 青青草华人在线视频| 精品一区二区三区中文字幕在线| 欧美精品国产精品| 久久久国产欧美| 欧美激情成人动漫| 亚洲一区二区三区中文字幕在线| 国产精品69页| 日韩在线观看中文字幕| 亚洲国产精品99| 91视频免费版污| 久久99亚洲网美利坚合众国| 亚洲成人激情av| 欧美日韩国产经典色站一区二区三区| 国产免费无遮挡吸奶头视频| 99re热精品视频| 中文字幕在线亚洲| 黄色录像一级片| 欧美精品入口| 久久人人九九| 欧美在线综合| 欧美中文字幕在线视频| 免费观看在线午夜影视| 91免费看片网站| 欧美激情第二页| 人妻精品久久久久中文字幕| 欧美天天综合网| 青草在线视频| 日本精品一区二区三区高清 久久 日本精品一区二区三区不卡无字幕 | 日韩av成人在线观看| 日韩伦理一区| 午夜在线观看av| 国产亚洲综合在线| 台湾佬中文在线| 美日韩精品免费视频| 天美av一区二区三区久久| 在线观看国产一级片| 亚洲自拍与偷拍| 你懂的在线观看视频网站| 成人免费高清完整版在线观看| 亚洲三级观看| 中文字幕资源站| 亚洲码在线观看| 福利一区二区| 国产91在线视频观看| 国产精品入口麻豆原神|