精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

利用LLM做論文review到哪一步了?來看看DeepReview吧!

發(fā)布于 2025-3-14 00:48
瀏覽
0收藏

今天分享一篇西湖大學(xué)張岳老師的一篇利用合成推理數(shù)據(jù)做論文評審文章,Title: DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process:通過合成類人深度思考過程改進基于LLM的論文評審效果。

這篇文章探索了如何利用大型語言模型(LLM)來改進論文評審過程,提出了一個多階段框架DeepReview,通過結(jié)合結(jié)構(gòu)化分析、文獻檢索和基于證據(jù)的論證,模擬專家評審員的深度思考過程,從而提高LLM在論文評審中的可靠性

該方法分為三個階段:1)新穎性驗證:通過文獻檢索評估研究的原創(chuàng)性。2)多維度評估:綜合多個專家意見。3)可靠性驗證:檢查內(nèi)部一致性和邏輯連貫性。

該方法特點總結(jié)如下:1)提出了DeepReview-13K,一個帶有結(jié)構(gòu)化注釋的精選數(shù)據(jù)集,用于訓(xùn)練模型。2)訓(xùn)練了DeepReviewer-14B模型,在評估中優(yōu)于CycleReviewer-70B。3)模型提供了三種推理模式(快速、標(biāo)準(zhǔn)和最佳),允許用戶在效率和響應(yīng)質(zhì)量之間進行平衡。

一、概述

?Title:DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process

?URL:arXiv:2503.08569v1

?Authors:Minjun Zhu, Yixuan Weng, Linyi Yang, Yue Zhang

?Code:zhu-minjun/Researcher

?Homepage:ai-researcher.net

?Demo:ai-researcher.net/deepreviewer

1.Motivation

? 現(xiàn)有的基于LLM的論文評審系統(tǒng)存在包括領(lǐng)域?qū)I(yè)知識有限、推理錯誤和缺乏結(jié)構(gòu)化評估等缺陷。

?同時缺乏能夠捕捉細(xì)粒度專家評估過程的結(jié)構(gòu)化論文評審數(shù)據(jù)集

2.Methods

DeepReview 數(shù)據(jù)收集與構(gòu)建(Data Collection):

![image-20220313103359178](/Users/huxiang/Library/Application Support/typora-user-images/image-20220313103359178.png)

??步驟??

  • 從 OpenReview 平臺收集原始數(shù)據(jù),包括 ICLR 2024 和 2025 的投稿論文。
  • 使用 MinerU 工具將論文轉(zhuǎn)換為可解析的 Markdown 格式。
  • 為每篇論文構(gòu)建評審集 R,包括文本評估(Strengths, Weaknesses, and Questions)、互動討論(rebuttal)和標(biāo)準(zhǔn)化評分(overall ratings (∈ [1, 10]) and fine-grained evaluations of Soundness, Presentation, and Contribution (∈ [1, 4]))。
  • 收集元評審文本(meta-review texts)和最終評分以及decisions(接受/拒絕)。
  • 最終的 DeepReview-13K 數(shù)據(jù)集包含 13,378 個有效樣本。

DeepReview 長推理數(shù)據(jù)合成方法: 基于已有openreview的數(shù)據(jù)合成推理數(shù)據(jù)訓(xùn)練模型

結(jié)合檢索、rank、自我驗證和自我反思等方法,開發(fā)了一個paper review的數(shù)據(jù)合成流程,該流程確保 LLM 生成建議的可靠性和魯棒性。該框架主要分為以下幾個方面來模擬專家評審過程:

利用LLM做論文review到哪一步了?來看看DeepReview吧!-AI.x社區(qū)

最終一個完整的review example如下:

利用LLM做論文review到哪一步了?來看看DeepReview吧!-AI.x社區(qū)

合成數(shù)據(jù)的流程如下:

1)新穎性評估(Novelty Verification):通過檢索文獻評估研究的新穎性并給出分析報告。

? 使用 Qwen-2.5-72B-Instruct 模型生成三個關(guān)鍵研究問題(questions, focusing on research gaps, innovative directions, and methodological breakthroughs to capture domain-specific characteristics)。

? 使用 Gemini-2.0-Flash-thinking 模型進行系統(tǒng)論文分析(research motivation, core ideas, technical approaches, and experimental design)。

? 使用 OpenScholar 進行文獻檢索、比較和總結(jié)。(literature retrieval, comparison, and summary base on OpenScholar)

? 使用 Qwen-2.5-3B-Instruct 和few-shot learning將問題轉(zhuǎn)換為搜索關(guān)鍵詞(Semantic Scholar API)。

? 使用 ReRank 模型對檢索到的論文進行重新排序(top 10 most relevant papers)。

? 使用內(nèi)部 QA 模型生成綜合報告作為新穎性分析(Llama-3.1_OpenScholar-8B)。

? 可能存在的問題:得按之前論文的發(fā)表時間來檢索才對吧?否則有新論文進來會影響novelty的分?jǐn)?shù)。不知道作者有沒有考慮到!

2)多維度評估標(biāo)準(zhǔn)(Multi-dimensional Review):將rebuttals合成multiple review報告。

? 使用 Qwen-2.5-72B-Instruct 開發(fā)評審重構(gòu)流程(從rebuttal中提取experimental results, theoretical proofs, and implementation details)。

? 分析 R 中的每個評審及其對應(yīng)的作者回復(fù)。

? 將批評轉(zhuǎn)化為具體的技術(shù)建議。

3)可靠性驗證(Reliability Verification):從原文找到證據(jù),并給出confidence level(檢查assessment內(nèi)部一致性和邏輯連貫性)。

? 使用 Gemini-2.Flash-thinking 進行系統(tǒng)證據(jù)分析。總共需要通過四階段驗證鏈進行:方法驗證、實驗驗證和綜合分析(methodology verification, experimental verification, and comprehensive analysis)。每個評審意見都需要論文中的支持證據(jù)和置信度。

? 最終使用 Qwen 生成新的meta review(依據(jù)original Meta-Review, reviewer comments, and verification outcomes)。

4)質(zhì)量控制機制(Quality Control Mechanism):

? 使用 Qwen-2.5-72B-Instruct 堅持最終推理鏈的嚴(yán)謹(jǐn)性。

? 評估每個生成樣本的邏輯完整性(z1, z2, z3)和完備性。

? 檢查邏輯一致性和完整性。

訓(xùn)練模型并測試:

1)模型訓(xùn)練(Model Training)

? 基于Phi-4 14B模型, 使用DeepReview-13K的數(shù)據(jù)集進行訓(xùn)練.

? 在8x H100 80G GPUs上使用DeepSpeed + ZeRO3優(yōu)化。

? 使用LongRoPE將上下文窗口擴展到256K,訓(xùn)練期間使用40K的上下文窗口。

? 使用23,500步訓(xùn)練,batch size為16,學(xué)習(xí)率為5e-6。

2)推理策略(Inference Strategy)

? Fast: 快速模式,直接生成最終評估結(jié)果(z3)

? Standard: 標(biāo)準(zhǔn)模式,包括Z2和Z3兩個核心的評估步驟

? Best:最佳模式,執(zhí)行整個的reasoning chain(Z1,Z2,Z3)

3.Conclusion

1)與其他baseline的效果對比

利用LLM做論文review到哪一步了?來看看DeepReview吧!-AI.x社區(qū)

總結(jié)1:DeepReviewer-14B 在多個維度上表現(xiàn)優(yōu)異,與 CycleReviewer-70B、GPT-o1 和 Deepseek-R1 等現(xiàn)有系統(tǒng)相比,在評分、排名和選擇方面均取得了顯著改進。總結(jié)2: 感覺還是沒有帶來本質(zhì)的替身,pairwise accuracy都還不太高!

2)基于Gemini-2.0-Flash-Thinking分析生成的review質(zhì)量

利用LLM做論文review到哪一步了?來看看DeepReview吧!-AI.x社區(qū)

總結(jié):在文字內(nèi)容上,提的點上,效果看起來都不錯。這個可能可以給作者提供比較詳細(xì)的指導(dǎo)!

3)展現(xiàn)出強大的抗攻擊能力

利用LLM做論文review到哪一步了?來看看DeepReview吧!-AI.x社區(qū)

4)推理token的scaling law

利用LLM做論文review到哪一步了?來看看DeepReview吧!-AI.x社區(qū)

Reasoning Path Scaling: 對應(yīng)文章提到的fast,standard,best,看著提升效果沒那么大。

Reviewer Scaling: 代表reviewer的個數(shù),看著提升還不錯,但是對Decision Accuracy提升不大。

三、總結(jié)

結(jié)論1: 利用 LLM 進行結(jié)構(gòu)化推理可以顯著提升論文評審的質(zhì)量和可靠性。 DeepReview 框架通過模擬人類專家評審過程,結(jié)合新穎性驗證、多維度評估和可靠性驗證,提高了評審的深度和準(zhǔn)確性。

結(jié)論2: DeepReview 框架具有良好的可擴展性和魯棒性。 通過 Test-Time Scaling 分析表明,DeepReviewer 可以通過調(diào)整推理路徑和響應(yīng)長度來提高性能,并且對對抗性攻擊表現(xiàn)出很強的彈性。

總的來說,論文評審的decision還是一個非常有難度(看運氣)的一個事情,但是基于LLM的review可能可以給作者在提交前提供很多反饋意見和建議(參考原文Tabble 4)。

本文轉(zhuǎn)載自??NLP PaperWeekly??,作者: NLP PaperWeekly ????


收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
国产超碰91| 色偷偷综合社区| 日批视频在线免费看| 青青草视频在线观看| 青青草97国产精品免费观看 | 中文字幕欧美日韩一区| 国产视频999| 国产无精乱码一区二区三区| 色爱综合av| 精品视频资源站| 国产一区二区三区乱码| 成年午夜在线| 成人免费视频播放| 国产精品久久一区主播| 免费在线黄色片| 国产区精品区| 精品国产乱码久久久久久闺蜜 | 免费成人深夜夜行网站| 成人免费在线电影网| 色综合久久88色综合天天6| 国产高清免费在线| 香蕉视频911| 国产资源在线一区| 日本在线精品视频| 国产乱国产乱老熟300| 少妇精品久久久一区二区三区| 欧美猛男超大videosgay| 3d动漫一区二区三区| 免费大片黄在线观看视频网站| 99精品久久久久久| 亚洲综合在线做性| 综合久久中文字幕| 午夜一级久久| 欧美—级高清免费播放| 一区二区三区影视| 国产精品三级| 亚洲精品乱码久久久久久按摩观| 久久综合在线观看| 日韩经典一区| 日韩欧美精品在线观看| 青青在线免费观看| 色综合999| 亚洲视频免费看| 亚洲国产日韩综合一区| 嫩草研究院在线观看| 成人a免费在线看| 亚洲一区二区三区乱码aⅴ| 伊人成人在线观看| 日韩av中文字幕一区二区三区| 4438全国亚洲精品在线观看视频| 久久久久久久中文字幕| 欧美伊人久久| 久久国产精品首页| 亚洲色婷婷一区二区三区| 99久久99热这里只有精品| 在线观看欧美日韩| 日韩女同一区二区三区 | 亚洲欧美国产高清va在线播| 永久免费未满蜜桃| 91精品啪在线观看国产手机| 精品少妇一区二区三区日产乱码| 性折磨bdsm欧美激情另类| 国产一区二区av在线| 欧美一区日本一区韩国一区| 91精产国品一二三产区别沈先生| 99久热在线精品视频观看| 91精品综合久久久久久| 善良的小姨在线| 亚洲伊人精品酒店| 日韩片之四级片| 日本天堂在线播放| 欧美1区二区| 亚洲欧洲在线观看| 亚洲精品国产精品国自产网站| 精品理论电影| 俺去亚洲欧洲欧美日韩| 永久免费看mv网站入口| 欧美精品18| 91高清视频在线免费观看| 青草视频在线观看免费| 日本女人一区二区三区| 92国产精品久久久久首页 | 亚洲视频在线播放| 91视频免费看片| 伊人情人综合网| 久久久久亚洲精品| 伊人久久中文字幕| 国产一区视频导航| 精品国产乱码久久久久久郑州公司| 五月天婷婷在线播放| 欧美国产精品专区| 国产一区二区三区播放| 竹内纱里奈兽皇系列在线观看| 91精品1区2区| 日本亚洲一区二区三区| 天堂99x99es久久精品免费| 国产一区二区三区四区福利| 538精品在线观看| 一本久道久久综合狠狠爱| 国产成人自拍视频在线观看| aaa一区二区| 99re成人精品视频| 在线看无码的免费网站| 国产激情在线播放| 911精品产国品一二三产区| 动漫美女无遮挡免费| 欧美一级本道电影免费专区| 欧美黄色性视频| 国产乱码在线观看| 成人网页在线观看| 日产精品高清视频免费| bl视频在线免费观看| 在线精品视频免费播放| 国产乱国产乱老熟300部视频| 国内精品久久久久久久影视简单 | 绿色成人影院| 91精品国产综合久久蜜臀 | 亚洲美女在线一区| 国产一区亚洲二区三区| 亚洲视频精选| 日韩中文字幕在线精品| 国产高清中文字幕| 国产福利一区二区三区视频在线| 清纯唯美一区二区三区| bl视频在线免费观看| 欧美日本精品一区二区三区| 中文字幕av网址| 欧美啪啪一区| 国产一区二区丝袜高跟鞋图片| 亚洲色图狠狠干| 一二三四社区欧美黄| 人人干人人干人人| 综合伊思人在钱三区| 欧美激情一二区| 国产伦精品一区二区三区免.费| 久久久久久99久久久精品网站| 国产成人在线小视频| 精品美女一区| 国产亚洲精品美女| 欧美性猛交bbbbb精品| 不卡免费追剧大全电视剧网站| 99re99热| 亚洲精品成a人ⅴ香蕉片| 永久免费看mv网站入口亚洲| 伦av综合一区| 91在线播放网址| 极品粉嫩国产18尤物| 亚洲一区二区三区四区电影| 久久天天躁狠狠躁老女人| 中文字幕欧美在线观看| 国产欧美久久久精品影院| 亚洲人成无码www久久久| 欧美色图五月天| 51精品国产黑色丝袜高跟鞋| 色窝窝无码一区二区三区成人网站| 亚洲激情在线激情| 亚洲成人福利视频| 精品99视频| 国产综合欧美在线看| 蜜桃视频在线观看播放| 亚洲韩国日本中文字幕| 中国一级免费毛片| 99国产精品国产精品久久| 国产精品va无码一区二区| 精品视频在线你懂得| 97人人做人人爱| 手机看片福利在线| 午夜伦欧美伦电影理论片| 亚洲av片不卡无码久久| 久久综合网络一区二区| 水蜜桃亚洲精品| 青青在线精品| 精品少妇一区二区30p| 免费看黄色一级视频| 图片区小说区区亚洲影院| 素人fc2av清纯18岁| 日韩高清在线不卡| 国产高潮呻吟久久久| 91亚洲无吗| 5566日本婷婷色中文字幕97| 岛国在线大片| 在线不卡免费欧美| 精品无码人妻一区二区三区| 91麻豆免费观看| 一级在线免费视频| 欧美国产三区| 蜜桃麻豆91| 亚洲精品成a人ⅴ香蕉片| 欧美国产日韩一区二区在线观看 | 在线中文字幕日韩| 99在线小视频| 日韩欧美精品网址| 日本妇女毛茸茸| 国产亚洲精久久久久久| 亚洲天堂av一区二区| 一区福利视频| 亚洲二区自拍| 4438全国亚洲精品观看视频| 日韩av免费在线观看| 国产黄色小视频在线| 日韩大片在线观看视频| 亚洲无码久久久久| 婷婷国产在线综合| 肉色超薄丝袜脚交69xx图片| 99riav久久精品riav| 女人高潮一级片| 亚洲一区二区毛片| av中文字幕av| 国产在视频线精品视频www666| 91嫩草在线| 久久99久久99精品免观看软件| 欧美情侣性视频| av在线免费观看网| 日韩禁在线播放| 精品国产黄色片| 欧美性感一区二区三区| 日本天堂在线视频| 亚洲图片欧美激情| x88av在线| 99视频一区二区三区| 男女视频在线观看网站| 日韩精品电影在线| 自拍日韩亚洲一区在线| 伊人成综合网| 一区二区视频在线播放| 国产一区二区三区日韩精品| 国产伦精品一区二区三区免| 99久热在线精品视频观看| 国产精品入口尤物| 中文字幕在线免费观看视频| 久久久久久久97| 日本视频在线观看| 国产亚洲一区二区精品| 天堂在线中文资源| 欧美精品一区男女天堂| 99久久久国产精品无码网爆| 欧美视频在线一区| 99re国产在线| 日韩欧中文字幕| 国产一级精品视频| 亚洲国产精品久久不卡毛片| 精品97人妻无码中文永久在线| 国产精品福利一区二区| 久久丫精品忘忧草西安产品| 久久众筹精品私拍模特| www.超碰97| 99久久99久久精品免费看蜜桃| 好吊操视频这里只有精品| 国产一区视频网站| 女人扒开腿免费视频app| 精品亚洲免费视频| 欧美大片久久久| 九色综合狠狠综合久久| 日韩欧美理论片| 国产一区二区女| 国产精品久久久久久久99| 精品一区二区三区免费观看 | jvid福利写真一区二区三区| 国产精久久久久| 不卡av在线免费观看| 日本道中文字幕| 99久久精品情趣| 黄色工厂在线观看| 国产午夜亚洲精品午夜鲁丝片| 欧美成人国产精品一区二区| 国产精品乱码一区二三区小蝌蚪| 一二三四在线观看视频| 国产精品久久久久9999吃药| 91传媒免费观看| 亚洲综合色区另类av| 香蕉视频一区二区| 高跟丝袜欧美一区| 中文字幕精品一区二| 在线电影一区二区三区| 午夜免费福利视频| 亚洲精品久久久久中文字幕欢迎你| 日韩精品系列| 中文字幕国产精品| 污视频网站免费在线观看| 午夜精品蜜臀一区二区三区免费 | 国产精品在线看| 精品一区二区三区在线观看视频| 成人资源视频网站免费| 九九在线高清精品视频| 在线观看成人一级片| 综合精品久久| 国产午夜福利视频在线观看| 美女mm1313爽爽久久久蜜臀| 欧美日韩一区二区区| 久久久久国色av免费看影院| 91香蕉视频污在线观看| 亚洲国产综合视频在线观看| 欧美黄色一级大片| 91精品免费在线观看| 日韩av视屏| 欧美xxxx14xxxxx性爽| 中文字幕高清在线播放| 成人a免费视频| 久久精品凹凸全集| 一区精品在线| 一本色道88久久加勒比精品| 亚洲小视频网站| 91污在线观看| 欧美激情图片小说| 一本久久a久久免费精品不卡| 国产精品久久久久毛片| 亚洲精品日韩在线| 直接在线观看的三级网址| 欧洲成人性视频| 日本高清久久| 五月天久久狠狠| 日韩图片一区| 中文字幕无码毛片免费看| 久久久国产一区二区三区四区小说| 久久成人小视频| 色综合一区二区| 亚洲免费一级片| 丝袜美腿亚洲一区二区| 成人影院av| 国产偷国产偷亚洲高清97cao| 欧美美女视频| 国产91对白刺激露脸在线观看| 国产一区二区三区精品视频| 国产第一页精品| 色婷婷综合五月| 五月婷婷在线播放| 欧美日韩福利在线观看| 色综合一区二区日本韩国亚洲| 欧洲精品码一区二区三区免费看| 亚洲二区免费| 亚洲少妇一区二区| 亚洲免费伊人电影| 11024精品一区二区三区日韩| 亚洲日本中文字幕免费在线不卡| 乱人伦视频在线| 国产精品一区视频网站| 欧美精品福利| 在线观看中文av| 亚洲人成在线播放网站岛国| 亚洲中文字幕在线观看| 伊人伊人伊人久久| 欧美xnxx| 视频一区视频二区视频| 日韩精品久久理论片| 精品无码一区二区三区| 福利微拍一区二区| 日韩黄色影片| 欧美一区二区.| 亚洲精品国产setv| 虎白女粉嫩尤物福利视频| 久久网这里都是精品| 一本一道无码中文字幕精品热| 日韩国产精品视频| 亚洲精品mv| 日本在线观看一区二区| 日韩成人av影视| 国产精品1区2区3区4区| 欧美欧美欧美欧美首页| 大地资源网3页在线观看| 91免费在线视频网站| 在线看片不卡| 在线播放国产视频| 亚洲国产视频直播| 色在线免费视频| 国产成人精品视频在线| 成人同人动漫免费观看| 777一区二区| 亚洲激情中文1区| 午夜福利视频一区二区| 热久久免费视频精品| 精品视频黄色| 污污的视频免费观看| 亚洲制服丝袜av| 色噜噜一区二区三区| 国产精品99久久久久久久久久久久 | 亚洲香蕉网站| 精品久久久久久中文字幕人妻最新| 色婷婷久久久久swag精品| 在线观看黄av| 国产福利久久精品| 午夜在线精品偷拍| 潘金莲一级黄色片| 精品国免费一区二区三区| 亚洲国产成人二区| 最新黄色av网站| 91在线视频在线| 一级片一区二区三区| 久久久久成人精品| 国产不卡一区| 91精品国产高清91久久久久久| 欧美性猛交xxxx| 欧美性天天影视| 精品国产一区二区三| 久久狠狠亚洲综合| 国产精品二区一区二区aⅴ| 国产亚洲一区二区精品| 人人爱人人干婷婷丁香亚洲| 久久国产乱子伦免费精品| 亚洲码国产岛国毛片在线| 日本高清中文字幕二区在线|