ACL2024 | NLP-KG:一個比Google Scholar更強大的NLP文獻搜索工具
今天分享一篇來自慕尼黑工業(yè)大學的文章,Title: "NLP-KG: A System) for Exploratory Search of Scientific Literature in Natural Language Processing"。
傳統(tǒng)的文獻搜索工具例如google scholar在學術(shù)資源的搜索上做的并不是很好,其大多利用關(guān)鍵詞來進行搜索。而本文提出的NLP-KG方法,借助了大量自然語言處理的工具,對現(xiàn)有的文章進行概念抽取,綜述分類等,提供層次化的結(jié)構(gòu)圖,方便用戶快速定位到相關(guān)領(lǐng)域和paper。同時結(jié)合LLM提供文章chat以及對話搜索等功能,為文獻搜索特別是NLP領(lǐng)域的文獻搜索提供一套不錯的方案。此外,本文提出的方法可能為后續(xù)文獻類的RAG方案提供一種參考方法。

一、概述
?Title:NLP-KG: A System for Exploratory Search of Scientific Literature in Natural Language Processing
?Authors:Tim Schopf, Florian Matthes
?Institution:Technical University of Munich, Department of Computer Science, Germany
?URL:?? https://arxiv.org/html/2406.15294v1??
?Code:?? https://github.com/NLP-Knowledge-Graph/NLP-KG-WebApp??
?Website: ???https://nlpkg.sebis.cit.tum.de??[1]
1 動機
本文嘗試nlp論文搜索難的問題,特別是當用戶對某個特定領(lǐng)域或概念不熟悉,但又希望了解更多相關(guān)信息時,現(xiàn)有的科學文獻搜索系統(tǒng)通常基于關(guān)鍵詞進行查找,限制了探索的可能性。為此,作者提出了NLP-KG,一個富有特色的系統(tǒng),旨在支持用戶在自然語言處理(NLP)領(lǐng)域的研究文獻探索。
? 現(xiàn)有的科學文獻搜索系統(tǒng)主要針對基于關(guān)鍵詞的查找搜索,限制了探索性查找的可能性。
? 研究人員在不熟悉某一領(lǐng)域時,常需要一種更加探索性的方法來學習和理解新的概念和研究。
2 方法
主要特點:
?語義搜索:提供基于關(guān)鍵詞以及語義檢索的搜索界面。
?綜述論文查找:允許用戶快速找到特定領(lǐng)域的綜述論文。
?研究領(lǐng)域?qū)蛹増D:通過可視化的方式展示不同研究領(lǐng)域及其關(guān)系。
?聊天界面:使用戶能夠?qū)Σ皇煜さ母拍罨蛱囟ㄎ恼绿岢鰡栴},并獲取基于科學出版物的答案。
?高級過濾器:允許用戶根據(jù)特定條件篩選搜索結(jié)果。

四大功能:
1.高級篩選:提供包括FoS(Fields of Study)、會議、日期、引用計數(shù)或綜述文章等多種高級篩選功能。
2.層次化展示:提供基于層次結(jié)構(gòu)的研究領(lǐng)域(FoS)圖,幫助用戶理解和探索相關(guān)領(lǐng)域。
3.Chat功能:利用LLM對用戶提出的關(guān)于特定文章的深入問題進行解答。
4.對話搜索:通過RAG (Retrieval Augmented Generation) ,回答用戶關(guān)于 NLP 相關(guān)問題的自然語言問題。
實現(xiàn)方法和步驟:

1.研究領(lǐng)域?qū)哟谓Y(jié)構(gòu)(Fos Fields of Study)構(gòu)建:使用經(jīng)過微調(diào)的 PL-Marker 模型從 ACL Anthology 和 arXiv cs.CL 類別Paper的標題和摘要中自動提取實體和關(guān)系,并構(gòu)建高質(zhì)量的層次結(jié)構(gòu)圖。然后經(jīng)過領(lǐng)域?qū)<胰斯残拚蜆?gòu)建FoS hierarchy graph。最終生成了421個實體(領(lǐng)域:Fields of Study),530個關(guān)系,最高可達7層深度的FOS。
2.文獻分類:使用微調(diào)分類模型和基于規(guī)則的方法,將研究出版物自動分配到相應的FoS中。
3.綜述論文分類:訓練二元分類器,自動將研究出版物分類為綜述或非綜述。
4.附加元數(shù)據(jù):從Semantic Scholar API獲取出版物摘要、SPECTER2 embedding、作者信息、引用和參考文獻等元數(shù)據(jù)。
5.語義搜索:結(jié)合BM25和基于SPECTER2 embedding的檢索結(jié)果,使用Reciprocal Rank Fusion方法進行合并,并通過S2Ranker進行重排序。讓用戶能夠基于關(guān)鍵詞搜索相關(guān)的出版物、作者、會議場地和學術(shù)學科。
6.會話搜索(Conversational Search):針對每個query,利用LLM + one-shot example生成search term,然后將top5的搜索結(jié)果喂入LLM生成response,生成回答的同時,也會生成inline citations,對于follow-up問題,LLM自動決定用當前response回復還是開始一個新的search。同時還針對當個paper也提供Ask This Paper對話能力,能直接對該問題進行提問。
3 結(jié)論
?支持探索性搜索:NLP-KG 系統(tǒng)提供了多種高級功能,支持用戶對不熟悉的 NLP 領(lǐng)域文獻進行探索。
?高質(zhì)量層次結(jié)構(gòu)圖:系統(tǒng)構(gòu)建了一個高質(zhì)量的研究領(lǐng)域?qū)哟谓Y(jié)構(gòu)圖,幫助用戶理解和探索相關(guān)領(lǐng)域。
?增強的檢索和回答能力:語義搜索和對話搜索功能顯著提高了文獻檢索和問題回答的準確性和相關(guān)性。
二、詳細內(nèi)容
1 研究領(lǐng)域?qū)蛹増DFoS正確性非常高

? 背景:研究抽取出來的FoS NLP層級概念圖的正確性
? 實驗方法:
參與者列出5個與他們專業(yè)相關(guān)的NLP概念,并在構(gòu)建的層級圖中找到這些概念。
進行了用戶研究,涉及10位NLP領(lǐng)域的博士級研究人員。
? 結(jié)論:Fos層級圖的準確率非常不錯,其中MAPE代表檢索的total step數(shù)和ideal step的差異。
2 檢索增強生成(RAG)效果評估

? 方法:
Grounded answer生成:使用GPT-4生成50個NLP相關(guān)的問題,并利用GPT-3.5和GPT-4在會話搜索流程中生成基于檢索文獻的回答。
評估方法:使用RAGAS框架評估生成的回答,關(guān)注生成回答的忠實度(Faithfulness)和答案相關(guān)性(Answer Relevance)。
?結(jié)論:RAG Pipeline檢索效果也不錯,通過RAGAS評價的忠實度(Faithfulness)和答案相關(guān)性(Answer Relevance)都不錯,說明本文提出的方法可以根據(jù)提供的上下文有效回答用戶question。
3 NLP-KG提供的功能相對其他學術(shù)搜索工具更強大

?結(jié)論:專門支持NLP文獻搜索,提供tag,層級可視化,綜述過濾,paper問答,對話搜索等能力。
三、總結(jié)
本文介紹了NLP-KG,一個為自然語言處理(NLP)研究文獻的探索性搜索而設計的系統(tǒng)。該系統(tǒng)利用知識圖譜、語義搜索、對話式搜索和先進的篩選功能,支持用戶在NLP領(lǐng)域的探索,幫助理解未知概念、尋找相關(guān)研究文獻。
通過構(gòu)建FoS的層次結(jié)構(gòu)圖和集成大型語言模型(LLM),NLP-KG提供了一種新穎的方式,以探索式的方式理解和發(fā)現(xiàn)NLP領(lǐng)域的文獻和知識。與現(xiàn)有的學術(shù)文獻搜索系統(tǒng)進行對比,其在NLP類的文獻搜索上有一些優(yōu)勢。
本文轉(zhuǎn)載自??NLP PaperWeekly??,作者: NLP PaperWeekly ????

















