OmniThink：如何讓 LLM 寫出有更有深度的文章

發布于 2025-1-22 13:22

瀏覽

0收藏

摘要

機器寫作通常依賴檢索增強生成技術，但這些方法受限于模型預定義的范圍，難以生成信息豐富的內容。普通檢索的信息往往缺乏深度、實用性，且冗余問題嚴重，導致生成的文章內容淺顯、重復且缺乏原創性。為此，我們提出了 OmniThink 框架，它模擬了人類迭代擴展和反思的認知過程。OmniThink 的核心在于模擬學習者逐步深化對主題理解的認知行為。實驗表明，OmniThink 在不犧牲連貫性和深度的前提下，顯著提升了生成文章的知識密度。人類評估和專家反饋進一步證實了 OmniThink 在生成長篇文章中的實際應用潛力。

??https://arxiv.org/abs/2501.09751??

1. 機器寫作的現狀

由于手動寫作成本高昂，機器寫作（Machine Writing）的關注度越來越高。隨著 LLM 和檢索增強生成（RAG）的興起，機器寫作也迎來了新的機遇。

OmniThink：如何讓 LLM 寫出有更有深度的文章-AI.x社區圖片

為確保內容的真實性和實時性，當前基于 RAG 的自動化寫作系統主要依賴檢索內容生成文章（如上圖）。例如：

OmniThink：如何讓 LLM 寫出有更有深度的文章-AI.x社區圖片

? STORM 通過角色扮演的問答方式撰寫維基百科式文章，上圖展示了 STORM 使用 GPT4o 生成的關于 AlphaFold 主題的案例：文章中關于“AlphaFold 是由 DeepMind 開發的” 出現重復表達。

? Co-STORM 引入了用戶參與的信息檢索模式

? AutoSurvey 將該框架應用于學術論文寫作

然而，這些方法仍局限于角色自身的范圍，難以生成深度內容并突破知識邊界。檢索到的信息往往缺乏深度、實用性和冗余性，直接影響生成文章的質量，導致輸出內容淺顯、重復且缺乏原創性。

人類在寫作過程中可以自然地避免這些陷阱，通過反思實踐理論（the Theory of Reflective Practice）可以解釋該現象。

根據該理論，人類作者會不斷反思之前收集的信息和個人經驗，重新組織、篩選和優化認知框架。使作者迭代調整寫作方向和思維路徑，最終生成更深刻、細致和原創的內容。

受此啟發，本文作者提出了 OmniThink，一種新的機器寫作框架，模擬人類迭代擴展和反思的認知過程。

2. 什么是 OmniThink 框架？

OmniThink 的核心思想是模擬學習者在逐漸加深對復雜主題理解時的認知行為，以擴展知識邊界。通過不斷反思之前檢索到的信息，OmniThink 可以確定進一步擴展的最佳步驟。

這種 擴展-反思機制（Expansion Reflection Mechanism） 使得檢索策略能夠動態調整，從而促進對相關信息的更深入和全面的探索。一旦收集到多樣化的信息，OmniThink 將進入大綱構建和文章生成的階段。這種迭代的思維過程最終生成更高質量的文章，其中包含更高密度的有用、深刻和原創的內容。

OmniThink：如何讓 LLM 寫出有更有深度的文章-AI.x社區圖片

如上圖，OmniThink 分為三步：信息獲取、大綱構建和文章撰寫。但是在信息獲取階段，通過擴展和反思形成信息樹和概念池，為后續提綱和文章撰寫奠定基礎。

2.1 信息獲取（Information Acquisition）

OmniThink：如何讓 LLM 寫出有更有深度的文章-AI.x社區圖片

如上圖，擴展和反思的迭代過程最終構建了一個信息樹和一個概念池。

2.1.1 擴展（Expansion）

OmniThink 分析信息樹的所有葉節點，每個節點都會被評估以確定是否需要進一步擴展。

對于需要擴展的節點，OmniThink 使用當前的概念池來確定需要深入擴展的領域或合適的擴展方向。

2.1.2 反思（Reflection）

OmniThink 對所有葉子節點中的新信息進行反思。從每個葉子節點提取的信息經過分析、過濾和綜合，提煉出核心見解。這些見解隨后被整合到概念池中，并在整個過程中不斷更新和豐富。

擴展與反思的迭代循環將持續進行，直到 OmniThink 確定已獲取足夠的信息或達到預定義的最大檢索深度。確保獲取的信息是相關、詳細且多樣化的，為生成結構化和信息豐富的文章提供了堅實的基礎。

2.2 大綱構建

大綱是文章的核心，決定了內容方向、結構層次和邏輯推進。要構建一個結構清晰、邏輯連貫的大綱，必須對主題有深入理解。

OmniThink 維護了一個與主題緊密相關的概念池，這代表了 LLM 對主題理解的邊界和深度。

在生成大綱時，首先創建草稿大綱，然后讓 LLM 從概念池中提煉并鏈接內容，最終形成最終大綱。

通過這種方式，LLM 能夠在大綱中全面覆蓋主題要點，并確保文章的邏輯一致性和內容連貫性。

2.3 文章撰寫

完成大綱后，開始為每個部分撰寫內容。

撰寫時，利用部分標題及其子標題，通過計算語義相似度從信息樹中檢索最相關的 K 個文檔。LLM 會根據這些信息生成帶有引用的內容。

所有部分生成后，將被拼接成完整的草稿文章。由于各部分并行生成，其他部分內容尚不明確，會提示 LLM 處理拼接后的文章，刪除冗余信息，最終形成文章。

3. 效果評估方法

通過自動和人工評估相結合的方式來評估生成的長篇文章。

3.1 自動評估

使用 Prometheus 2 對文章進行 0 到 5 分的評分，評估其相關性、廣度、深度和新穎性。還通過信息多樣性和知識密度來衡量信息豐富度。

** 什么是知識密度? **

以往的研究大多關注文章的相關性和正確性，卻忽略了文章的深度。許多生成的文章充斥著冗余信息，與人類的寫作風格相去甚遠。為此，引入了知識密度（KD）的概念，定義為有意義內容與文本總量的比率，公式如下：

OmniThink：如何讓 LLM 寫出有更有深度的文章-AI.x社區圖片

其中，N 是文檔中原子知識單元的總數，U(ki) 表示第 i 個單元信息 ki 是否唯一，L 為文本總長度。分子表示從長篇文章中提取的獨特知識單元總和，分母則是文章的長度。

知識密度的價值在于它能從信息獲取的角度衡量生成文本的閱讀成本。低 KD 內容往往因冗余或不相關細節讓讀者感到疲勞或失去興趣，而高密度內容則能提供簡潔高效的閱讀體驗。

以往的方法在 KD 上表現有限，因為開放域長文本生成依賴于檢索信息。當檢索信息不夠多樣化時，生成的文章往往包含大量重復和冗余內容。這為優化知識密度提供了空間。

3.2 人工評估

隨機選取 20 個主題，將生成的文章與 Co-STORM（基于自動評估的最佳基線）生成的文章進行對比，并在相同的四個方面進行評分。

4. 效果怎么樣？

4.1 自動評估

OmniThink：如何讓 LLM 寫出有更有深度的文章-AI.x社區圖片

上圖展示了使用 GPT-4o 和 Qwen-Plus 作為骨干的評估結果。

在四個關鍵評分標準（相關性、廣度、深度和新穎性）的框架下，OmniThink 在所有方面都表現出色，特別是在新穎性指標上，以 GPT-4o 為骨干時尤為突出。

在知識密度方面，OmniThink 采用了一種連續且動態的檢索策略來收集廣泛的信息，這使其在內容生成階段能夠利用更廣泛的資源。這一戰略優勢使 OmniThink 在知識密度指標上優于現有的基準方法。

從結構合理性、邏輯一致性和生成指導性三個方面評估大綱質量。

OmniThink：如何讓 LLM 寫出有更有深度的文章-AI.x社區圖片

從上圖中可以看出，OmniThink 在結構合理性和邏輯一致性方面表現優異。歸功于 OmniThink 概念池的獨特設計，使 LLMs 在大綱生成過程中對目標主題有更全面和多樣化的理解。

有助于更好地指導內容生產，并增強生成內容的整體結構連貫性。然而，模型的邏輯一致性僅比基線略有改善。

4.2 人工評估

邀請了 15 位高學歷志愿者進行人工評估。

OmniThink：如何讓 LLM 寫出有更有深度的文章-AI.x社區圖片

上圖展示了評估結果，OmniThink 在多個維度上的平均表現均優于當前最強的基線模型，尤其在廣度指標上比 Co-STORM 高出 11%。

然而，在創新性指標上，自動化評估顯示 11% 的提升，但人工評估僅發現微弱優勢。表明當前的自動化評估與人類判斷尚未完全一致，為未來長文本評估的改進提供了方向。

盡管 OmniThink 在多個維度上表現優異，但仍有約 30% 的文章被評估者認為與基線模型不相上下。這可能是因為隨著大模型寫作能力的提升，人類越來越難以察覺細微差異。

5. 消融分析

OmniThink 的核心之一是動態擴展與反思機制。對比了 OmniThink 與其簡化版本（無動態擴展與反思機制）。

OmniThink：如何讓 LLM 寫出有更有深度的文章-AI.x社區圖片

如上圖所示，簡化版在文章質量的多個指標上表現遜色，尤其在信息多樣性和新穎性方面。證明了動態擴展與反思機制在提升信息多樣性和文章新穎性上的重要作用。

5.1 擴展與反思分析

深入探討了擴展和反思過程如何影響最終文章的各個方面及其整體質量。

由于擴展和反思在 OmniThink 中相互依賴，單獨評估它們的影響是不現實的。為此，采用了一種間接但系統的方法來評估它們對文章質量的綜合影響。

在信息獲取階段，用性能較低的模型替換擴展模型，并測量生成文章指標的性能下降，以此作為擴展過程影響的指標。同樣，采用相同的方法評估反思過程的影響。

OmniThink：如何讓 LLM 寫出有更有深度的文章-AI.x社區圖片

持續反思擴展知識邊界：反思在新穎性和信息多樣性方面比擴展更為重要。反思不僅讓模型能夠重新評估和內省現有知識，還能以激發更多樣化和廣泛思想的方式整合信息。這種深度內省過程至關重要，因為它通過多樣化的見解豐富了敘述，為創新和多樣化的寫作奠定了基礎。本質上，反思模塊是創造力的關鍵加速器，使模型能夠超越簡單信息增強的限制，構建出獨特且信息豐富的敘述。

擴展增強知識深度并提高信息相關性：擴展在廣度和深度方面比反思更為重要。因為擴展為模型的后續信息檢索設定了方向。通過為檢索過程建立更精確和有效的方向，模型能夠更好地利用檢索到的信息，并將其無縫整合到文本中，從而以更大的深度和廣度豐富內容。這種整合不僅增強了內容的相關性，還提高了知識密度，使文本更加全面和細致。因此，更好的擴展策略能夠打造出更復雜的規劃者，使其能夠更巧妙地應對信息檢索和利用的復雜性。

5.2 思考深度分析

OmniThink 在提升信息檢索方面進行了多次嘗試，本質上是擴展了檢索信息的規模。

OmniThink：如何讓 LLM 寫出有更有深度的文章-AI.x社區圖片

從上圖可以看到，隨著深度從 1 增至 3，生成文章的知識密度和信息多樣性迅速提升。

隨著深度增加，OmniThink 能夠在網絡上搜索到更多樣化的信息，并將其應用于文章生成。

然而，當深度增至 4 時，知識密度和信息多樣性的增長顯著放緩。這可能是因為該主題的可用信息接近搜索極限，難以檢索到更多有用信息。

6. 局限性

? 當前研究僅涉及搜索和文本生成，開放領域中的大量多模態信息尚未被充分利用。

? 文本生成中未考慮個性化語言風格，導致生成的文本偏向學術化，可能不符合普通用戶的閱讀習慣。

本文轉載自??大語言模型論文跟蹤??，作者：HuggingAGI

標簽

LLM

OmniThink

多模態

已于2025-1-22 18:31:44修改

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

OmniThink：如何讓 LLM 寫出有更有深度的文章

摘要

1. 機器寫作的現狀

2. 什么是 OmniThink 框架？

2.1 信息獲取（Information Acquisition）

2.1.1 擴展（Expansion）

2.1.2 反思（Reflection）

2.2 大綱構建

2.3 文章撰寫

3. 效果評估方法

3.1 自動評估

3.2 人工評估

4. 效果怎么樣？

4.1 自動評估

4.2 人工評估

5. 消融分析

5.1 擴展與反思分析

5.2 思考深度分析

6. 局限性

目錄