最新文獻綜述:LLM 可控文本生成
經過一年多的發展大模型已融入了我們的日常工作中,但是大模型經常會輸出一些不符合約束的結果,本文將給出一份詳盡的指南,介紹如何管理和指導大型語言模型(LLM)進行文本生成的各類技術和方法,着重於理論支撐與實踐操作。
大模型可控文本生成 (CTG)綜述
可控文本生成的概述
可控文本生成(CTG)需實現兩大核心目標:
-
**遵循既定的控制準則:**保證產出的文本滿足特定的要求,諸如主題連貫性、內容安全性與風格統一性。
-
**維持文本的高品質:**確保生成的內容不僅流暢、有益,還具有多樣性,同時在控制與整體品質之間取得平衡。
與大語言模型中的可控生成相關的 Web of Science 上的出版趨勢
大型語言模型(LLMs)的可控性維度和能力維度
可控文本生成的形式化定義
可控文本生成(CTG)的定義概述如下:
-
與 LLM 的關係:CTG 構成了與 LLM 的客觀知識處理能力相獨立的一個能力維度,它專注於信息的呈現方式,旨在滿足特定的需求,如風格匹配或情感表達。
-
控制條件的融入:通過文本資料、圖表或數據庫等資源,可以在文本生成流程的不同階段嵌入控制條件。
-
CTG 的品質:優質的 CTG 在遵循控制條件的同時,還需確保生成文本的自然流暢、邏輯連貫和內容有用,實現控制與文本品質的均衡。
可控文本生成任務
對可控文本生成(CTG)的任務進行了分類,主要分爲以下兩個大類:
- 內容控制(Content Control):也稱爲語言學控制或硬控制,專注於生成文本的具體元素,如文本的結構和詞彙。這種類型的控制要求模型根據預定義的規則精確生成文本內容。內容控制包括:
-
結構控制:包括特定格式(如詩歌、食譜等)、組織結構(如段落劃分、標題使用、列表排列)和長度控制。
-
詞彙控制:確保文本包含預定義的關鍵詞集,以及避免使用可能有害或不適當的術語。
- 屬性控制(Attribute Control):也稱爲語義控制或軟控制,關注文本的抽象語言屬性,如情感、風格和主題。這種類型的控制旨在確保生成的文本在更高層次上反映特定的語義特徵。屬性控制包括:
-
安全性控制:包括去除有害內容和遵守法律法規。
-
情感控制:確保文本表現出明確的情感傾向,如積極、消極或中性。
-
風格控制:包括通用風格(適應特定場合和行業的專業溝通風格)和個人風格(模仿特定寫作風格或根據個人喜好生成個性化文本)。
-
主題控制:確保文本嚴格遵守指定的主題。
- 可控文本生成方法分類
干預階段、控制方法、特定方法和示例方法的分類
可控文本生成(CTG)方法分類:
-
模型驅動方法:使用分類器、條件語言模型或直接從 LLMs 本身注入知識。
-
數據驅動方法:利用豐富的數據資源,如文本語料庫、詞典、圖和數據庫來注入知識。
CTG 中條件的注入
可控文本生成(CTG)的方法主要分爲兩個階段:訓練階段和推理階段
可控文本生成方法的分類
訓練階段方法
-
重訓練(Retraining):從頭開始訓練新模型或對現有模型架構進行根本性修改,以更好地適應特定的控制條件。這通常在現有預訓練模型無法滿足新要求時採用。
-
微調(Fine-Tuning):通過使用專門設計的小型數據集來調整預訓練模型,使其更好地符合特定的控制屬性,而無需從頭開始訓練模型。
-
強化學習(Reinforcement Learning):使用獎勵信號來引導模型輸出朝向特定的控制目標。通過迭代優化,模型學習使其輸出與這些目標對齊。
推理階段方法
-
提示工程(Prompt Engineering):在推理階段,通過設計特定的輸入提示來直接影響文本生成,而無需對模型參數進行廣泛調整。
-
潛在空間操作(Latent Space Manipulation):通過調整模型隱藏層中的激活狀態來控制生成的文本,允許在不改變模型權重的情況下精確控制文本生成過程。
-
解碼時干預(Decoding-time Intervention):在解碼過程中修改生成輸出的概率分佈或應用特定規則,以影響單詞選擇,確保輸出與特定控制條件對齊。
具體方法示例
-
重訓練:例如 CTRL 模型,通過在訓練文本前添加控制代碼來區分不同的控制條件。
-
微調:例如 Adapter-Based Fine-Tuning 和 Data-Driven Fine-Tuning,使用輔助模型或特定數據集來調整模型輸出。
-
強化學習:例如 Automated Feedback 和 Human Feedback 方法,使用自動評估指標或人類反饋來優化模型。
Controllable Text Generation for Large Language Models: A Survey
https://arxiv.org/pdf/2408.12599
https://github.com/IAAR-Shanghai/CTGSurvey
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/hIMDIGo7Ah3J1AM-orqiiA