BPO:靈活的 Prompt 對(duì)齊優(yōu)化技術(shù)
發(fā)布日期:2023/11/20 17:41:17 瀏覽量:
我們提出一種Prompt優(yōu)化方案——黑盒提示對(duì)齊優(yōu)化技術(shù)(Black-box Prompt Optimization),開(kāi)源給大家。
這種方法有兩個(gè)優(yōu)點(diǎn):
1)在用戶的prompt送入模型之前,進(jìn)行一次優(yōu)化,顯著提升模型推理能力。
2)可以適配任何模型。
如果正在部署模型,可以接入玩玩,看看效果。
如何與 LLM 進(jìn)行高效交流。一種方案是,人向模型對(duì)齊。于是有了 「Prompt工程師」這一崗位,專門撰寫適配 LLM 的 Prompt,從而讓模型能夠更好地生成內(nèi)容。
而另一種更為有效的方案則是,讓模型向人對(duì)齊。這也是大模型研究中非常重要的問(wèn)題,無(wú)論是 GPT 還是 Claude,在對(duì)齊技術(shù)上花費(fèi)大量的時(shí)間與精力。但,隨著模型規(guī)模變大,基于訓(xùn)練的對(duì)齊技術(shù)也需要耗費(fèi)更大量的資源。因此,我們提出另外的一種方案,即黑盒提示對(duì)齊優(yōu)化技術(shù)(Black-box Prompt Optimization),通過(guò)優(yōu)化用戶指令,從輸入角度對(duì)模型進(jìn)行對(duì)齊。
這種方法可以在不對(duì) LLM 進(jìn)行訓(xùn)練的情況下,大幅提升與人類偏好的對(duì)齊程度。而且 BPO 可以被替換到各種模型上,包括開(kāi)源模型和基于API的模型。
在 VicunaEval 上使用 GPT-4 進(jìn)行自動(dòng)評(píng)估,BPO 能夠大幅提升 ChatGPT、Claude 等模型的人類偏好,并助力 llama2-13b 模型大幅超過(guò) llama2-70b 的版本。
論文:https://arxiv.org/abs/2311.04155
代碼:https://github.com/thu-coai/BPO
BPO 究竟對(duì)用戶指令做了怎樣的優(yōu)化?
我們?cè)谡撐牡牡谖逍」?jié)總結(jié)了BPO的一些常見(jiàn)優(yōu)化策略,包括:推理解釋、完善用戶問(wèn)題、要點(diǎn)提示以及安全增強(qiáng)。
馬上咨詢: 如果您有業(yè)務(wù)方面的問(wèn)題或者需求,歡迎您咨詢!我們帶來(lái)的不僅僅是技術(shù),還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生