国产欧美亚洲精品第1页青草,国产精品成人99久久久久,无码精品av久久久免费

openAI o1 技術(shù)點啟示

發(fā)布日期：2024/9/20 16:44:32 瀏覽量：

1、思維鏈

CoT（Chain of thought，思維鏈），是學(xué)者們發(fā)現(xiàn)的能夠激發(fā)大模型通過“思考”來回答困難問題的技術(shù)，可以顯著提高其在推理等任務(wù)上的正確率。這個思路在兩年前的幾篇經(jīng)典論文中已經(jīng)得到不斷完善。

《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models，NeurIPS2022》這篇文章提出，在問LLM問題前，手工在prompt里面加入一些包含思維過程（Chain of thought）的問答示例（Manual CoT），就可以讓LLM在推理任務(wù)上大幅提升。

《Large language models are zero-shot reasoners. NeurIPS2022》提出先使用 “Let’s think step by step.” 讓模型自己給出推理過程（Zero-shot CoT ），也衍生出諸如“一步一步慢慢來“這些著名的咒語。

《Automatic Chain of Thought Prompting in Large Language Models，ICLR2023》這篇文章可以理解為二者的結(jié)合，先用 “Let’s think step by step.” 咒語產(chǎn)生推理過程，再把這些過程加到prompt里面去引導(dǎo)大模型推理。這樣不需要自己寫，又能相對靠譜。

在這些之后，CoT還經(jīng)歷了千變?nèi)f化的演進(jìn)，但大都還是通過prompt來誘導(dǎo)大模型分步思維，人們就在想，能不能讓大模型自己學(xué)會這種方法呢？

2、強化學(xué)習(xí)和自學(xué)推理

類似當(dāng)年的Alpha-Zero，強化學(xué)習(xí)是讓機器自己通過與環(huán)境交互并觀察結(jié)果的方式調(diào)整行為策略的機器學(xué)習(xí)方法，但之前很難用于語言模型。直到斯坦福大學(xué) 2022 年提出一種「自學(xué)推理」（Self-Taught Reasoner，STaR）方法：先給模型一些例題詳細(xì)解法，再讓模型學(xué)著去解更多的題，如果做對就把方法再補充到例題里，形成數(shù)據(jù)集，對原模型微調(diào)，讓模型學(xué)會這些方法，這也是一種經(jīng)典的自動生成數(shù)據(jù)的方法。

后來基于此又演進(jìn)出了名為"Quiet-STaR"的新技術(shù)，也就是傳說中的Q*，翻譯過來大概為"安靜的自學(xué)推理"。核心為在每個輸入 token 之后插入一個"思考"步驟，讓大模型生成內(nèi)部推理。然后，系統(tǒng)會評估這些推理是否有助于預(yù)測后續(xù)文本，并相應(yīng)地調(diào)整模型參數(shù)。這種方法允許模型在處理各種文本時都能進(jìn)行隱含的推理，而不僅僅是在回答問題時。

用人話說呢，加入強化學(xué)習(xí)就是在大模型訓(xùn)練時就教他一些套路（當(dāng)然應(yīng)該也是模型自己生成并優(yōu)選的），思考時直接就按題型選套路分解問題、按步驟執(zhí)行、反復(fù)審核，不行就換個套路，跟通常教小學(xué)生普奧的套路類似。但這種自學(xué)習(xí)機制，由于獎勵模型的復(fù)雜，所以通常僅在數(shù)學(xué)和代碼領(lǐng)域表現(xiàn)較好。

3、Scaling Law的延伸

以上技術(shù)手段結(jié)合的后果就是，預(yù)訓(xùn)練階段并沒有什么變化，但在推理階段的計算量大大增加，原來追求的快思考變成了故意放慢速度，以追求更加準(zhǔn)確的結(jié)果。

OpenAI 提及了自己訓(xùn)練中發(fā)現(xiàn)的一個現(xiàn)象：隨著更多的強化學(xué)習(xí)（訓(xùn)練時計算）和更多的思考時間（推理時計算），o1 的性能能持續(xù)提高。

英偉達(dá)AI領(lǐng)導(dǎo)者 Jim Fan 在 X 上點評了這一事件的歷史意義——模型不僅僅擁有訓(xùn)練時的 scaling law，還擁有推理層面的 scaling law，雙曲線的共同增長，將突破之前大模型能力的提升瓶頸?！爸?，沒人能將 AlphaGo 的成功復(fù)制到大模型上，使用更多的計算讓模型走向超人的能力。目前，我們已經(jīng)翻過這一頁了。”

可以預(yù)見，在預(yù)訓(xùn)練邊際成本遞減的背景下，基于強化學(xué)習(xí)的推理增強會越來越受到重視并發(fā)揮作用，也會有更多的算力被投入到推理階段，全球人工智能芯片和算力的需求也還會繼續(xù)增加。

業(yè)務(wù)實施流程

需求調(diào)研 →

團隊組建和動員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓(xùn)

售后服務(wù)

馬上咨詢： 如果您有業(yè)務(wù)方面的問題或者需求，歡迎您咨詢！我們帶來的不僅僅是技術(shù)，還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人：石先生/雷先生

亚洲中文字幕无码日韩精品,亚洲一区制服无码中字,亚洲精品第一国产综合精品99 ,一本大道中文日本香蕉

openAI o1 技術(shù)點啟示