亚洲中文字幕无码日韩精品,亚洲一区制服无码中字,亚洲精品第一国产综合精品99 ,一本大道中文日本香蕉

微立頂科技

新聞資訊

創(chuàng)新 服務(wù) 價值

  openAI o1 技術(shù)點啟示

發(fā)布日期:2024/9/20 16:44:32      瀏覽量:

1、思維鏈

CoT(Chain of thought,思維鏈),是學(xué)者們發(fā)現(xiàn)的能夠激發(fā)大模型通過“思考”來回答困難問題的技術(shù),可以顯著提高其在推理等任務(wù)上的正確率。這個思路在兩年前的幾篇經(jīng)典論文中已經(jīng)得到不斷完善。

《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,NeurIPS2022》這篇文章提出,在問LLM問題前,手工在prompt里面加入一些包含思維過程(Chain of thought)的問答示例(Manual CoT),就可以讓LLM在推理任務(wù)上大幅提升。

《Large language models are zero-shot reasoners. NeurIPS2022》提出先使用 “Let’s think step by step.” 讓模型自己給出推理過程(Zero-shot CoT ),也衍生出諸如“一步一步慢慢來“這些著名的咒語。

《Automatic Chain of Thought Prompting in Large Language Models,ICLR2023》這篇文章可以理解為二者的結(jié)合,先用 “Let’s think step by step.” 咒語產(chǎn)生推理過程,再把這些過程加到prompt里面去引導(dǎo)大模型推理。這樣不需要自己寫,又能相對靠譜。

在這些之后,CoT還經(jīng)歷了千變?nèi)f化的演進(jìn),但大都還是通過prompt來誘導(dǎo)大模型分步思維,人們就在想,能不能讓大模型自己學(xué)會這種方法呢?

2、強化學(xué)習(xí)和自學(xué)推理

類似當(dāng)年的Alpha-Zero,強化學(xué)習(xí)是讓機器自己通過與環(huán)境交互并觀察結(jié)果的方式調(diào)整行為策略的機器學(xué)習(xí)方法,但之前很難用于語言模型。直到斯坦福大學(xué) 2022 年提出一種「自學(xué)推理」(Self-Taught Reasoner,STaR)方法:先給模型一些例題詳細(xì)解法,再讓模型學(xué)著去解更多的題,如果做對就把方法再補充到例題里,形成數(shù)據(jù)集,對原模型微調(diào),讓模型學(xué)會這些方法,這也是一種經(jīng)典的自動生成數(shù)據(jù)的方法。

后來基于此又演進(jìn)出了名為"Quiet-STaR"的新技術(shù),也就是傳說中的Q*,翻譯過來大概為"安靜的自學(xué)推理"。核心為在每個輸入 token 之后插入一個"思考"步驟,讓大模型生成內(nèi)部推理。然后,系統(tǒng)會評估這些推理是否有助于預(yù)測后續(xù)文本,并相應(yīng)地調(diào)整模型參數(shù)。這種方法允許模型在處理各種文本時都能進(jìn)行隱含的推理,而不僅僅是在回答問題時。

用人話說呢,加入強化學(xué)習(xí)就是在大模型訓(xùn)練時就教他一些套路(當(dāng)然應(yīng)該也是模型自己生成并優(yōu)選的),思考時直接就按題型選套路分解問題、按步驟執(zhí)行、反復(fù)審核,不行就換個套路,跟通常教小學(xué)生普奧的套路類似。但這種自學(xué)習(xí)機制,由于獎勵模型的復(fù)雜,所以通常僅在數(shù)學(xué)和代碼領(lǐng)域表現(xiàn)較好。

3、Scaling Law的延伸

以上技術(shù)手段結(jié)合的后果就是,預(yù)訓(xùn)練階段并沒有什么變化,但在推理階段的計算量大大增加,原來追求的快思考變成了故意放慢速度,以追求更加準(zhǔn)確的結(jié)果。

OpenAI 提及了自己訓(xùn)練中發(fā)現(xiàn)的一個現(xiàn)象:隨著更多的強化學(xué)習(xí)(訓(xùn)練時計算)和更多的思考時間(推理時計算),o1 的性能能持續(xù)提高。

英偉達(dá)AI領(lǐng)導(dǎo)者 Jim Fan 在 X 上點評了這一事件的歷史意義——模型不僅僅擁有訓(xùn)練時的 scaling law,還擁有推理層面的 scaling law,雙曲線的共同增長,將突破之前大模型能力的提升瓶頸?!爸?,沒人能將 AlphaGo 的成功復(fù)制到大模型上,使用更多的計算讓模型走向超人的能力。目前,我們已經(jīng)翻過這一頁了。”

可以預(yù)見,在預(yù)訓(xùn)練邊際成本遞減的背景下,基于強化學(xué)習(xí)的推理增強會越來越受到重視并發(fā)揮作用,也會有更多的算力被投入到推理階段,全球人工智能芯片和算力的需求也還會繼續(xù)增加。



  業(yè)務(wù)實施流程

需求調(diào)研 →

團隊組建和動員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓(xùn)

售后服務(wù)

馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     聯(lián)系人:石先生/雷先生