人工智能學(xué)會數(shù)學(xué)推理了,考試成績比CS博士還高
發(fā)布日期:2022/7/4 14:10:48 瀏覽量:
機(jī)器之心報道
編輯:杜偉、陳萍
這是語言模型推理能力的一個重要里程碑。
AI 在數(shù)學(xué)方面也有超越人類的趨勢了?
昨天,谷歌提交的一篇論文引發(fā)了機(jī)器學(xué)習(xí)圈的關(guān)注,其提出的語言模型學(xué)會了人類做數(shù)學(xué)題時的方法「一步一步推理」。
在 MATH 數(shù)據(jù)集上,谷歌的新模型能實現(xiàn) 50% 的準(zhǔn)確率——此前對人類的評測結(jié)果是:「一個不特別喜歡數(shù)學(xué)的計算機(jī)科學(xué)博士生能答對大約 40%,而三屆國際數(shù)學(xué)奧林匹克競賽(IMO)金牌得主能達(dá)到 90%?!?
語言模型在各種 NLP 任務(wù)上都表現(xiàn)出了卓越的性能。事實上,在眾多研究中科研人員總結(jié)出一條經(jīng)驗,即以無監(jiān)督方式在大規(guī)模不同數(shù)據(jù)上訓(xùn)練的神經(jīng)網(wǎng)絡(luò),在不同任務(wù)上表現(xiàn)更好。這條經(jīng)驗也適用于 BERT、GPT-3、Gopher 和 PaLM 在內(nèi)的模型。
和人類相比,在定量推理方面,語言模型的差距還很大。想讓語言模型能夠解決數(shù)學(xué)和科學(xué)類問題,語言模型還需要掌握各種綜合技能,這些技能包括模型能夠利用自然語言和數(shù)學(xué)符號正確解析問題、可以準(zhǔn)確利用相關(guān)公式和常數(shù)、以及生成涉及數(shù)值計算和符號操作的解決方案。
但這些都面臨著挑戰(zhàn),人們通常認(rèn)為,使用機(jī)器學(xué)習(xí)來解決定量推理問題,需要在模型架構(gòu)和訓(xùn)練技術(shù)方面取得顯著進(jìn)步,這樣一來允許模型訪問外部工具,如 Python 解釋器。
在 Google Research 提交的這篇論文中,他們推出了語言模型 Minerva,該模型能夠解決數(shù)學(xué)和科學(xué)問題,讓模型一步一步來。通過收集與定量推理問題相關(guān)的訓(xùn)練數(shù)據(jù)、大規(guī)模訓(xùn)練模型,以及使用先進(jìn)的推理技術(shù),該研究在各種較難的定量推理任務(wù)上取得了顯著的性能提升。
論文地址:https://storage.googleapis.com/minerva-paper/minerva_paper.pdf
Minerva:不僅會數(shù)學(xué),物理、化學(xué)也難不倒
Minerva 通過生成解決方案來解決問題,解決方案包括數(shù)值計算、符號操作,而不需要依賴計算器等外部工具。Minerva 將自然語言和數(shù)學(xué)符號進(jìn)行結(jié)合來解析和回答數(shù)學(xué)問題。此外,Minerva 還結(jié)合了多種技術(shù),包括小樣本提示、思維鏈、暫存器提示以及多數(shù)投票原則,從而在 STEM 推理任務(wù)上實現(xiàn) SOTA 性能。
此次,谷歌還提供了交互式示例瀏覽器來探索 Minerva 的輸出!從 Minerva 瀏覽器界面可以看出,Minerva 不僅可以解決代數(shù)問題,還能解決物理、數(shù)論、幾何、生物、化學(xué)、天文學(xué)等眾多問題。
試用地址:https://minerva-demo.github.io/#category=Algebra&index=1
下面是 Minerva 解決幾何問題,立方體的每個邊都是 3 英寸長,求立方體的總表面積是多少平方英寸?模型回答:由于立方體有 6 個面,每個面是一個邊長為 3 英寸的正方形,總表面積為 (6)(3)^2=54。
Minerva 解決數(shù)學(xué)問題:平行于 y=4x+6 的線,且穿過 (5,10)。問這條線與 y 軸相交的點的 y 坐標(biāo)是多少?下面是 Minerva 解答過程:
定量推理,讓模型一步一步來
Minerva 建立在 PaLM(Pathways Language Model ) 的基礎(chǔ)上,在 118GB 數(shù)據(jù)集上進(jìn)一步訓(xùn)練完成,數(shù)據(jù)集來自 arXiv 上關(guān)于科技方面的論文以及包含使用 LaTeX、MathJax 或其他數(shù)學(xué)表達(dá)式的網(wǎng)頁的數(shù)據(jù)進(jìn)行進(jìn)一步訓(xùn)練。訓(xùn)練之后模型學(xué)會使用標(biāo)準(zhǔn)數(shù)學(xué)符號進(jìn)行對話。
下表 2 包含了 Minerva 主要的模型和訓(xùn)練超參數(shù),最大的模型具有 540B 參數(shù),在 26B token 上進(jìn)行了微調(diào)。
Minerva 語言模型的不同變體,包括 8B,62B 和 540B。
下圖為印度高中學(xué)生參加的 2020 年聯(lián)合入學(xué)數(shù)學(xué)考試(左),這個考試每年有近 200 萬參加;波蘭國家數(shù)學(xué)考試(2022 年 5 月)(右),每年約有 27 萬高中生參加。以下是 Minerva 答題過程,就像考生一樣,分步計算答案:
下圖為用于定量推理的數(shù)據(jù)集:研究者在數(shù)據(jù)處理過程中保留了數(shù)學(xué)信息,使模型能夠在更高的水平上學(xué)習(xí)數(shù)學(xué)。
Minerva 還結(jié)合了最新的提示和評估技術(shù),以更好地解決數(shù)學(xué)問題,包括思維鏈或 scratchpad 提示。
在回答新問題之前,Minerva 會將解決方案進(jìn)行分解,進(jìn)行多數(shù)投票。像大多數(shù)語言模型一樣,Minerva 將可能輸出分配不同的概率。在回答問題時,Minerva 不是將單個解決方案得分視為最有可能,而是通過從所有可能的輸出中隨機(jī)抽樣來生成多個解決方案。這些解決方案是不同的(例如,步驟不相同),但通常會得出相同的最終答案。Minerva 對這些解決方案使用多數(shù)投票,將最常見的結(jié)果作為最終答案。
多數(shù)投票 Minerva 為每個問題生成多個解決方案,并選擇最常見的答案作為解決方案,顯著提高性能。
STEM 基準(zhǔn)評估結(jié)果
為了測試 Minerva 的定量推理能力,谷歌在不同的 STEM 基準(zhǔn)上進(jìn)行了評估,覆蓋從小學(xué)水平的問題到研究生水平的課程。使用的基準(zhǔn)數(shù)據(jù)集包括如下:
- MATH:高中數(shù)學(xué)競賽水平的問題;
- MMLU-STEM:大規(guī)模多任務(wù)語言理解(MMLU)基準(zhǔn)中專注于 STEM 的子集,涵蓋了高中和大學(xué)級別的工程、化學(xué)、數(shù)學(xué)和物理等;
- GSM8k:小學(xué)水平的數(shù)學(xué)題,包括基礎(chǔ)算數(shù)運(yùn)算等。
此外,谷歌還在 OCWCourses 上評估了 Minerva,這是一個大學(xué)和研究生水平的問題集合,涵蓋了從 MIT OpenCourseWare 中收集的固態(tài)化學(xué)、天文學(xué)、微分方程和狹義相對論等各種 STEM 主題。
結(jié)果表明,在所有數(shù)據(jù)集的評估中,Minerva 都實現(xiàn)了 SOTA 結(jié)果,有時甚至是大幅提升。
下圖為 MATH 和 MMLU-STEM 上的評估結(jié)果,其中高中和大學(xué)級別的問題涵蓋了一系列 STEM 主題??梢钥吹剑琈inerva 62B 和 Minerva 540B 在 MATH 上的準(zhǔn)確率均高于已有 SOTA,Minerva 540B 在 MMLU-STEM 上均高于已有 SOTA。
總體來看,Minerva 540B 在小學(xué)、高中和大學(xué)級別的 STEM 評估數(shù)據(jù)集上,均取得了顯著優(yōu)于已有 SOTA 的結(jié)果。
與 PaLM 8B、62B 和 540B 的更詳細(xì)比較結(jié)果如下表所示。
谷歌研究科學(xué)家、論文作者之一 Aitor Lewkowycz 給出了更具體的評估示例。他們在 2022 年波蘭國家數(shù)學(xué)考試中對 Minerva 進(jìn)行了評估,它解決了 80% 以上的 GCSE 高等數(shù)學(xué)問題,評估了 MIT 的各種本科級別的 STEM 問題并解決了其中的近三分之一。
Minerva 也會出錯
不過,Minerva 仍然犯了很多錯誤。為了更好地確認(rèn)模型可以改進(jìn)的領(lǐng)域,谷歌分析了模型出錯的問題樣本,發(fā)現(xiàn)大多數(shù)錯誤很容易解釋。結(jié)果表明,大約一半是計算錯誤,另一半是推理誤差,原因是解決步驟沒有遵循邏輯思考鏈。
錯誤類型。
同時,Minerva 也有可能得出正確的最終答案,但推理依然錯誤。谷歌將這種情況稱為「誤報」,因為它們被錯誤地計入到了模型的整體性能得分。分析結(jié)果顯示,誤報率相對較低,Minerva 62B 在 MATH 數(shù)據(jù)集上的平均誤報率低于 8%。
谷歌提供了 Minerva 出錯的一些樣本示例。比如下圖中的計算錯誤,模型錯誤地消去了方程兩邊的平方根。
下圖為推理錯誤,模型在第四次練習(xí)中計算了罰球次數(shù),但之后卻將這一數(shù)字作為第一次練習(xí)的最終答案。
局限性及未來改進(jìn)方向
谷歌的定量推理方法并不是以形式數(shù)學(xué)為基礎(chǔ)。Minerva 使用自然語言和 LaTeX 數(shù)學(xué)表達(dá)式的組合來解析問題并生成答案,沒有明確的底層數(shù)學(xué)結(jié)構(gòu)。
因此,這種方法存在一個重要局限,模型的答案無法獲得自動驗證。即使最終答案已知并且可以驗證,模型也可以使用錯誤的推理步驟得出正確的最終答案,而這無法自動檢測到。這種局限在 Coq、Isabelle、HOL、Lean、Metamath 和 Mizar 等形式化定理證明方法中不存在。
另一方面,非形式方法的一個優(yōu)勢是它可以應(yīng)用在高度多樣化的問題中。
未來,谷歌希望能夠解決定量推理問題的通用模型推動科學(xué)和教育的前沿發(fā)展。定量推理模型具有很多潛在的應(yīng)用,包括為研究人員提供有用的幫助,為學(xué)生提供新的學(xué)習(xí)機(jī)會。Minerva 模型朝著這些目標(biāo)邁出了一小步。
https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html
馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生