免费观看潮喷到高潮大叫网站,亚洲中文字幕日产乱码在线,亚洲欧美色综合影院

人工智能學(xué)會數(shù)學(xué)推理了，考試成績比CS博士還高

發(fā)布日期：2022/7/4 14:10:48 瀏覽量：

機(jī)器之心報道

編輯：杜偉、陳萍

這是語言模型推理能力的一個重要里程碑。

AI 在數(shù)學(xué)方面也有超越人類的趨勢了？

昨天，谷歌提交的一篇論文引發(fā)了機(jī)器學(xué)習(xí)圈的關(guān)注，其提出的語言模型學(xué)會了人類做數(shù)學(xué)題時的方法「一步一步推理」。

在 MATH 數(shù)據(jù)集上，谷歌的新模型能實現(xiàn) 50% 的準(zhǔn)確率——此前對人類的評測結(jié)果是：「一個不特別喜歡數(shù)學(xué)的計算機(jī)科學(xué)博士生能答對大約 40%，而三屆國際數(shù)學(xué)奧林匹克競賽（IMO）金牌得主能達(dá)到 90%?！?

語言模型在各種 NLP 任務(wù)上都表現(xiàn)出了卓越的性能。事實上，在眾多研究中科研人員總結(jié)出一條經(jīng)驗，即以無監(jiān)督方式在大規(guī)模不同數(shù)據(jù)上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)，在不同任務(wù)上表現(xiàn)更好。這條經(jīng)驗也適用于 BERT、GPT-3、Gopher 和 PaLM 在內(nèi)的模型。

和人類相比，在定量推理方面，語言模型的差距還很大。想讓語言模型能夠解決數(shù)學(xué)和科學(xué)類問題，語言模型還需要掌握各種綜合技能，這些技能包括模型能夠利用自然語言和數(shù)學(xué)符號正確解析問題、可以準(zhǔn)確利用相關(guān)公式和常數(shù)、以及生成涉及數(shù)值計算和符號操作的解決方案。

但這些都面臨著挑戰(zhàn)，人們通常認(rèn)為，使用機(jī)器學(xué)習(xí)來解決定量推理問題，需要在模型架構(gòu)和訓(xùn)練技術(shù)方面取得顯著進(jìn)步，這樣一來允許模型訪問外部工具，如 Python 解釋器。

在 Google Research 提交的這篇論文中，他們推出了語言模型 Minerva，該模型能夠解決數(shù)學(xué)和科學(xué)問題，讓模型一步一步來。通過收集與定量推理問題相關(guān)的訓(xùn)練數(shù)據(jù)、大規(guī)模訓(xùn)練模型，以及使用先進(jìn)的推理技術(shù)，該研究在各種較難的定量推理任務(wù)上取得了顯著的性能提升。

論文地址：https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

Minerva：不僅會數(shù)學(xué)，物理、化學(xué)也難不倒

Minerva 通過生成解決方案來解決問題，解決方案包括數(shù)值計算、符號操作，而不需要依賴計算器等外部工具。Minerva 將自然語言和數(shù)學(xué)符號進(jìn)行結(jié)合來解析和回答數(shù)學(xué)問題。此外，Minerva 還結(jié)合了多種技術(shù)，包括小樣本提示、思維鏈、暫存器提示以及多數(shù)投票原則，從而在 STEM 推理任務(wù)上實現(xiàn) SOTA 性能。

此次，谷歌還提供了交互式示例瀏覽器來探索 Minerva 的輸出！從 Minerva 瀏覽器界面可以看出，Minerva 不僅可以解決代數(shù)問題，還能解決物理、數(shù)論、幾何、生物、化學(xué)、天文學(xué)等眾多問題。

試用地址：https://minerva-demo.github.io/#category=Algebra&index=1

下面是 Minerva 解決幾何問題，立方體的每個邊都是 3 英寸長，求立方體的總表面積是多少平方英寸？模型回答：由于立方體有 6 個面，每個面是一個邊長為 3 英寸的正方形，總表面積為 (6)(3)^2=54。

Minerva 解決數(shù)學(xué)問題：平行于 y=4x+6 的線，且穿過 (5,10)。問這條線與 y 軸相交的點的 y 坐標(biāo)是多少？下面是 Minerva 解答過程：

定量推理，讓模型一步一步來

Minerva 建立在 PaLM（Pathways Language Model ）的基礎(chǔ)上，在 118GB 數(shù)據(jù)集上進(jìn)一步訓(xùn)練完成，數(shù)據(jù)集來自 arXiv 上關(guān)于科技方面的論文以及包含使用 LaTeX、MathJax 或其他數(shù)學(xué)表達(dá)式的網(wǎng)頁的數(shù)據(jù)進(jìn)行進(jìn)一步訓(xùn)練。訓(xùn)練之后模型學(xué)會使用標(biāo)準(zhǔn)數(shù)學(xué)符號進(jìn)行對話。

打開網(wǎng)易新聞查看更多圖片

下表 2 包含了 Minerva 主要的模型和訓(xùn)練超參數(shù)，最大的模型具有 540B 參數(shù)，在 26B token 上進(jìn)行了微調(diào)。

Minerva 語言模型的不同變體，包括 8B，62B 和 540B。

下圖為印度高中學(xué)生參加的 2020 年聯(lián)合入學(xué)數(shù)學(xué)考試（左），這個考試每年有近 200 萬參加；波蘭國家數(shù)學(xué)考試（2022 年 5 月）（右），每年約有 27 萬高中生參加。以下是 Minerva 答題過程，就像考生一樣，分步計算答案：

下圖為用于定量推理的數(shù)據(jù)集：研究者在數(shù)據(jù)處理過程中保留了數(shù)學(xué)信息，使模型能夠在更高的水平上學(xué)習(xí)數(shù)學(xué)。

Minerva 還結(jié)合了最新的提示和評估技術(shù)，以更好地解決數(shù)學(xué)問題，包括思維鏈或 scratchpad 提示。

在回答新問題之前，Minerva 會將解決方案進(jìn)行分解，進(jìn)行多數(shù)投票。像大多數(shù)語言模型一樣，Minerva 將可能輸出分配不同的概率。在回答問題時，Minerva 不是將單個解決方案得分視為最有可能，而是通過從所有可能的輸出中隨機(jī)抽樣來生成多個解決方案。這些解決方案是不同的（例如，步驟不相同），但通常會得出相同的最終答案。Minerva 對這些解決方案使用多數(shù)投票，將最常見的結(jié)果作為最終答案。

多數(shù)投票 Minerva 為每個問題生成多個解決方案，并選擇最常見的答案作為解決方案，顯著提高性能。

STEM 基準(zhǔn)評估結(jié)果

為了測試 Minerva 的定量推理能力，谷歌在不同的 STEM 基準(zhǔn)上進(jìn)行了評估，覆蓋從小學(xué)水平的問題到研究生水平的課程。使用的基準(zhǔn)數(shù)據(jù)集包括如下：

MATH：高中數(shù)學(xué)競賽水平的問題；
MMLU-STEM：大規(guī)模多任務(wù)語言理解（MMLU）基準(zhǔn)中專注于 STEM 的子集，涵蓋了高中和大學(xué)級別的工程、化學(xué)、數(shù)學(xué)和物理等；
GSM8k：小學(xué)水平的數(shù)學(xué)題，包括基礎(chǔ)算數(shù)運(yùn)算等。

此外，谷歌還在 OCWCourses 上評估了 Minerva，這是一個大學(xué)和研究生水平的問題集合，涵蓋了從 MIT OpenCourseWare 中收集的固態(tài)化學(xué)、天文學(xué)、微分方程和狹義相對論等各種 STEM 主題。

結(jié)果表明，在所有數(shù)據(jù)集的評估中，Minerva 都實現(xiàn)了 SOTA 結(jié)果，有時甚至是大幅提升。

下圖為 MATH 和 MMLU-STEM 上的評估結(jié)果，其中高中和大學(xué)級別的問題涵蓋了一系列 STEM 主題?？梢钥吹剑琈inerva 62B 和 Minerva 540B 在 MATH 上的準(zhǔn)確率均高于已有 SOTA，Minerva 540B 在 MMLU-STEM 上均高于已有 SOTA。

總體來看，Minerva 540B 在小學(xué)、高中和大學(xué)級別的 STEM 評估數(shù)據(jù)集上，均取得了顯著優(yōu)于已有 SOTA 的結(jié)果。

與 PaLM 8B、62B 和 540B 的更詳細(xì)比較結(jié)果如下表所示。

谷歌研究科學(xué)家、論文作者之一 Aitor Lewkowycz 給出了更具體的評估示例。他們在 2022 年波蘭國家數(shù)學(xué)考試中對 Minerva 進(jìn)行了評估，它解決了 80% 以上的 GCSE 高等數(shù)學(xué)問題，評估了 MIT 的各種本科級別的 STEM 問題并解決了其中的近三分之一。

Minerva 也會出錯

不過，Minerva 仍然犯了很多錯誤。為了更好地確認(rèn)模型可以改進(jìn)的領(lǐng)域，谷歌分析了模型出錯的問題樣本，發(fā)現(xiàn)大多數(shù)錯誤很容易解釋。結(jié)果表明，大約一半是計算錯誤，另一半是推理誤差，原因是解決步驟沒有遵循邏輯思考鏈。

錯誤類型。

同時，Minerva 也有可能得出正確的最終答案，但推理依然錯誤。谷歌將這種情況稱為「誤報」，因為它們被錯誤地計入到了模型的整體性能得分。分析結(jié)果顯示，誤報率相對較低，Minerva 62B 在 MATH 數(shù)據(jù)集上的平均誤報率低于 8%。

谷歌提供了 Minerva 出錯的一些樣本示例。比如下圖中的計算錯誤，模型錯誤地消去了方程兩邊的平方根。

下圖為推理錯誤，模型在第四次練習(xí)中計算了罰球次數(shù)，但之后卻將這一數(shù)字作為第一次練習(xí)的最終答案。

局限性及未來改進(jìn)方向

谷歌的定量推理方法并不是以形式數(shù)學(xué)為基礎(chǔ)。Minerva 使用自然語言和 LaTeX 數(shù)學(xué)表達(dá)式的組合來解析問題并生成答案，沒有明確的底層數(shù)學(xué)結(jié)構(gòu)。

因此，這種方法存在一個重要局限，模型的答案無法獲得自動驗證。即使最終答案已知并且可以驗證，模型也可以使用錯誤的推理步驟得出正確的最終答案，而這無法自動檢測到。這種局限在 Coq、Isabelle、HOL、Lean、Metamath 和 Mizar 等形式化定理證明方法中不存在。

另一方面，非形式方法的一個優(yōu)勢是它可以應(yīng)用在高度多樣化的問題中。

未來，谷歌希望能夠解決定量推理問題的通用模型推動科學(xué)和教育的前沿發(fā)展。定量推理模型具有很多潛在的應(yīng)用，包括為研究人員提供有用的幫助，為學(xué)生提供新的學(xué)習(xí)機(jī)會。Minerva 模型朝著這些目標(biāo)邁出了一小步。

https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

業(yè)務(wù)實施流程

需求調(diào)研 →

團(tuán)隊組建和動員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運(yùn)行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓(xùn)

售后服務(wù)

馬上咨詢： 如果您有業(yè)務(wù)方面的問題或者需求，歡迎您咨詢！我們帶來的不僅僅是技術(shù)，還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人：石先生/雷先生

亚洲中文字幕无码日韩精品,亚洲一区制服无码中字,亚洲精品第一国产综合精品99 ,一本大道中文日本香蕉

人工智能學(xué)會數(shù)學(xué)推理了，考試成績比CS博士還高

人工智能學(xué)會數(shù)學(xué)推理了，考試成績比CS博士還高