亚洲中文字幕无码日韩精品,亚洲一区制服无码中字,亚洲精品第一国产综合精品99 ,一本大道中文日本香蕉

微立頂科技

新聞資訊

創(chuàng)新 服務(wù) 價值

  覆蓋200+服務(wù)場景,阿里通義大模型系列打造國內(nèi)首個AI統(tǒng)一底座

發(fā)布日期:2022/9/5 9:42:57      瀏覽量:

機器之心原創(chuàng)

作者:杜偉

在大模型領(lǐng)域,阿里持續(xù)發(fā)力,用技術(shù)和思路創(chuàng)新走出一條不一樣的路。

時至今日,大模型已經(jīng)成為整個 AI 產(chǎn)學(xué)界追逐的技術(shù)「寵兒」,煉大模型如火如荼,各式各樣參數(shù)不一、任務(wù)導(dǎo)向不同的大模型層出不窮。大模型具備效果好、泛化能力強等特點,進一步增強了 AI 的通用性,成為 AI 技術(shù)和應(yīng)用的新基座。

具體到 NLP、CV 領(lǐng)域,基于文本、圖像、語音和視頻等單一模態(tài)的大模型在各自下游任務(wù)上不斷取得 SOTA 結(jié)果,有時甚至超越人類表現(xiàn)。單模態(tài)單任務(wù)似乎走到了極致。同時現(xiàn)實世界中的這些模態(tài)并不總是獨立存在,更多地是以跨模態(tài)的形式出現(xiàn)。

基于這些,預(yù)訓(xùn)練大模型逐漸朝著大一統(tǒng)方向發(fā)展,希望單個模型能夠同時處理文本、圖像、音頻、視頻等多模態(tài)任務(wù),即使現(xiàn)有模型無法做到也要留出能力空間。

目前,業(yè)界已經(jīng)出現(xiàn)一些能夠處理多模態(tài)任務(wù)的通用模型,比如 DeepMind 的通用圖文模型 Flamingo 和通才智能體 Gato,MSRA 的 BEiT-3 等。這些都展現(xiàn)出了大模型突破單一模態(tài)和單一任務(wù)的巨大潛力,但在實現(xiàn)全模態(tài)全任務(wù)的通用性上依然面臨技術(shù)難點。大模型的訓(xùn)練與落地應(yīng)用也受到算力限制。

在國內(nèi),阿里達(dá)摩院一直以來深耕多模態(tài)預(yù)訓(xùn)練,并率先探索通用統(tǒng)一大模型。去年,阿里達(dá)摩院先后發(fā)布多個版本的多模態(tài)及語言大模型,在超大模型、低碳訓(xùn)練技術(shù)、平臺化服務(wù)、落地應(yīng)用等方面實現(xiàn)突破。其中使用 512 卡 V100 GPU 實現(xiàn)全球最大規(guī)模 10 萬億參數(shù)多模態(tài)大模型 M6,同等參數(shù)規(guī)模能耗僅為此前業(yè)界標(biāo)桿的 1%,極大降低大模型訓(xùn)練門檻。

阿里探索大模型通用性及易用性的努力并沒有止步于此。9 月 2 日,在阿里達(dá)摩院主辦的世界人工智能大會「大規(guī)模預(yù)訓(xùn)練模型」主題論壇上,阿里巴巴資深副總裁、達(dá)摩院副院長周靖人發(fā)布阿里巴巴最新「通義」大模型系列,其打造了國內(nèi)首個 AI 統(tǒng)一底座,并構(gòu)建了通用與專業(yè)模型協(xié)同的層次化人工智能體系,將為 AI 從感知智能邁向知識驅(qū)動的認(rèn)知智能提供先進基礎(chǔ)設(shè)施。


為了實現(xiàn)大模型的融會貫通,阿里達(dá)摩院在國內(nèi)率先構(gòu)建 AI 統(tǒng)一底座,在業(yè)界首次實現(xiàn)模態(tài)表示、任務(wù)表示、模型結(jié)構(gòu)的統(tǒng)一。通過這種統(tǒng)一學(xué)習(xí)范式,通義統(tǒng)一底座中的單一 M6-OFA 模型,在不引入任何新增結(jié)構(gòu)的情況下,可同時處理圖像描述、視覺定位、文生圖、視覺蘊含、文檔摘要等 10 余項單模態(tài)和跨模態(tài)任務(wù),并達(dá)到國際領(lǐng)先水平。這一突破最大程度打通了 AI 的感官,受到學(xué)界和工業(yè)界廣泛關(guān)注。近期 M6-OFA 完成升級后可處理超過 30 種跨模態(tài)任務(wù)。

通義統(tǒng)一底座中的另一組成部分是模塊化設(shè)計,它借鑒了人腦模塊化設(shè)計,以場景為導(dǎo)向靈活拆拔功能模塊,實現(xiàn)高效率和高性能。

周靖人表示,「大模型模仿了人類構(gòu)建認(rèn)知的過程,通過融合 AI 在語言、語音、視覺等不同模態(tài)和領(lǐng)域的知識體系,我們期望多模態(tài)大模型能成為下一代人工智能算法的基石,讓 AI 從只能使用‘單一感官’到‘五官全開’,且能調(diào)用儲備豐富知識的大腦來理解世界和思考,最終實現(xiàn)接近人類水平的認(rèn)知智能。」

阿里達(dá)摩院構(gòu)建 AI 統(tǒng)一底座

M6-OFA 模型實現(xiàn)架構(gòu)、模態(tài)和任務(wù)統(tǒng)一

通義統(tǒng)一底座中統(tǒng)一學(xué)習(xí)范式的實現(xiàn)背后離不開阿里達(dá)摩院的多模態(tài)統(tǒng)一底座模型 M6-OFA,相關(guān)研究被 ICML 2022 接收,代碼、模型和交互式服務(wù)也已開源。


  • 論文地址:https://arxiv.org/pdf/2202.03052.pdf
  • 開源地址:https://github.com/OFA-Sys/OFA
  • 交互式 Demo 地址:https://huggingface.co/OFA-Sys

先來看架構(gòu)統(tǒng)一。M6-OFA 整體采用了經(jīng)典的 Transformer Encoder-Decoder,外加一個 ResNet Blocks。通過這種架構(gòu)完成所有任務(wù),讓預(yù)訓(xùn)練和微調(diào)采用相同的學(xué)習(xí)模式,無需增加任何任務(wù)特定的模型層。

如下圖所示,ResNet Blocks 用于提取圖像特征,Transformer Encoder 負(fù)責(zé)多模態(tài)特征的交互,Transformer Decoder 采用自回歸方式輸出結(jié)果。

對于模態(tài)統(tǒng)一,M6-OFA 構(gòu)建了一個涵蓋不同模態(tài)的通用詞表,以便模型使用該詞表表示不同任務(wù)的輸出結(jié)果。其中 BPE 編碼的自然語言 token 用于表示文本類任務(wù)或圖文類任務(wù)的數(shù)據(jù);圖片中連續(xù)的橫縱坐標(biāo)編碼為離散化 token,用于表示視覺定位、物體檢測的數(shù)據(jù);圖片中的像素點信息編碼為離散化 token,用于表示圖片生成、圖片補全等任務(wù)的數(shù)據(jù)。

最后是任務(wù)統(tǒng)一,通過設(shè)計不同的 instruction,M6-OFA 將涉及多模態(tài)和單模態(tài)(即 NLP 和 CV)的所有任務(wù)都統(tǒng)一建模成序列到序列(seq2seq)任務(wù)。M6-OFA 覆蓋了 5 項多模態(tài)任務(wù),分別為視覺定位、定位字幕、圖文匹配、圖像字幕和視覺問答(VQA);2 項視覺任務(wù),分別為檢測和圖像填補;1 項文本任務(wù),即文本填補。

今年 2 月,M6-OFA 統(tǒng)一多模態(tài)模型在一系列視覺語言任務(wù)中實現(xiàn)了 SOTA 性能,在 Image Caption 任務(wù)取得最優(yōu)表現(xiàn),長期在 MSCOCO 榜單排名第一;在視覺定位任務(wù)中的 RefCOCO、RefCOCO + 和 RefCOCOg 三個數(shù)據(jù)集均取得最優(yōu)表現(xiàn),以及在視覺推理任務(wù)的數(shù)據(jù)集 SNLI-VE 上取得第一。OFA 的 VQA 分?jǐn)?shù)達(dá)到 82.0,效果名列前茅。文本生成圖像(text2Image)在 COCO 數(shù)據(jù)集上超越了此前基線模型,當(dāng)時的 Case 對比也優(yōu)于 GLIDE 和 CogView。并且,OFA 模型展現(xiàn)出一定的零樣本學(xué)習(xí)新任務(wù)的能力。

下圖展示了 M6-OFA 的 text2Image 和 VQA 任務(wù)的跨模態(tài)生成結(jié)果。


在更大規(guī)模的文生圖的數(shù)據(jù)進行微調(diào)后,模型也取得了通用領(lǐng)域文生圖任務(wù)的優(yōu)異表現(xiàn),尤其擅長藝術(shù)創(chuàng)作,如下圖所示:

借鑒人腦的模塊化設(shè)計

目前業(yè)界普遍認(rèn)為,人腦本身由不同的模塊組成,大腦中擁有儲備各種知識和處理不同模態(tài)信息的能力模塊,人類思考時只調(diào)用與特定任務(wù)相關(guān)的模塊,正這種機制保證了人腦的高速運行。通義統(tǒng)一底座的另一組成部分「模塊化設(shè)計」正是借鑒了這種運行機制。

具體而言,模塊化大一統(tǒng)模型采用模塊化 Transformer Encoder-Decoder 結(jié)構(gòu)來統(tǒng)一多模態(tài)的理解和生成,同時切分出不同的獨立模塊,包括基礎(chǔ)層、通用層(如不同模態(tài))、任務(wù)層到功能性模塊(如推理),每個模塊間相互解耦,各司其職。

達(dá)摩院團隊為何會探索這種模塊化設(shè)計思路呢?現(xiàn)在大規(guī)模預(yù)訓(xùn)練的 Transformer-based 模型雖然能夠很好地解決感知智能相關(guān)任務(wù),但缺乏精心設(shè)計的純 Transformer 模型基本無法完成對于實現(xiàn)認(rèn)知智能的嘗試。借鑒人腦的模塊化設(shè)計成為一種可能通向成功的思路。

在單一 NLP 模塊中,最底層為數(shù)據(jù)表示層,中間層為 Transformer 基礎(chǔ)語義表示模塊,最上層則是對整個下游劃分為不同的任務(wù)模塊;而對于多模態(tài)的模塊化,其模態(tài)模塊涵蓋語言、視覺、音頻和視頻——底部輸入層接收各自模態(tài)信息,中間層通過跨模態(tài)信息融合學(xué)習(xí)統(tǒng)一語義表示,往上再劃分為針對不同模態(tài)的具體下游任務(wù)。

針對不同類型的下游任務(wù),模塊化模型可靈活拆拔不同模塊進行微調(diào)或者進行繼續(xù)預(yù)訓(xùn)練。通過這種方式,大模型能夠?qū)崿F(xiàn)輕量化,并取得較好的微調(diào)效果,單模態(tài)、多模態(tài)任務(wù)水平均能得到提升。

基于統(tǒng)一底座打造層次化模型系列

大模型最終是要實現(xiàn)落地,滿足各行各業(yè)的應(yīng)用需求。因此,阿里達(dá)摩院基于其 AI 統(tǒng)一底座構(gòu)建了通用模型與專業(yè)模型協(xié)同的層次化人工智能體系。

下圖為通義大模型整體架構(gòu),最底層為統(tǒng)一模型底座,中間基于底座的通用模型層覆蓋了通義 - M6、通義 - AliceMind 和通義 - 視覺,專業(yè)模型層深入電商、醫(yī)療、娛樂、設(shè)計、金融等行業(yè)。

通義 - M6 已經(jīng)從 2020 年 6 月的 3 億參數(shù)基礎(chǔ)模型發(fā)展到 2021 年 10 月的 10 萬億參數(shù)全球最大預(yù)訓(xùn)練模型到 2022 年 1 月的業(yè)界首個通用統(tǒng)一大模型 M6-OFA。

通義 - AliceMind 是阿里達(dá)摩院開源的深度語言模型體系,包含了通用語言模型 StructBERT、生成式 PALM、結(jié)構(gòu)化 StructuralLM、超大中文 PLUG 、多模態(tài) StructVBERT、多語言 VECO、對話 SPACE 1.0/2.0/3.0 和表格 STAR 1.0/2.0,過程中形成了從文本 PLUG 到多模態(tài) mPLUG 再到模塊化統(tǒng)一模型演化趨勢。

近日,基于 AliceMind/StructBERT 模型結(jié)果在中文語言理解測評基礎(chǔ) CLUE 上獲得了三榜第一,分別是分類榜單、機器閱讀理解榜單和總榜單。

通義 - 視覺大模型自下往上分為了底層統(tǒng)一算法架構(gòu)、中層通用算法和上層產(chǎn)業(yè)應(yīng)用。據(jù)了解,通用 - 視覺大模型可以在電商行業(yè)實現(xiàn)圖像搜索和萬物識別等場景應(yīng)用,并在文生圖以及交通和自動駕駛領(lǐng)域發(fā)揮作用。

阿里始終秉持開源開放的理念。此次通義大模型系列中語言大模型 AliceMind-PLUG、多模態(tài)理解與生成統(tǒng)一模型 AliceMind-mPLUG、多模態(tài)統(tǒng)一底座模型 M6-OFA、超大模型落地關(guān)鍵技術(shù) S4 框架等核心模型及能力已面向全球開發(fā)者開源,最新文生圖大模型近期將開放體驗。其中, 270 億參數(shù)版 AliceMind-PLUG 是目前規(guī)模最大的開源語言大模型。

開源鏈接:

  • https://github.com/alibaba/AliceMind/
  • https://github.com/OFA-Sys/OFA

協(xié)同并不容易做到

通過通用與專業(yè)領(lǐng)域大小模型的協(xié)同,阿里達(dá)摩院讓通義大模型系列兼顧了效果最優(yōu)化與低成本落地。然而實現(xiàn)這一切并不容易。

回到通義的設(shè)計思路,即通過一個統(tǒng)一的底座模型同時做單模態(tài)和跨模態(tài)任務(wù),在多模態(tài)任務(wù)上取得 SOTA 效果的同時也能處理單模態(tài)任務(wù)。不過,既然希望模型更通用以覆蓋更多模態(tài)及下游任務(wù),則需要高效地將統(tǒng)一底座下沉到具體場景中的專用模型。這正是模型底座、通用模型與下游專業(yè)模型協(xié)同的關(guān)鍵。

受算力資源限制,大模型行業(yè)落地不易。近一兩年,業(yè)界也提出了一些落地思路,即先打造一個基礎(chǔ)大模型,再繼續(xù)訓(xùn)練得到領(lǐng)域模型,最后通過微調(diào)構(gòu)建具體行業(yè)任務(wù)模型。通義也要走通這樣的路,不過希望通過新的大模型架構(gòu)設(shè)計將這一過程做到更快和更高效。

可以這么說,無論是 seq2seq 統(tǒng)一學(xué)習(xí)范式還是模塊化設(shè)計思路,阿里達(dá)摩院都希望對整個模型架構(gòu)和統(tǒng)一底座有更深的理解。尤其是模塊化思路,通過細(xì)分為很多個模塊并知道它們能做什么,則真正可以在下游得到很高效且通用性很好的行業(yè)應(yīng)用小模型。

目前,通過部署超大模型的輕量化及專業(yè)模型版本,通義大模型已在超過 200 個場景中提供服務(wù),實現(xiàn)了 2%~10% 的應(yīng)用效果提升。

比如,通義大模型在淘寶服飾類搜索場景中實現(xiàn)了以文搜圖的跨模態(tài)搜索、在 AI 輔助審判中司法卷宗的事件抽取、文書分類等場景任務(wù)中實現(xiàn) 3~5% 的應(yīng)用效果提升、在開放域人機對話領(lǐng)域通過建立初步具備「知識、情感以及個性、記憶」的中文開放域?qū)υ挻竽P蛯崿F(xiàn)了主動對話、廣泛話題、緊跟熱點等對話體驗。

此外,通義大模型在 AI 輔助設(shè)計、醫(yī)療文本理解等其他領(lǐng)域也有豐富的應(yīng)用場景。我們來看一組通義大模型在文生圖領(lǐng)域的效果展示。比如文藝復(fù)興時期皇家花栗鼠肖像畫:

中國風(fēng) - 山中建筑:

以及中國風(fēng)學(xué)習(xí)中的小貓:

周靖人表示,對達(dá)摩院來說一直以來重點都不是把模型的規(guī)模做大,而是通過一系列的前沿研究和實踐沉淀更通用更易用的大模型底層技術(shù)。現(xiàn)階段,阿里達(dá)摩院希望將底座做得更實,將更多模態(tài)和任務(wù)考慮到統(tǒng)一模型范疇內(nèi),通過減少 AI 模型在實際場景落地中的定制化成本,真正體現(xiàn)出大模型的效果。

與此同時,在打造大模型統(tǒng)一底座的基礎(chǔ)上,阿里希望通過開源開放,與外界用戶和合作方自己共創(chuàng)下游應(yīng)用。

參考鏈接:https://blog.csdn.net/AlibabaTech1024/article/details/125215198



  業(yè)務(wù)實施流程

需求調(diào)研 →

團隊組建和動員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓(xùn)

售后服務(wù)

馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     聯(lián)系人:石先生/雷先生