日本真人做爰片在线,黑人巨大精品欧美视频一区

谷歌再次發(fā)布文字生成圖像模型，新系統(tǒng)Parti根據(jù)文本輸出各種風格、更高質量圖像

發(fā)布日期：2022/7/6 10:33:25 瀏覽量：

近日，谷歌介紹了一種自回歸文本到圖像生成模型 Parti（Pathways Autoregressive Text-to-Image model），可實現(xiàn)高保真照片級圖像輸出，并支持涉及復雜構圖和豐富知識內容的合成。

比如，用文字描述“一只浣熊穿著正裝，拿著拐杖和垃圾袋”和“老虎戴著火車售票員的帽子，拿著一塊帶有陰陽符號的滑板”，就能分別生成類似如下圖片。

（來源：谷歌）

除了細節(jié)栩栩如生外，對于各種風格，Parti 也是駕輕就熟，能夠根據(jù)描述生成梵高、抽象立體主義、埃及墓象形文字、插圖、雕像、木刻、兒童蠟筆畫、中國水墨畫等多種多樣風格的畫作。

6 月 22 日，相關研究論文以《縮放自回歸模型以實現(xiàn)內容豐富的文本到圖像生成》（）提交在 arXiv 上。

研究人員在谷歌官方博文表示：“用 Parti 輸出圖像是一個序列到序列的建模問題，與機器翻譯相似。因此可受益于大語言模型的進步，特別是通過擴展數(shù)據(jù)和模型大小來解鎖的功能。此外，目標輸出是圖像標記序列，而不是其他語言中的文本標記。并利用圖像分詞器 ViT-VQGAN 將圖像編碼為離散標記序列，以重建成高質量、風格多樣化的圖像?！?

值得一提的是，谷歌在一個多月前推出的另一個文本到圖像生成模型 Imagen，在研究基準上也表現(xiàn)得十分亮眼。Parti 和 Imagen 分別是自回歸模型和擴散模型，兩者不同但互補，代表了谷歌的不同探索方向。

此外，研究人員還探索并突出了 Parti 模型的局限性，給出了進一步改進的關鍵示例重點領域。

（來源：谷歌）

然后，他們還訓練了 3.5 億、7.5 億、30 億和 200 億參數(shù)四個版本的 Parti，并將它們進行了詳細比較，參數(shù)越大的模型在功能和輸出圖像質量方面有著實質性改進。在比較 30 億和 200 億參數(shù)的 Parti 時，發(fā)現(xiàn)后者更擅長抽象的提示。

下面是四個模型對“一個綠色的標志，上面寫著 Very Deep Learning，位于大峽谷的邊緣，天空中有浮起的白云”圖片生成效果。

（來源：谷歌）

Parti 要想識別冗長而復雜的提示，需要它準確反映世界知識、遵守特定的圖像格式和樣式，并通過細粒度的細節(jié)和交互組成眾多參與者和對象，進而輸出高質量的圖像。但該模型存在的一定局限性，仍會讓其生成一些故障示例。

比如說按照如下文字生成圖像：“一幅阿努比斯雕像的肖像，穿著一件黃色的 T 恤，上面畫著一架航天飛機，背景中有一面白色的磚墻?！陛敵龅膱D像中航天飛機在墻上，而不是 T 恤，顏色也有所滲出。

圖 | 故障圖像（來源：谷歌）

值得一提的是，本次研究人員還采用一種新的測試基準 PartiPrompts（簡稱 P2），該基準可從各種類別和挑戰(zhàn)方面來衡量模型的能力。

圖 | PartiPrompts 基準（來源：arXiv）

然后，研究人員表示，用文本生成圖像非常有趣，它允許我們創(chuàng)建從未見過甚至不存在的場景。但這帶來許多益處的同時，也存在一定風險，并對偏見和安全、視覺傳達、虛假信息，以及創(chuàng)造力和藝術產生潛在影響。

此外，一些潛在的風險與模型本身的開發(fā)方式有關，對于訓練數(shù)據(jù)尤其如此。像 Parti 這樣的模型，通常是在嘈雜的圖像文本數(shù)據(jù)集上進行訓練的。這些數(shù)據(jù)集已知包含對不同背景的人的偏見，從而導致 Parti 等模型產生刻板印象。比如，在將模型應用于視覺傳達（例如幫助低識字率的社會群體輸出圖片）等用途時，會帶來額外的風險和擔憂。

文本到圖像模型為人們創(chuàng)造了許多新的可能性，本質上是充當畫筆創(chuàng)造獨特且美觀的圖像，可助力提高人類的創(chuàng)造力和生產力。但模型的輸出范圍取決于訓練數(shù)據(jù)，這可能會偏向西方圖像，并進一步阻止模型表現(xiàn)出全新的藝術風格。

出于以上原因，研究人員在沒有進一步保護措施的情況下，暫時不會發(fā)布 Parti 模型的代碼或數(shù)據(jù)供公眾使用。并在已生成的所有圖像上添加了“Parti”水印。

接下來，研究團隊將專注于進一步研究模型偏差測量和緩解策略，例如提示濾波、輸出濾波和模型重新校準。

他們還認為，有望使用文本到圖像生成模型來大規(guī)模理解大型圖像文本數(shù)據(jù)集中的偏差，方法是明確探測它們是否存在一套已知的偏差類型，并可能揭示其他形式的隱藏偏差。另外，研究人員還計劃與藝術家合作，使高性能文本到圖像生成模型的功能適應其作品。

最后，相比前段時間 OpenAI 發(fā)布的 DALL·E 2 和谷歌自家的 Imagen（兩者都是擴散模型），研究人員提到，Parti 表明自回歸模型功能強大且普遍適用。

業(yè)務實施流程

需求調研 →

團隊組建和動員 →

數(shù)據(jù)初始化 →

調試完善 →

解決方案和選型 →

硬件網絡部署 →

系統(tǒng)部署試運行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓

售后服務

馬上咨詢： 如果您有業(yè)務方面的問題或者需求，歡迎您咨詢！我們帶來的不僅僅是技術，還有行業(yè)經驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人：石先生/雷先生

亚洲中文字幕无码日韩精品,亚洲一区制服无码中字,亚洲精品第一国产综合精品99 ,一本大道中文日本香蕉

谷歌再次發(fā)布文字生成圖像模型，新系統(tǒng)Parti根據(jù)文本輸出各種風格、更高質量圖像

谷歌再次發(fā)布文字生成圖像模型，新系統(tǒng)Parti根據(jù)文本輸出各種風格、更高質量圖像