亚洲中文字幕无码日韩精品,亚洲一区制服无码中字,亚洲精品第一国产综合精品99 ,一本大道中文日本香蕉

微立頂科技

新聞資訊

創(chuàng)新 服務 價值

  Sora架構的區(qū)別(真假自辨)

發(fā)布日期:2024/2/18 6:43:14      瀏覽量:

問:Sora 和之前 Runway 那些在架構上有啥區(qū)別呢?

答:簡單來說 Runway 是基于擴散模型(Diffusion Model)的,而 Sora 是基于 Diffusion Transformer。

Runway、Stable Diffusion 是基于擴散模型(Diffusion Model),擴散模型(Diffusion Model)的訓練過程是通過多個步驟逐漸向圖片增加噪點,直到圖片變成完全無結構的噪點圖片,然后在生成圖片的時候,基于一張完全噪點的圖片,逐步減少噪點,直到還原出一張清晰的圖片。

文本模型像 GPT-4 則是 Transformer 模型。Transformer 則是一套編碼器和解碼器的架構,將文本編碼成數字向量,然后解碼的時候從數字向量還原出文本。

Sora 則是一個融合了兩者的 Diffusion Transformer 模型。通過 Transformer 的編碼器 - 解碼器架構處理含噪點的輸入圖像,并在每一步預測出更清晰的圖像版本。編碼器負責對含噪點的輸入進行編碼,而解碼器則負責生成更清晰圖像的預測。

GPT-4 被訓練以處理一串 Token,并預測出下一個 Token。Sora 不是預測序列中的下一個文本,而是預測序列中的下一個“Patch”。

在文本預測生成中,基本單位是 Token,Token 很好理解,就是一個單詞或者單詞的一部分。Patch 的概念相對不那么好理解,不過今天看到一篇文章,作者舉了個很好的例子。

想象一下《黑暗騎士》的電影膠片,將一卷膠片繞在一個金屬盤上,然后掛在一個老式電影院的投影機上。

你把電影膠卷從盤中展開,然后剪下最前面的 100 幀。你挑出每一幀——這里是小丑瘋狂大笑,那里是蝙蝠俠痛苦的表情——并進行以下不同尋常的操作:

你拿起一把 X-acto 精細刻刀,在第一幀電影膠片上剪出一個變形蟲狀的圖案。你像處理精密儀器一樣小心翼翼地用鑷子提取這片形似變形蟲的膠片,然后安全地保存起來。之后,你處理下一幀:在接下來的膠片上切出同樣位置、同樣形狀的變形蟲圖案。你再次用鑷子小心地取出這個新的變形蟲形狀的膠片——形狀與前一個完全相同——并將其精確地放置在第一個之上。你這樣做,直到完成所有的 100 幀。

你現在有了一個色彩斑斕的變形蟲,沿著 Y 軸擴展。這是一座可以通過投影機播放《黑暗騎士》的小片段的膠片塔,就好像有人在投影機前握著拳頭,只讓電影的一小部分影像從拳心通過。

然后,這座膠片塔被壓縮并轉化為所謂的“Patch”——一種隨時間變化的色塊。

Patch 的創(chuàng)新之處——以及 Sora 之所以顯得如此強大——在于它們讓 OpenAI 能夠在大量的圖像和視頻數據上訓練 Sora。想象一下從每一個存在的視頻中剪出的 Patch——無盡的膠片塔——被堆疊起來并輸入到模型中。

以前的文本轉視頻方法需要訓練時使用的所有圖片和視頻都要有相同的大小,這就需要大量的預處理工作來裁剪視頻至適當的大小。但是,由于 Sora 是基于“Patch”而非視頻的全幀進行訓練的,它可以處理任何大小的視頻或圖片,無需進行裁剪。

因此,可以有更多的數據用于訓練,得到的輸出質量也會更高。例如,將視頻預處理至新的長寬比通常會導致視頻的原始構圖丟失。一個在寬屏中心呈現人物的視頻,裁剪后可能只能部分展示該人物。因為 Sora 能接收任何視頻作為訓練輸入,所以其輸出不會受到訓練輸入構圖不良的影響。

在結合前面提到的 Diffusion Transformer 架構,OpenAI 可以在訓練 Sora 時傾注更多的數據和計算資源,從而得到令人驚嘆的效果。

另外 Sora 剛發(fā)布視頻時,能模擬出咖啡在杯子里濺出的液體動力學,以至于有人以為是連接了游戲引擎,但實際上 Sora 還是基于生成式模型,這是因為 Sora 在訓練時,使用了大量的視頻數據,這些視頻中包含了大量的物理規(guī)則,所以 Sora 能夠模擬出液體動力學。這類似于 GPT-4 在訓練時,使用了大量的代碼來作為訓練數據,所以 GPT-4 能夠生成代碼。

有兩篇論文:
《Scalable Diffusion Models with Transformers》arxiv.org/abs/2212.09748
《Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution》arxiv.org/abs/2307.06304

包含更多專業(yè)細節(jié)。

順便說一下,兩篇論文好像都來自Google,并且似乎Sora項目是在這兩篇論文發(fā)表后才啟動的。

還有電影膠片+變形蟲的例子來自《How Sora Works (And What It Means)》
every.to/chain-of-thoug…
譯文:baoyu.io/translations/s…


  業(yè)務實施流程

需求調研 →

團隊組建和動員 →

數據初始化 →

調試完善 →

解決方案和選型 →

硬件網絡部署 →

系統(tǒng)部署試運行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓

售后服務

馬上咨詢: 如果您有業(yè)務方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術,還有行業(yè)經驗積累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     聯(lián)系人:石先生/雷先生