技術(shù)特點

三維空間的連貫性：Sora可以生成帶有動態(tài)相機運動的視頻。隨著相機移動和旋轉(zhuǎn)，人物和場景元素在三維空間中保持連貫的運動。

模擬數(shù)字世界：Sora還能模擬人工過程，如視頻游戲。Sora能夠同時控制Minecraft中的玩家，并高保真地渲染游戲世界及其動態(tài)。通過提及“Minecraft”的提示，可以零樣本地激發(fā)Sora的這些能力

長期連續(xù)性和物體持久性：對視頻生成系統(tǒng)來說，Sora通常能夠有效地模擬短期和長期的依賴關(guān)系。同樣，它能在一個樣本中生成同一角色的多個鏡頭，確保其在整個視頻中的外觀一致。

與世界互動：Sora有時能夠模擬對世界狀態(tài)產(chǎn)生簡單影響的行為。例如，畫家可以在畫布上留下隨時間持續(xù)的新筆觸，或者一個人吃漢堡時留下咬痕。

訓(xùn)練過程

Sora 的訓(xùn)練受到了大語言模型（Large Language Model）的啟發(fā)。這些模型通過在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進(jìn)行訓(xùn)練，從而獲得了廣泛的能力。

Sora實際上是一種擴散型變換器模型（diffusion transformer）。

首先將視頻壓縮到一個低維潛在空間19中，然后將這種表現(xiàn)形式分解成時空區(qū)塊，從而將視頻轉(zhuǎn)換為區(qū)塊。

訓(xùn)練了一個用于降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。這個網(wǎng)絡(luò)以原始視頻為輸入，輸出在時間和空間上都被壓縮的潛在表示。Sora在這個壓縮的潛在空間上進(jìn)行訓(xùn)練，并在此空間中生成視頻。還開發(fā)了一個對應(yīng)的解碼器模型，它能將生成的潛在表示映射回到像素空間。

對于給定的壓縮輸入視頻，提取一系列時空區(qū)塊，它們在變換器模型中充當(dāng)標(biāo)記（token）。這種方案同樣適用于圖像，因為圖像本質(zhì)上是單幀的視頻?；趨^(qū)塊的表示方法使Sora能夠針對不同分辨率、持續(xù)時間和縱橫比的視頻和圖像進(jìn)行訓(xùn)練。在推理過程中，可以通過在適當(dāng)大小的網(wǎng)格中排列隨機初始化的區(qū)塊來控制生成視頻的大小。

隨著 Sora 訓(xùn)練計算量的增加，樣本質(zhì)量有了顯著提升。

Sora訓(xùn)練時沒有對素材進(jìn)行裁切，使得Sora能夠直接為不同設(shè)備以其原生縱橫比創(chuàng)造內(nèi)容。

針對視頻的原生縱橫比進(jìn)行訓(xùn)練，還可以提高構(gòu)圖和取景的質(zhì)量。

訓(xùn)練文本到視頻的生成系統(tǒng)需要大量配有相應(yīng)文本提示的視頻。應(yīng)用了在DALL·E 3中引入的重新字幕技術(shù)到視頻上。

與DALL·E 3相似，也利用了GPT技術(shù)，將用戶的簡短提示轉(zhuǎn)換成更詳細(xì)的提示，然后發(fā)送給視頻模型。Video generation models as world simulators

論文關(guān)鍵點

OpenAI 的研究論文《Video generation models as world simulators》探討了在視頻數(shù)據(jù)上進(jìn)行大規(guī)模訓(xùn)練生成模型的方法。這項研究特別關(guān)注于文本條件擴散模型，這些模型同時在視頻和圖像上進(jìn)行訓(xùn)練，處理不同時長、分辨率和寬高比的數(shù)據(jù)。研究中提到的最大模型 Sora 能夠生成長達(dá)一分鐘的高保真視頻。以下是論文的一些關(guān)鍵點：

統(tǒng)一的視覺數(shù)據(jù)表示：研究者們將所有類型的視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的表示，以便進(jìn)行大規(guī)模的生成模型訓(xùn)練。Sora 使用視覺補?。╬atches）作為其表示方式，類似于大型語言模型（LLM）中的文本標(biāo)記。
視頻壓縮網(wǎng)絡(luò)：研究者們訓(xùn)練了一個網(wǎng)絡(luò)，將原始視頻壓縮到一個低維潛在空間，并將其表示分解為時空補丁。Sora 在這個壓縮的潛在空間中進(jìn)行訓(xùn)練，并生成視頻。
擴散模型：Sora 是一個擴散模型，它通過預(yù)測原始“干凈”的補丁來從輸入的噪聲補丁中生成視頻。擴散模型在語言建模、計算機視覺和圖像生成等領(lǐng)域已經(jīng)顯示出了顯著的擴展性。
視頻生成的可擴展性：Sora 能夠生成不同分辨率、時長和寬高比的視頻，包括全高清視頻。這種靈活性使得 Sora 能夠直接為不同設(shè)備生成內(nèi)容，或者在生成全分辨率視頻之前快速原型化內(nèi)容。
語言理解：為了訓(xùn)練文本到視頻生成系統(tǒng)，需要大量的視頻和相應(yīng)的文本標(biāo)題。研究者們應(yīng)用了在 DALL·E 3 中引入的重新描述技術(shù)，首先訓(xùn)練一個高度描述性的標(biāo)題生成器，然后為訓(xùn)練集中的所有視頻生成文本標(biāo)題。
圖像和視頻編輯：Sora 不僅能夠基于文本提示生成視頻，還可以基于現(xiàn)有圖像或視頻進(jìn)行提示。這使得 Sora 能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù)，如創(chuàng)建完美循環(huán)的視頻、動畫靜態(tài)圖像、向前或向后擴展視頻等。
模擬能力：當(dāng)視頻模型在大規(guī)模訓(xùn)練時，它們展現(xiàn)出了一些有趣的新興能力，使得 Sora 能夠模擬物理世界中的某些方面，如動態(tài)相機運動、長期一致性和對象持久性等。
討論：盡管 Sora 展示了作為模擬器的潛力，但它仍然存在許多局限性，例如在模擬基本物理交互（如玻璃破碎）時的準(zhǔn)確性不足。研究者們認(rèn)為，繼續(xù)擴展視頻模型是開發(fā)物理和數(shù)字世界模擬器的有前途的道路。

業(yè)務(wù)實施流程

需求調(diào)研 →

團隊組建和動員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓(xùn)

售后服務(wù)

馬上咨詢： 如果您有業(yè)務(wù)方面的問題或者需求，歡迎您咨詢！我們帶來的不僅僅是技術(shù)，還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人：石先生/雷先生

亚洲中文字幕无码日韩精品,亚洲一区制服无码中字,亚洲精品第一国产综合精品99 ,一本大道中文日本香蕉

OpenAI的?Sora技術(shù)報告解讀

技術(shù)特點

訓(xùn)練過程

論文關(guān)鍵點