圖靈獎得主堅稱「Sora根本不懂物理世界」一文看懂「4大技術步驟」如何做到3D一致性!核心研發團隊全員曝

Sora核心團隊僅13人,不僅主要領導人為年輕應屆博士,甚至有一名「00後」成員,團隊成立不到一年「高強度工作」終順利研發出Sora模型。(合成圖)

OpenAI影音生成式AI模型「Sora」,甫推出即造成轟動,除了其逼真成品已讓許多科學家和學者基於「Sora是否搞懂了真實物理世界一事」爭論不休,Sora研究的核心團隊也被挖出,其中包含一位00後、年僅21歲!本文將以更白話的方式帶您瞭解Sora運作4步驟,理解它是如何呈現出畫面的「3D一致性」,同時掌握不同專家的觀點,也帶您深入認識這支傑出團隊成員!

Sora是怎麼運作的?

OpenAI指出,有鑑於大型語言模型(LLMs)的成功演進,Sora是一個「擴散型轉換器模型」,得以將各種類型的視覺數據(包含不同型式規格、時間或格式比例的影音或圖像)轉換成統一展現的形式。

步驟1.將視覺數據壓縮且分解為補丁(patches)

Sora首先會在網絡中將影片(一系列圖像所組成)壓縮為低維度的潛在空間表現狀態,而這個生成的潛在空間也能映射回像素空間。

接續這些「表現狀態」會被進一步分解成時空補丁(spacetime patches),而這些補丁即為模型訓練的基礎單元。

步驟2.擴散過程

在此過程中,Sora接收噪聲補丁,會再逐步「預測」原始(隨機初始化)的「乾淨」補丁。

對比來說,就像是ChatGPT生成文字時,也近似一種模型的預測過程。

(圖/翻攝自OpenAI官網)
OpenAI詳細圖解Sora運作技術步驟。(圖/翻攝自OpenAI官網)

步驟3.轉換器

Sora的核心運作採用了轉換器架構(Transformer architecture)概念,此階段主要為處理序列數據,Sora能有效排列補丁、建立關聯性,進而將文字、圖片生成具高度連貫性和細節豐富的影音。

步驟4.生成

最後,Sora可以在適當的網絡大小中,來控制補丁的排列和尺寸,以生成不同分辨率和不同時間長度的影音,就成了60秒的成果影片。

Sora的成品格式和解析度為何?

Sora生成的影片,最佳解析度為1920x1080或1080x1920,時長最長達60秒,同時也可以輸出2048x2048解析度圖像。

輸出大小優於ChatGPT,相對等於內部伺服器和GPU(顯卡,Graphics Processing Unit)也都比ChatGPT更好,流量更大。

此外,除了光影、液體流動、皮膚粗糙紋路得以細緻呈現以外,畫面亦給人「多鏡頭於三維(3D)空間轉換」的真實感與一致性,或呈現特定物體的不同視角型態。

Sora可以幫你做什麼?

⏹︎ 生成逼真且具個人獨特風格的影片

⏹︎ 為你的影片提升豐富度、增加內容和長度,且保持視覺風格一致性

⏹︎ 可將靜態圖片轉換為完整影片

(圖/翻攝自OpenAI官網)
Sora生成影像即為逼真且具細膩光影變化。(圖/翻攝自OpenAI官網)

Sora到底懂不懂物理世界?

▼ 贊同派:

自OpenAI曝光的Sora60秒成品中,外界看到它對於液體流動和光影變化都處理地極為逼真,這讓輝達AI科學家Jim Fan都忍不住讚嘆且斷言:「Sora是一個數據驅動的物理引擎。」

(圖/翻攝自推特)
Jim Fan也稱Sora是可持續學習的模擬器、是「世界模型」認為它會持續學習瞭解物理世界。(圖/翻攝自推特)

不過,這番說法讓圖靈獎得主Yann LeCun感到相當不以為然,針對同議題嚴正指出,他認為「Sora理解物理世界」的看法是錯誤的:「讓我在這裡澄清一個極大的誤解,看起來寫實的影片並不表示系統理解物理世界,生成和『從世界模型中對因果關係進行預測』是完全不同的事。」