新聞資訊

Sora“超級涌現(xiàn)力”將把AI引向何方

2024-03-08

美國人工智能研究公司OpenAI最新發(fā)布的文生視頻模型Sora，能夠在接受人類輸入的文本提示詞后，生成一段長達(dá)60秒的視頻，實(shí)現(xiàn)了內(nèi)容合成從文本到圖像、再到視頻的領(lǐng)域跨越。

這一次次帶來震撼的技術(shù)背后，都遵循著同一個原理：對合成內(nèi)容中的最小單元進(jìn)行有意義的關(guān)聯(lián)組合。比如，在保持連貫的上下文語境中，對若干個單詞進(jìn)行有意義組合，從而連綴成一個會意句子；在保持合理的空間布局下，對眾多圖像小塊進(jìn)行有意義組合，拼合為一幅精彩圖像；在保持一致的連續(xù)時空內(nèi)，對一系列時空子塊進(jìn)行有意義組合，從而拼接成一段動感視頻。

現(xiàn)實(shí)生活中，我們每個人都在通過有價值的內(nèi)容組合來進(jìn)行交流、設(shè)計和創(chuàng)作。唐代詩人盧延讓對“吟安一個字，捻斷數(shù)莖須”的感嘆，講的就是詩人從百千個候選字詞中反復(fù)對比、精心挑選出一個合適的單詞，從而寫就一篇傳世之作。南宋詩人陸游所說的“文章本天成，妙手偶得之”，驚嘆的就是讓詞匯恰如其分地出現(xiàn)在了其應(yīng)該出現(xiàn)的位置，形成語意連貫、文氣貫通的天然佳作。

那么，從ChatGPT到Sora，人工智能（AI）大模型何以合成出有意義、有價值的內(nèi)容？Sora所呈現(xiàn)出的“超級涌現(xiàn)力”將把AI引向何方？

Sora模擬視頻中，在海中飛舞的蝴蝶猶如實(shí)景拍攝圖源：OpenAI官網(wǎng)視頻截圖

共生即關(guān)聯(lián)

從文本構(gòu)建意義的網(wǎng)絡(luò)

2017年，谷歌公司發(fā)表了一篇題為《注意力就是你所需的一切》的論文，提出了一種以自注意力機(jī)制為核心的神經(jīng)網(wǎng)絡(luò)架構(gòu)Transformer。

只要給定足夠多的句子，Transformer就可學(xué)習(xí)句子中單詞與單詞之間的共生關(guān)聯(lián)關(guān)系。比如，“項(xiàng)莊舞劍，意在沛公”這樣的句子在若干篇文章中出現(xiàn)，那么Transformer就會認(rèn)為“項(xiàng)莊”“舞劍”“沛公”等單詞之間存在共生關(guān)系，于是就在它們之間建立關(guān)聯(lián)，這種關(guān)系被稱為“注意力”。

一段合成視頻中，兩名沖浪者在一座具有歷史感的大廳里乘風(fēng)破浪圖源：OpenAI官網(wǎng)視頻截圖

可以想象，在對海量語料數(shù)據(jù)庫進(jìn)行學(xué)習(xí)的基礎(chǔ)上，人工智能算法就可以建立起一個巨大無比的單詞共生關(guān)聯(lián)網(wǎng)絡(luò)圖。此后，每當(dāng)人們給定一個單詞，算法就可按照要求，從單詞共生關(guān)聯(lián)網(wǎng)絡(luò)圖中找到下一個與之關(guān)聯(lián)關(guān)系最密切的單詞，作為給定單詞的后續(xù)單詞——就這樣一個個接綴合成出句子，最終達(dá)到自然語言合成的目的。因此，OpenAI公司CEO山姆·阿爾特曼曾說：“預(yù)測下一個單詞是通用人工智能（AGI）能力的關(guān)鍵。”

那么，Transformer模型是如何被訓(xùn)練的？一般采用的是“完形填空”的方法，即如果模型所填單詞與被移除單詞不一致，說明模型尚未形成填空能力，于是可根據(jù)其產(chǎn)生的錯誤來不斷調(diào)整模型參數(shù)，直至模型完美完成填空任務(wù)。在人工智能領(lǐng)域，這種“填空訓(xùn)練”的過程被稱為“自監(jiān)督學(xué)習(xí)”，即模型算法自己準(zhǔn)備用來訓(xùn)練模型參數(shù)的“數(shù)據(jù)燃料”，自行按照預(yù)定目標(biāo)進(jìn)行學(xué)習(xí)。

為了讓Transformer從預(yù)測下一個單詞到具備“說人話、做人事”的能力，研究者提出了一種被稱為“提示學(xué)習(xí)”的方法。在提示學(xué)習(xí)中，人類設(shè)計所謂的“提示樣例”，來教人工智能模型學(xué)習(xí)如何更好地說話。

比如，“我很喜歡這部電影，因?yàn)殡娪俺尸F(xiàn)的劇情很精彩”“貓比大象要小，因此大象比貓更大”就是典型的提示樣例。一旦設(shè)計提示樣例后，算法將樣例中后半句某個關(guān)鍵單詞“移除”，然后讓模型去預(yù)測被移除的單詞。如此不斷學(xué)習(xí)，模型就得以知曉在給出前半句后，如何更自然地合成后半句話。

為了進(jìn)一步提高模型合成語言的性能，Transformer還引入了人類反饋中強(qiáng)化學(xué)習(xí)（RLHF）的技術(shù)，將在交流中人類對模型合成內(nèi)容的反饋?zhàn)鳛橐环N監(jiān)督信息輸入給模型，對模型參數(shù)進(jìn)行微調(diào)，以提高語言模型回答的真實(shí)性和流暢性。

一位女性的秋日特寫人像，細(xì)節(jié)模擬精致到位圖源：OpenAI官網(wǎng)視頻截圖

在“數(shù)據(jù)是燃料、模型是引擎、算力是加速器”的深度學(xué)習(xí)框架下，以Transformer為核心打造的ChatGPT涌現(xiàn)出統(tǒng)計關(guān)聯(lián)能力，洞悉海量數(shù)據(jù)中單詞-單詞、句子-句子等之間的關(guān)聯(lián)性，體現(xiàn)了語言合成能力。

在大數(shù)據(jù)、大模型和大算力的工程性結(jié)合下，ChatGPT的訓(xùn)練使用了45TB的數(shù)據(jù)、近萬億個單詞，約相當(dāng)于1351萬本牛津詞典所包含的單詞數(shù)量。經(jīng)折算，訓(xùn)練ChatGPT所耗費(fèi)的算力，大概相當(dāng)于用每秒運(yùn)算千萬億次的算力對模型訓(xùn)練3640天。

GPT的出現(xiàn)為探索AGI的實(shí)現(xiàn)提供了一種方式，被譽(yù)為“AI的iPhone時刻”。英國《自然》雜志列出的2023年度十大人物中，首次將ChatGPT這位“非人類”列入榜單。

重建物理世界

并非簡單“鸚鵡學(xué)舌”

人工智能程序一旦捕獲了單詞與單詞之間的共生關(guān)聯(lián)，就可利用這種關(guān)聯(lián)來合成句子。那么，如果將圖像切分為空間子塊，或者將視頻切分為時空子塊，人工智能模型去學(xué)習(xí)這些子塊在空間維度中的布局分布、在時間維度上的連續(xù)變化等信息，同時學(xué)習(xí)子塊之間運(yùn)動、顏色、光照、遮擋等復(fù)雜視覺特征，就可能重建、合成新的視頻序列。

目前，合成視頻需要先提供文本提示詞，然后通過文本單詞和時空子塊之間的關(guān)聯(lián)來合成新的視頻。但因文本單詞與視覺信息分屬于不同類型，故而存在異構(gòu)鴻溝困難，這是首先需要解決的難題。其次，還要克服由視頻圖像分辨率過大而帶來的維度災(zāi)難，以及其所引發(fā)的操作上的挑戰(zhàn)。

“SORA”云彩圖像圖源：OpenAI官網(wǎng)視頻截圖

為應(yīng)對這些挑戰(zhàn)，Sora先將文本單詞和視覺子塊映射到同構(gòu)低維隱性空間，在這一低維隱性空間中引入擴(kuò)散模型，對視覺信息反復(fù)迭代，千錘百煉地挖掘文本單詞、空間子塊和時空子塊之間的關(guān)聯(lián)關(guān)系。

這種方式好比先通過“車同軌、書同文”，將文本、視覺等異構(gòu)信息投影到同構(gòu)空間，然后再通過“先破壞（添加噪音）”“再重建（去除噪音）”的迭代手段，來洞悉視頻中各種不同單元在時間和空間中的關(guān)聯(lián)關(guān)系，從而甄別和學(xué)習(xí)紋理、運(yùn)動、光照、遮擋、交互等復(fù)雜視覺物理規(guī)律。

這就好比魯班學(xué)藝，不斷將大橋拆散再拼裝，從這個反復(fù)過程中知曉它們的跨結(jié)構(gòu)、支座系統(tǒng)、橋墩、橋臺和墩臺之間的組合關(guān)系，從而練就重建大橋的能力。因此，Sora合成視頻的過程并非是簡單隨機(jī)的“鸚鵡學(xué)舌”，而是對物理世界的重建。

由此可見，盡管Sora并未使用與過往不同的新技術(shù)，幾乎所有技術(shù)都是已經(jīng)公開的，但其所用的視頻生成方式對算力要求極高，而這種對算力和資金消耗極大的方式，大幅提升了同行跟進(jìn)的門檻。同時，Sora利用GPT系統(tǒng)對提示詞進(jìn)行了潤色與豐富，從而拉開了與之前文本生成視頻模型之間的差距，形成了對手短期內(nèi)難以跟進(jìn)的優(yōu)勢。

Sora涌現(xiàn)力

自然世界“昨日重現(xiàn)”

Sora這次帶來了多重驚喜：其一是具備合成1分鐘超長視頻能力。此前的文本生成視頻大模型無法真正突破合成10秒自然連貫視頻的瓶頸；其二是Sora視頻是對自然世界中不同對象行為方式的“昨日重現(xiàn)”，比如能有效模擬人物、動物或物品被遮擋或離開/回到視線的場景，因此有媒體認(rèn)為Sora是數(shù)據(jù)驅(qū)動下對物理世界進(jìn)行模擬的引擎。

Sora模擬生成的一只戴著貝雷帽、穿著黑色高領(lǐng)毛衣的柴犬圖源：OpenAI官網(wǎng)視頻截圖

Sora對長時間視頻合成的能力，來自Transformer能夠處理長時間信息中最小單元之間的自注意力機(jī)制。例如，同樣是基于Transformer的GPT4允許處理3萬多個tokens（機(jī)器模型輸入的基本單位），而谷歌最近發(fā)布的多模態(tài)通用模型Gemini 1.5 Pro就把穩(wěn)定處理上下文的上限擴(kuò)大至100萬個tokens。

Sora之所以能對物理世界規(guī)律進(jìn)行模擬，一個可能的原因在于大數(shù)據(jù)驅(qū)動下，人工智能模型體現(xiàn)出一種學(xué)習(xí)能力，即Sora通過觀察和學(xué)習(xí)海量視頻數(shù)據(jù)后，洞察了視頻中時空子塊單元之間所應(yīng)保持的物理規(guī)律。

其實(shí)，人類也是基于對自然界斗轉(zhuǎn)星移、節(jié)氣變遷和晝夜交替，以及微觀物質(zhì)世界物質(zhì)合成與生命演化的觀測，推導(dǎo)出各種物理規(guī)律。雖然Sora很難像人類一樣，將物理世界中諸如牛頓定律、湍流方程和量子學(xué)定理等，以數(shù)學(xué)方程羅列于人工模型中，但Sora能記住時空子塊單元之間應(yīng)遵守的模式，進(jìn)而利用這些模式約束時空子塊的組合。

理查德·費(fèi)曼在《物理學(xué)講義》中曾提及，在生物學(xué)、人類學(xué)或經(jīng)濟(jì)學(xué)等復(fù)雜系統(tǒng)中，很少有一種簡潔的數(shù)學(xué)理論能與數(shù)學(xué)物理學(xué)理論中的數(shù)值精確度相媲美，其原因在于“其過于復(fù)雜，而我們的思維有限”，這被稱為“費(fèi)曼極限”。

Sora也能夠生成動畫視頻，圖為一個怪物家族的卡通視頻截圖，它采用扁平化的設(shè)計風(fēng)格，包括毛茸茸的棕色怪物、帶天線的黑色怪物、斑點(diǎn)綠色怪物和小小的圓點(diǎn)怪物等圖源：OpenAI官網(wǎng)視頻截圖

數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)由于其函數(shù)逼近能力，擅長從微觀上發(fā)掘復(fù)雜系統(tǒng)的模式，以統(tǒng)計方法擬合高維復(fù)雜系統(tǒng)，被譽(yù)為神經(jīng)網(wǎng)絡(luò)模型的“涌現(xiàn)能力”。涌現(xiàn)性是一種結(jié)構(gòu)效應(yīng)，是組成成分按照系統(tǒng)結(jié)構(gòu)方式相互作用、相互補(bǔ)充、相互制約而激發(fā)出的特征。

機(jī)器學(xué)習(xí)模型展現(xiàn)出的涌現(xiàn)能力具有重要的科學(xué)意義。因?yàn)?，如果涌現(xiàn)能力是永無盡頭的，那么只要模型足夠大，類人人工智能的出現(xiàn)就是必然。當(dāng)然，神經(jīng)網(wǎng)絡(luò)的涌現(xiàn)性目前仍然是一個開放的問題。

Sora的涌現(xiàn)力或許可以這樣認(rèn)為：在億萬個非線性映射函數(shù)組合之下，人工智能模型對最小時空子塊單元進(jìn)行各種意想不到的組合，合成出先前從未有過的內(nèi)容。而這正是這一輪人工智能在數(shù)據(jù)、模型、算力“三駕馬車”推動下飛速發(fā)展的必然結(jié)果。

作者介紹

吳飛：浙江大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院和軟件學(xué)院黨委書記、浙江大學(xué)上海高等研究院常務(wù)副院長

分享到：

上一篇：聚焦新質(zhì)生產(chǎn)力構(gòu)筑人才新優(yōu)勢下一篇：雙向奔赴，打通城鄉(xiāng)融合發(fā)展通道——以城帶鄉(xiāng)以鄉(xiāng)促城推動城鄉(xiāng)融合發(fā)展的浙江行動

国产精品成人第一区 , 欧美成人手机 , 美女网站在线免费观看 , 国产精品久久久久久久精品三级