致力于成為中國最好的商學(xué)院!
近期熱招致力于成為中國最好的商學(xué)院!
近期熱招新聞資訊
Sora“超級涌現(xiàn)力”將把AI引向何方
2024-03-08
美國人工智能研究公司OpenAI最新發(fā)布的文生視頻模型Sora,能夠在接受人類輸入的文本提示詞后,生成一段長達(dá)60秒的視頻,實(shí)現(xiàn)了內(nèi)容合成從文本到圖像、再到視頻的領(lǐng)域跨越。
這一次次帶來震撼的技術(shù)背后,都遵循著同一個原理:對合成內(nèi)容中的最小單元進(jìn)行有意義的關(guān)聯(lián)組合。比如,在保持連貫的上下文語境中,對若干個單詞進(jìn)行有意義組合,從而連綴成一個會意句子;在保持合理的空間布局下,對眾多圖像小塊進(jìn)行有意義組合,拼合為一幅精彩圖像;在保持一致的連續(xù)時空內(nèi),對一系列時空子塊進(jìn)行有意義組合,從而拼接成一段動感視頻。
現(xiàn)實(shí)生活中,我們每個人都在通過有價值的內(nèi)容組合來進(jìn)行交流、設(shè)計和創(chuàng)作。唐代詩人盧延讓對“吟安一個字,捻斷數(shù)莖須”的感嘆,講的就是詩人從百千個候選字詞中反復(fù)對比、精心挑選出一個合適的單詞,從而寫就一篇傳世之作。南宋詩人陸游所說的“文章本天成,妙手偶得之”,驚嘆的就是讓詞匯恰如其分地出現(xiàn)在了其應(yīng)該出現(xiàn)的位置,形成語意連貫、文氣貫通的天然佳作。
那么,從ChatGPT到Sora,人工智能(AI)大模型何以合成出有意義、有價值的內(nèi)容?Sora所呈現(xiàn)出的“超級涌現(xiàn)力”將把AI引向何方?
Sora模擬視頻中,在海中飛舞的蝴蝶猶如實(shí)景拍攝 圖源:OpenAI官網(wǎng)視頻截圖
01
共生即關(guān)聯(lián)
從文本構(gòu)建意義的網(wǎng)絡(luò)
2017年,谷歌公司發(fā)表了一篇題為《注意力就是你所需的一切》的論文,提出了一種以自注意力機(jī)制為核心的神經(jīng)網(wǎng)絡(luò)架構(gòu)Transformer。
只要給定足夠多的句子,Transformer就可學(xué)習(xí)句子中單詞與單詞之間的共生關(guān)聯(lián)關(guān)系。比如,“項(xiàng)莊舞劍,意在沛公”這樣的句子在若干篇文章中出現(xiàn),那么Transformer就會認(rèn)為“項(xiàng)莊”“舞劍”“沛公”等單詞之間存在共生關(guān)系,于是就在它們之間建立關(guān)聯(lián),這種關(guān)系被稱為“注意力”。
一段合成視頻中,兩名沖浪者在一座具有歷史感的大廳里乘風(fēng)破浪 圖源:OpenAI官網(wǎng)視頻截圖
可以想象,在對海量語料數(shù)據(jù)庫進(jìn)行學(xué)習(xí)的基礎(chǔ)上,人工智能算法就可以建立起一個巨大無比的單詞共生關(guān)聯(lián)網(wǎng)絡(luò)圖。此后,每當(dāng)人們給定一個單詞,算法就可按照要求,從單詞共生關(guān)聯(lián)網(wǎng)絡(luò)圖中找到下一個與之關(guān)聯(lián)關(guān)系最密切的單詞,作為給定單詞的后續(xù)單詞——就這樣一個個接綴合成出句子,最終達(dá)到自然語言合成的目的。因此,OpenAI公司CEO山姆·阿爾特曼曾說:“預(yù)測下一個單詞是通用人工智能(AGI)能力的關(guān)鍵。”
那么,Transformer模型是如何被訓(xùn)練的?一般采用的是“完形填空”的方法,即如果模型所填單詞與被移除單詞不一致,說明模型尚未形成填空能力,于是可根據(jù)其產(chǎn)生的錯誤來不斷調(diào)整模型參數(shù),直至模型完美完成填空任務(wù)。在人工智能領(lǐng)域,這種“填空訓(xùn)練”的過程被稱為“自監(jiān)督學(xué)習(xí)”,即模型算法自己準(zhǔn)備用來訓(xùn)練模型參數(shù)的“數(shù)據(jù)燃料”,自行按照預(yù)定目標(biāo)進(jìn)行學(xué)習(xí)。
為了讓Transformer從預(yù)測下一個單詞到具備“說人話、做人事”的能力,研究者提出了一種被稱為“提示學(xué)習(xí)”的方法。在提示學(xué)習(xí)中,人類設(shè)計所謂的“提示樣例”,來教人工智能模型學(xué)習(xí)如何更好地說話。
比如,“我很喜歡這部電影,因?yàn)殡娪俺尸F(xiàn)的劇情很精彩”“貓比大象要小,因此大象比貓更大”就是典型的提示樣例。一旦設(shè)計提示樣例后,算法將樣例中后半句某個關(guān)鍵單詞“移除”,然后讓模型去預(yù)測被移除的單詞。如此不斷學(xué)習(xí),模型就得以知曉在給出前半句后,如何更自然地合成后半句話。
為了進(jìn)一步提高模型合成語言的性能,Transformer還引入了人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)的技術(shù),將在交流中人類對模型合成內(nèi)容的反饋?zhàn)鳛橐环N監(jiān)督信息輸入給模型,對模型參數(shù)進(jìn)行微調(diào),以提高語言模型回答的真實(shí)性和流暢性。
一位女性的秋日特寫人像,細(xì)節(jié)模擬精致到位 圖源:OpenAI官網(wǎng)視頻截圖
在“數(shù)據(jù)是燃料、模型是引擎、算力是加速器”的深度學(xué)習(xí)框架下,以Transformer為核心打造的ChatGPT涌現(xiàn)出統(tǒng)計關(guān)聯(lián)能力,洞悉海量數(shù)據(jù)中單詞-單詞、句子-句子等之間的關(guān)聯(lián)性,體現(xiàn)了語言合成能力。
在大數(shù)據(jù)、大模型和大算力的工程性結(jié)合下,ChatGPT的訓(xùn)練使用了45TB的數(shù)據(jù)、近萬億個單詞,約相當(dāng)于1351萬本牛津詞典所包含的單詞數(shù)量。經(jīng)折算,訓(xùn)練ChatGPT所耗費(fèi)的算力,大概相當(dāng)于用每秒運(yùn)算千萬億次的算力對模型訓(xùn)練3640天。
GPT的出現(xiàn)為探索AGI的實(shí)現(xiàn)提供了一種方式,被譽(yù)為“AI的iPhone時刻”。英國《自然》雜志列出的2023年度十大人物中,首次將ChatGPT這位“非人類”列入榜單。
02
重建物理世界
并非簡單“鸚鵡學(xué)舌”
人工智能程序一旦捕獲了單詞與單詞之間的共生關(guān)聯(lián),就可利用這種關(guān)聯(lián)來合成句子。那么,如果將圖像切分為空間子塊,或者將視頻切分為時空子塊,人工智能模型去學(xué)習(xí)這些子塊在空間維度中的布局分布、在時間維度上的連續(xù)變化等信息,同時學(xué)習(xí)子塊之間運(yùn)動、顏色、光照、遮擋等復(fù)雜視覺特征,就可能重建、合成新的視頻序列。
目前,合成視頻需要先提供文本提示詞,然后通過文本單詞和時空子塊之間的關(guān)聯(lián)來合成新的視頻。但因文本單詞與視覺信息分屬于不同類型,故而存在異構(gòu)鴻溝困難,這是首先需要解決的難題。其次,還要克服由視頻圖像分辨率過大而帶來的維度災(zāi)難,以及其所引發(fā)的操作上的挑戰(zhàn)。
“SORA”云彩圖像 圖源:OpenAI官網(wǎng)視頻截圖
為應(yīng)對這些挑戰(zhàn),Sora先將文本單詞和視覺子塊映射到同構(gòu)低維隱性空間,在這一低維隱性空間中引入擴(kuò)散模型,對視覺信息反復(fù)迭代,千錘百煉地挖掘文本單詞、空間子塊和時空子塊之間的關(guān)聯(lián)關(guān)系。
這種方式好比先通過“車同軌、書同文”,將文本、視覺等異構(gòu)信息投影到同構(gòu)空間,然后再通過“先破壞(添加噪音)”“再重建(去除噪音)”的迭代手段,來洞悉視頻中各種不同單元在時間和空間中的關(guān)聯(lián)關(guān)系,從而甄別和學(xué)習(xí)紋理、運(yùn)動、光照、遮擋、交互等復(fù)雜視覺物理規(guī)律。
這就好比魯班學(xué)藝,不斷將大橋拆散再拼裝,從這個反復(fù)過程中知曉它們的跨結(jié)構(gòu)、支座系統(tǒng)、橋墩、橋臺和墩臺之間的組合關(guān)系,從而練就重建大橋的能力。因此,Sora合成視頻的過程并非是簡單隨機(jī)的“鸚鵡學(xué)舌”,而是對物理世界的重建。
由此可見,盡管Sora并未使用與過往不同的新技術(shù),幾乎所有技術(shù)都是已經(jīng)公開的,但其所用的視頻生成方式對算力要求極高,而這種對算力和資金消耗極大的方式,大幅提升了同行跟進(jìn)的門檻。同時,Sora利用GPT系統(tǒng)對提示詞進(jìn)行了潤色與豐富,從而拉開了與之前文本生成視頻模型之間的差距,形成了對手短期內(nèi)難以跟進(jìn)的優(yōu)勢。
03
Sora涌現(xiàn)力
自然世界“昨日重現(xiàn)”
Sora這次帶來了多重驚喜:其一是具備合成1分鐘超長視頻能力。此前的文本生成視頻大模型無法真正突破合成10秒自然連貫視頻的瓶頸;其二是Sora視頻是對自然世界中不同對象行為方式的“昨日重現(xiàn)”,比如能有效模擬人物、動物或物品被遮擋或離開/回到視線的場景,因此有媒體認(rèn)為Sora是數(shù)據(jù)驅(qū)動下對物理世界進(jìn)行模擬的引擎。
Sora模擬生成的一只戴著貝雷帽、穿著黑色高領(lǐng)毛衣的柴犬 圖源:OpenAI官網(wǎng)視頻截圖
Sora對長時間視頻合成的能力,來自Transformer能夠處理長時間信息中最小單元之間的自注意力機(jī)制。例如,同樣是基于Transformer的GPT4允許處理3萬多個tokens(機(jī)器模型輸入的基本單位),而谷歌最近發(fā)布的多模態(tài)通用模型Gemini 1.5 Pro就把穩(wěn)定處理上下文的上限擴(kuò)大至100萬個tokens。
Sora之所以能對物理世界規(guī)律進(jìn)行模擬,一個可能的原因在于大數(shù)據(jù)驅(qū)動下,人工智能模型體現(xiàn)出一種學(xué)習(xí)能力,即Sora通過觀察和學(xué)習(xí)海量視頻數(shù)據(jù)后,洞察了視頻中時空子塊單元之間所應(yīng)保持的物理規(guī)律。
其實(shí),人類也是基于對自然界斗轉(zhuǎn)星移、節(jié)氣變遷和晝夜交替,以及微觀物質(zhì)世界物質(zhì)合成與生命演化的觀測,推導(dǎo)出各種物理規(guī)律。雖然Sora很難像人類一樣,將物理世界中諸如牛頓定律、湍流方程和量子學(xué)定理等,以數(shù)學(xué)方程羅列于人工模型中,但Sora能記住時空子塊單元之間應(yīng)遵守的模式,進(jìn)而利用這些模式約束時空子塊的組合。
理查德·費(fèi)曼在《物理學(xué)講義》中曾提及,在生物學(xué)、人類學(xué)或經(jīng)濟(jì)學(xué)等復(fù)雜系統(tǒng)中,很少有一種簡潔的數(shù)學(xué)理論能與數(shù)學(xué)物理學(xué)理論中的數(shù)值精確度相媲美,其原因在于“其過于復(fù)雜,而我們的思維有限”,這被稱為“費(fèi)曼極限”。
Sora也能夠生成動畫視頻,圖為一個怪物家族的卡通視頻截圖,它采用扁平化的設(shè)計風(fēng)格,包括毛茸茸的棕色怪物、帶天線的黑色怪物、斑點(diǎn)綠色怪物和小小的圓點(diǎn)怪物等 圖源:OpenAI官網(wǎng)視頻截圖
數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)由于其函數(shù)逼近能力,擅長從微觀上發(fā)掘復(fù)雜系統(tǒng)的模式,以統(tǒng)計方法擬合高維復(fù)雜系統(tǒng),被譽(yù)為神經(jīng)網(wǎng)絡(luò)模型的“涌現(xiàn)能力”。涌現(xiàn)性是一種結(jié)構(gòu)效應(yīng),是組成成分按照系統(tǒng)結(jié)構(gòu)方式相互作用、相互補(bǔ)充、相互制約而激發(fā)出的特征。
機(jī)器學(xué)習(xí)模型展現(xiàn)出的涌現(xiàn)能力具有重要的科學(xué)意義。因?yàn)?,如果涌現(xiàn)能力是永無盡頭的,那么只要模型足夠大,類人人工智能的出現(xiàn)就是必然。當(dāng)然,神經(jīng)網(wǎng)絡(luò)的涌現(xiàn)性目前仍然是一個開放的問題。
Sora的涌現(xiàn)力或許可以這樣認(rèn)為:在億萬個非線性映射函數(shù)組合之下,人工智能模型對最小時空子塊單元進(jìn)行各種意想不到的組合,合成出先前從未有過的內(nèi)容。而這正是這一輪人工智能在數(shù)據(jù)、模型、算力“三駕馬車”推動下飛速發(fā)展的必然結(jié)果。
作者介紹
吳 飛:浙江大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院和軟件學(xué)院黨委書記、浙江大學(xué)上海高等研究院常務(wù)副院長