拖拽下圖像就能生成視頻,中科大、微軟等DragNUWA屬實(shí)驚艷
論文地址:https://arxiv.org/abs/2308.08089
以拖動(dòng)(drag)的方式給出運(yùn)動(dòng)軌跡,DragNUWA 就能讓圖像中的物體對(duì)象按照該軌跡移動(dòng)位置,并且可以直接生成連貫的視頻。例如,讓兩個(gè)滑滑板的小男孩按要求路線滑行:

方法簡(jiǎn)介
該研究認(rèn)為文本、圖像、軌跡這三種類型的控制是缺一不可的,因?yàn)樗鼈兏髯杂兄趶恼Z(yǔ)義、空間和時(shí)間角度控制視頻內(nèi)容。如下圖 1 所示,僅文本和圖像的組合不足以傳達(dá)視頻中存在的復(fù)雜運(yùn)動(dòng)細(xì)節(jié),這可以用軌跡信息來(lái)補(bǔ)充;僅圖像和軌跡組合無(wú)法充分表征視頻中的未來(lái)物體,文本控制可以彌補(bǔ)這一點(diǎn);在表達(dá)抽象概念時(shí),僅依賴軌跡和文本可能會(huì)導(dǎo)致歧義,圖像控制可以提供必要的區(qū)別。
DragNUWA 是一種端到端的視頻生成模型,它無(wú)縫集成了三個(gè)基本控件 —— 文本、圖像和軌跡,提供強(qiáng)大且用戶友好的可控性,從語(yǔ)義、空間和時(shí)間角度對(duì)視頻內(nèi)容進(jìn)行細(xì)粒度控制。
為了解決當(dāng)前研究中有限的開(kāi)放域軌跡控制問(wèn)題,該研究重點(diǎn)關(guān)注三個(gè)方面的軌跡建模:
- 使用軌跡采樣器(Trajectory Sampler,TS)在訓(xùn)練期間直接從開(kāi)放域視頻流中采樣軌跡,用于實(shí)現(xiàn)任意軌跡的開(kāi)放域控制;
- 使用多尺度融合(Multiscale Fusion,MF)將軌跡下采樣到各種尺度,并將其與 UNet 架構(gòu)每個(gè)塊內(nèi)的文本和圖像深度集成,用于控制不同粒度的軌跡;
- 采用自適應(yīng)訓(xùn)練(Adaptive Training,AT)策略,以密集流為初始條件來(lái)穩(wěn)定視頻生成,然后在稀疏軌跡上進(jìn)行訓(xùn)練以適應(yīng)模型,最終生成穩(wěn)定且連貫的視頻。

實(shí)驗(yàn)及結(jié)果
該研究用大量實(shí)驗(yàn)來(lái)驗(yàn)證 DragNUWA 的有效性,實(shí)驗(yàn)結(jié)果展示了其在視頻合成細(xì)粒度控制方面的卓越性能。
與現(xiàn)有專注于文本或圖像控制的研究不同,DragNUWA 主要強(qiáng)調(diào)建模軌跡控制。為了驗(yàn)證軌跡控制的有效性,該研究從相機(jī)運(yùn)動(dòng)和復(fù)雜軌跡兩個(gè)方面測(cè)試了 DragNUWA。
如下圖 4 所示,DragNUWA 雖然沒(méi)有明確地對(duì)相機(jī)運(yùn)動(dòng)進(jìn)行建模,但它從開(kāi)放域軌跡的建模中學(xué)習(xí)了各種相機(jī)運(yùn)動(dòng)。

此外,DragNUWA 雖然主要強(qiáng)調(diào)軌跡控制建模,但也融合了文本和圖像控制。研究團(tuán)隊(duì)認(rèn)為,文本、圖像和軌跡分別對(duì)應(yīng)視頻的三個(gè)基本控制方面:語(yǔ)義、空間和時(shí)間。下圖 6 通過(guò)展示文本(p)、軌跡(g)和圖像(s)的不同組合(包括 s2v、p2v、gs2v、ps2v 和 pgs2v)說(shuō)明了這些控制條件的必要性。

感興趣的讀者可以閱讀論文原文,了解更多研究?jī)?nèi)容。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。