專注AIGC領(lǐng)域的專業(yè)社區(qū),關(guān)注微軟&OpenAI、百度文心一言、訊飛星火等大語言模型(LLM)的發(fā)展和應(yīng)用落地,聚焦LLM的市場研究和AIGC開發(fā)者生態(tài),歡迎關(guān)注!



騰訊混元?jiǎng)倓傞_源了視頻生成模型,HunyuanVideo 1.5。

圖片
8.3B參數(shù),輕量化設(shè)計(jì),消費(fèi)級(jí)顯卡兼容,將頂尖視頻生成能力真正帶給了每一位開發(fā)者。

這款模型是一次對(duì)視頻生成門檻的重新定義,它采用統(tǒng)一的Diffusion Transformer架構(gòu),結(jié)合3D因果VAE(變分自編碼器)與創(chuàng)新的SSTA(選擇性滑動(dòng)分塊注意力)機(jī)制,在大幅壓縮計(jì)算開銷的同時(shí)實(shí)現(xiàn)了對(duì)光影、構(gòu)圖及物理規(guī)律的極致掌控。

創(chuàng)新架構(gòu)設(shè)計(jì)最大化硬件效能
HunyuanVideo 1.5的核心在于其對(duì)性能與效率的極致平衡。

它并沒有單純追求參數(shù)量的無限堆疊,而是選擇了一條更為精巧的路線。

模型采用了統(tǒng)一的Diffusion Transformer架構(gòu),這種架構(gòu)在處理序列數(shù)據(jù)時(shí)展現(xiàn)出了卓越的穩(wěn)定性。

為了在有限的計(jì)算資源下釋放最大潛能,研發(fā)團(tuán)隊(duì)引入了8.3B參數(shù)的輕量化設(shè)計(jì)。

圖片
這并非簡單的“減配”,而是配合了專門設(shè)計(jì)的3D因果VAE編解碼器。

該編解碼器實(shí)現(xiàn)了空間維度16倍、時(shí)間維度4倍的高效壓縮。

這種高倍率的壓縮意味著模型在處理視頻數(shù)據(jù)時(shí),吞吐量更大,顯存占用更低。

更為關(guān)鍵的技術(shù)突破在于SSTA機(jī)制。

傳統(tǒng)的視頻生成模型往往在長序列生成中面臨計(jì)算量爆炸的問題。

SSTA通過動(dòng)態(tài)剪枝冗余的時(shí)空數(shù)據(jù),讓模型只關(guān)注畫面中真正變化和重要的部分。

這就像人類的視覺注意力一樣,自動(dòng)過濾掉背景中的無效信息,從而顯著降低了計(jì)算開銷。

配合推理加速工程中集成的模型蒸餾與Cache優(yōu)化技術(shù),這一組合拳讓推理效率大幅提升。

開發(fā)者不再需要昂貴的H100集群,僅憑消費(fèi)級(jí)顯卡即可流暢運(yùn)行,真正實(shí)現(xiàn)了高性能視頻生成的普惠。

潛空間超分系統(tǒng)重塑畫質(zhì)細(xì)節(jié)
畫質(zhì)是視頻生成模型的生命線。

HunyuanVideo 1.5引入了一套完整的視頻超分增強(qiáng)系統(tǒng),將畫質(zhì)提升到了新的高度。

圖片
這套系統(tǒng)并非在像素層面進(jìn)行簡單的插值放大,那樣往往會(huì)帶來模糊和網(wǎng)格偽影。

它選擇在潛空間(Latent Space)中工作,通過訓(xùn)練專用的上采樣模塊來重構(gòu)畫面。

潛空間的操作讓模型能夠理解圖像的語義結(jié)構(gòu),從而在增強(qiáng)畫面銳度與質(zhì)感的同時(shí),智能修復(fù)可能產(chǎn)生的畸變。

結(jié)果是顯而易見的:低分辨率的生成結(jié)果被高效上采樣至1080p高清視頻。

配合全鏈路訓(xùn)練優(yōu)化策略,模型從預(yù)訓(xùn)練到后訓(xùn)練全流程都得到了精細(xì)打磨。

Moun優(yōu)化器的加入加速了模型的收斂過程,確保了運(yùn)動(dòng)連貫性與美學(xué)質(zhì)量的同步提升。

這種對(duì)細(xì)節(jié)的執(zhí)著,使得生成的視頻在視覺上達(dá)到了專業(yè)級(jí)內(nèi)容的效果。

無論是復(fù)古膠片的顆粒感,還是現(xiàn)代工業(yè)設(shè)計(jì)的冷冽質(zhì)感,都能得到精準(zhǔn)還原。