專注AIGC領(lǐng)域的專業(yè)社區(qū),關(guān)注微軟&OpenAI、百度文心一言、訊飛星火等大語言模型(LLM)的發(fā)展和應(yīng)用落地,聚焦LLM的市場研究和AIGC開發(fā)者生態(tài),歡迎關(guān)注!



騰訊混元剛剛開源了視頻生成模型,HunyuanVideo 1.5。

圖片
8.3B參數(shù),輕量化設(shè)計,消費級顯卡兼容,將頂尖視頻生成能力真正帶給了每一位開發(fā)者。

這款模型是一次對視頻生成門檻的重新定義,它采用統(tǒng)一的Diffusion Transformer架構(gòu),結(jié)合3D因果VAE(變分自編碼器)與創(chuàng)新的SSTA(選擇性滑動分塊注意力)機制,在大幅壓縮計算開銷的同時實現(xiàn)了對光影、構(gòu)圖及物理規(guī)律的極致掌控。

創(chuàng)新架構(gòu)設(shè)計最大化硬件效能
HunyuanVideo 1.5的核心在于其對性能與效率的極致平衡。

它并沒有單純追求參數(shù)量的無限堆疊,而是選擇了一條更為精巧的路線。

模型采用了統(tǒng)一的Diffusion Transformer架構(gòu),這種架構(gòu)在處理序列數(shù)據(jù)時展現(xiàn)出了卓越的穩(wěn)定性。

為了在有限的計算資源下釋放最大潛能,研發(fā)團隊引入了8.3B參數(shù)的輕量化設(shè)計。

圖片
這并非簡單的“減配”,而是配合了專門設(shè)計的3D因果VAE編解碼器。

該編解碼器實現(xiàn)了空間維度16倍、時間維度4倍的高效壓縮。

這種高倍率的壓縮意味著模型在處理視頻數(shù)據(jù)時,吞吐量更大,顯存占用更低。

更為關(guān)鍵的技術(shù)突破在于SSTA機制。

傳統(tǒng)的視頻生成模型往往在長序列生成中面臨計算量爆炸的問題。

SSTA通過動態(tài)剪枝冗余的時空數(shù)據(jù),讓模型只關(guān)注畫面中真正變化和重要的部分。

這就像人類的視覺注意力一樣,自動過濾掉背景中的無效信息,從而顯著降低了計算開銷。

配合推理加速工程中集成的模型蒸餾與Cache優(yōu)化技術(shù),這一組合拳讓推理效率大幅提升。

開發(fā)者不再需要昂貴的H100集群,僅憑消費級顯卡即可流暢運行,真正實現(xiàn)了高性能視頻生成的普惠。

潛空間超分系統(tǒng)重塑畫質(zhì)細節(jié)
畫質(zhì)是視頻生成模型的生命線。

HunyuanVideo 1.5引入了一套完整的視頻超分增強系統(tǒng),將畫質(zhì)提升到了新的高度。

圖片
這套系統(tǒng)并非在像素層面進行簡單的插值放大,那樣往往會帶來模糊和網(wǎng)格偽影。

它選擇在潛空間(Latent Space)中工作,通過訓(xùn)練專用的上采樣模塊來重構(gòu)畫面。

潛空間的操作讓模型能夠理解圖像的語義結(jié)構(gòu),從而在增強畫面銳度與質(zhì)感的同時,智能修復(fù)可能產(chǎn)生的畸變。

結(jié)果是顯而易見的:低分辨率的生成結(jié)果被高效上采樣至1080p高清視頻。

配合全鏈路訓(xùn)練優(yōu)化策略,模型從預(yù)訓(xùn)練到后訓(xùn)練全流程都得到了精細打磨。

Moun優(yōu)化器的加入加速了模型的收斂過程,確保了運動連貫性與美學(xué)質(zhì)量的同步提升。

這種對細節(jié)的執(zhí)著,使得生成的視頻在視覺上達到了專業(yè)級內(nèi)容的效果。

無論是復(fù)古膠片的顆粒感,還是現(xiàn)代工業(yè)設(shè)計的冷冽質(zhì)感,都能得到精準(zhǔn)還原。