Seedance 2.0 雖強但閉源 - 開源模型 daVinci-MagiHuman 登場 單流架構解決聲畫同步問題
SII-GAIR 與 SandAI 近日聯合發佈全新的 daVinci-MagiHuman 模型。相比近期引起熱議但尚未開源的 Seedance 2.0,daVinci-MagiHuman 走完全開源路線。全球開發者現在無需受限於商業 API,即可直接部署並改良這項頂尖的影音生成技術。
傳統 AI 模型通常要分開處理影像與音訊,往往導致運算複雜。daVinci-MagiHuman 則採用單流 15B Transformer 架構,捨棄以往常見的跨注意力機制,將影音數據整合至單一自注意力路徑。這種設計從底層技術出發,解決了影片生成中常見的聲畫不同步問題所在。
推論速度:使用單張 Nvidia H100 GPU,僅需 38 秒即可生成 5 秒長的 1080p 高清影片。
視覺品質:在 2,000 人次的人類主觀評測中,daVinci-MagiHuman 面對 Ovi 1.1 的勝率高達 80%。
多語言支援:模型支援包括繁體中文在內的 6 種語言。
SII-GAIR 與 SandAI 近日聯合發佈全新的 daVinci-MagiHuman 模型。相比近期引起熱議但尚未開源的 Seedance 2.0,daVinci-MagiHuman 走完全開源路線。全球開發者現在無需受限於商業 API,即可直接部署並改良這項頂尖的影音生成技術。
傳統 AI 模型通常要分開處理影像與音訊,往往導致運算複雜。daVinci-MagiHuman 則採用單流 15B Transformer 架構,捨棄以往常見的跨注意力機制,將影音數據整合至單一自注意力路徑。這種設計從底層技術出發,解決了影片生成中常見的聲畫不同步問題所在。
推論速度:使用單張 Nvidia H100 GPU,僅需 38 秒即可生成 5 秒長的 1080p 高清影片。
視覺品質:在 2,000 人次的人類主觀評測中,daVinci-MagiHuman 面對 Ovi 1.1 的勝率高達 80%。
多語言支援:模型支援包括繁體中文在內的 6 種語言。