引言

Open-Sora 2.0是由潞晨科技于2025年3月13日推出的开源视频生成模型,其核心特点在于以极低成本实现高性能视频生成。该模型采用11B参数规模,通过3D自编码器、Flow Matching训练框架及多桶训练机制,支持720p分辨率、24 FPS流畅视频生成,并能精准控制动作幅度和场景切换。

样例

Open-Sora

官网截图

Open-Sora

Open-Sora

技术突破与成本优势

  1. 低成本训练:仅需20万美元(224张GPU)即可完成训练,成本仅为同类闭源模型的1/30。通过低分辨率优先训练、图生视频预训练及高效并行方案(如ColossalAI框架),显著降低算力消耗。
  2. 性能对标闭源巨头:在VBench评测中,其与OpenAI Sora闭源模型的性能差距从4.52%缩小至0.69%,并超越腾讯HunyuanVideo(30B参数)等开源模型。
  3. 推理加速:采用4×32×32高压缩比自编码器,将768px视频生成时间从30分钟缩短至3分钟,速度提升10倍。

开源生态与影响

Open-Sora 2.0全面开源模型权重、推理代码及分布式训练全流程,推动技术普惠。其GitHub仓库开放后迅速成为全球影响力最大的开源视频生成项目,半年内论文引用量近百次。

开源地址

https://github.com/hpcaitech/Open-Sora?tab=readme-ov-file

总结

这一突破标志着视频生成进入“百美元时代”,为影视、教育、广告等行业提供了低成本、高定制化的创作工具,同时也引发了对深度伪造等伦理问题的讨论。