IT之家10月27日上午报道,美团龙猫团队推出并开源LongCat-Video视频生成模型。据官方介绍,它在Vincent和图胜的基础视频任务上采用集成模型实现开源SOTA(state-of-the-art level),依靠原生视频接续任务的预训练实现一分钟长视频的连贯生成,并保证帧间时序的一致性和身体运动的合理性,在长视频生成领域具有巨大优势。前言称,近年来,“世界模型”让人工智能真正理解、预测、甚至重构现实世界,被视为引导下一代智能的核心引擎。 “世界模型”使人工智能能够“看到”世界作为一个可以模拟物理定律的智能系统的本质cs,时空的演变和场景的逻辑。视频生成模型有望成为全球模型构建的重要途径。通过压缩几何、语义和物理等各种形式的知识,通过视频生成任务,人工智能可以在数字空间中模拟、推断甚至预览现实世界的行为。 LongCat-Video是基于Diffusion Transformer(DiT)架构的多功能集成视频生成基础,创新性地通过“条件帧数”实现任务区分。 Vincent 的视频不需要条件帧,Tusheng 的视频引入了一帧参考图像并依靠多帧前导内容来延续视频。支持将三个主要任务主动整合,无需额外的模型适配,形成完整的“Vinson/Tusheng/Video Continuation”封闭任务循环。 Vincent Video:生成 720p、30fps 的高分辨率视频,准确分析文本中的物体、人物、场景、风格等详细说明。其语义理解和视觉呈现能力达到开源SOTA水平。图胜视频:严格保留参考图像的主题属性、背景关系、整体风格。动态过程遵循物理定律。支持多种输入类型,包括详细说明、简短说明和空说明。它具有内容的一致性和动态的自然性。视频续播:视频续播是长猫视频的核心差异化功能。继续基于帧的视频内容条件多帧视频,并为长格式视频生成提供本机支持。 LongCat-Video依靠视频延续任务预训练、分块非正式注意力机制和GRPO后训练,稳定生成5分钟长视频,且质量没有损失,号称已达到业界“顶级”水平。时间TI 主页附有以下链接: GitHub:https://github.com/meituan-longcat/LongCat-VideoHugging Face:https://huggingface.co/meituan-longcat/LongCat-VideoProject 页面: https://meituan-longcat.github.io/LongCat-Video/
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传并发布,网易号是一个仅提供信息存储服务的社交媒体平台。