Vidu

Vidu

分类:
AI一键换背景
更新日期:
2024-12-13 19:26
介绍

Vidu是由北京生数科技有限公司联合清华大学共同发布的中国首个长时长、高一致性、高动态性的视频大模型。

该模型于2024年4月27日在中关村论坛未来人工智能先锋论坛上正式发布,并于2024年7月30日上线。Vidu采用了团队原创的Diffusion与Transformer融合的架构U-ViT,这一核心技术由团队于2022年9月提出,是全球首个将这两种技术融合的架构,具有显著的技术创新性和知识产权优势。

高清视频生成:

Vidu能够一键生成长达16秒、分辨率高达1080P的高清视频内容。这种一键生成的方式,使得从文本到视频的转换过程直接且连续,不涉及中间的多步骤处理,如插帧等。

多镜头生成与时空一致性:

Vidu在生成视频时,能够围绕统一主体实现远景、中景、近景、特写等多种镜头的切换,包括生成长镜头、追焦、转场等效果,给视频注入丰富的镜头语言,显著提升画面的叙事感与质感。

同时,Vidu在保持时空一致性方面表现出色,能够在不同镜头之间保持画面主体的一致性,如服饰、表情、模态等,使得视频整体看上去非常连贯、统一和流畅。

模拟真实物理世界:

Vidu能够模拟真实物理世界的运动规律,如光影效果、物体的物理行为等,使得生成的视频内容更加逼真。例如,在模拟“一辆老式SUV行驶在山坡上”的场景中,Vidu能够准确地呈现灰尘、光影、背景等细节,与真实世界中人类的感知非常相近。

丰富的想象力:

除了模拟现实外,Vidu还能够基于文本描述或指令,创造出具有想象力的场景和故事。例如,“画室里的一艘船正在海浪中驶向镜头”这样的超现实主义画面,Vidu也能够合理地生成并呈现。

理解中国元素:

作为中国自研的视频大模型,Vidu能够生成特有中国元素的画面,如熊猫、龙、宫殿场景等,这体现了其在文化理解和表达方面的独特优势。

高动态性与高一致性:

Vidu在视频生成过程中,不仅注重画面的高清和逼真,还强调动态性和一致性。这使得生成的视频内容更加生动、连贯,能够满足多种应用场景的需求。

高效的推理速度:

据现场演示效果显示,Vidu的实测推理速度为生成一段4秒片段需要30秒。这表明Vidu在保持高质量视频生成的同时,也具备较快的处理速度。

综上所述,Vidu作为一款集高清视频生成、多镜头生成、时空一致性保持、真实物理世界模拟、丰富想象力、中国元素理解以及高效推理速度于一体的视频大模型,具有广泛的应用前景和巨大的市场潜力。

最新AI教程资讯
更多

小度全新AI硬件将于百度世界大会发布丨智谱AI、即梦AI上线新一代视频生成模型丨OpenAI安全系统团队负责人离职

【AI奇点网2024年11月11日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。

字节跳动内测豆包通用图像编辑模型SeedEdit丨Grok聊天机器人免费版内测丨月之暗面Kimi创始人被提起仲裁

【AI奇点网2024年11月12日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。

李彦宏:文心大模型日调用量超15亿丨百度发布文心「iRAG」文生图技术丨小度AI智能眼镜发布,搭载大模型边走边问

【AI奇点网2024年11月13日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。

巧妙利用这两个AI产品,让你的国庆出行没有废片

这两天就有朋友来问我,有没有那种能修图的AI,就是扩图+消除啥的傻瓜好用的。大家大概的需求总结一下其实就两,AI消除+AI扩图。

OpenAI初步谈妥融资70亿美元:最大金主微软追加投资10亿,苹果退出

据华尔街日报报道,苹果公司退出了对 OpenAI 的新一轮融资谈判,而微软则计划向 OpenAI 追加约 10 亿美元的投资。

详解Meta全新大模型Llama 3.2系列:多模态视觉识别能力媲美OpenAI GPT-4o

Meta公司推出了Llama 3 2,也是它首款能够理解图像和文本的旗舰视觉模型。包含中型和小型两个版本,以及更轻量化可用于手机端侧的纯文本模型。

同类最新
同类热门

网站地图