豆包视频生成大模型发布，效果怎么样？

2024-09-26 17:19 由怡然说说发表于 #娱乐

2024 年 9 月 24 日，字节跳动旗下火山引擎发布了豆包视频生成大模型，包括 PixelDance 和 Seaweed 两款。从现场展示及各方反馈来看，其效果令人惊叹，达到业界先进水平。

该模型能实现自然连贯的多拍动作与多主体复杂交互，突破了此前视频生成模型大多只能完成简单指令的局限。例如，输入 “特写一个女人的面部，有些生气，戴上了一副墨镜，这时一个男人从画面右侧走进来抱住了她” 这样的复杂指令，视频画面不仅能遵循指令，按时序完成连续动作，两个主体间也能顺畅交互，人物表情还能准确传达指令所描述的情绪。有创作者体验后表示，生成的视频不仅能遵循复杂指令让不同人物完成多个动作指令互动，人物样貌、服装细节甚至头饰在不同运镜下也保持一致，接近实拍效果。

豆包视频生成模型基于 DiT 架构，通过高效的 DiT 融合计算单元，让视频在大动态与运镜中自由切换，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题，在镜头切换时可同时保持主体、风格、氛围的一致性。经过剪映、即梦 AI 等业务场景打磨和持续迭代，具备专业级光影布局和色彩调和，画面视觉极具美感和真实感。深度优化的 Transformer 结构大幅提升了泛化能力，支持 3D 动画、2D 动画、国画、黑白、厚涂等多种风格，适配电影、电视、电脑、手机等各种设备的比例，适用于电商营销、动画教育、城市文旅、微剧本等企业场景，也能为专业创作者和艺术家们提供创作辅助。目前，新款豆包视频生成模型正在即梦 AI 内测版小范围测试，未来将逐步开放给所有用户。

豆包视频生成大模型的特色功能

豆包视频生成大模型具有多项特色功能。其一，基于高效的 DiT 融合计算单元、全新设计的扩散模型训练方法和深度优化的 Transformer 结构，能够更充分地压缩编码视频与文本，支持一致性多镜头生成，大幅提升视频生成的泛化能力。其二，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力，让视频在大动态与运镜中自由切换。其三，攻克了多镜头切换的一致性难题，在镜头切换时可同时保持主体、风格、氛围的一致性。其四，经过剪映、即梦 AI 等业务场景打磨和持续迭代，具备专业级光影布局和色彩调和，画面视觉极具美感和真实感。

例如，在实际应用中，创作者输入 “一个侧对镜头的白人女人，摘掉墨镜，转身看向靠近她的杀手们” 这样复杂的指令，模型能够生成一段完整的视频。不仅人物的动作变化、镜头的变化能够准确呈现，新人物的出现也自然合理。而且，人物样貌、服装细节甚至头饰在不同运镜下也能保持一致，接近实拍效果。

豆包视频生成大模型的指令遵循效果

豆包视频生成大模型在指令遵循方面表现出色。此前的视频生成模型大多只能完成简单指令，而豆包视频生成模型能够实现自然连贯的多拍动作与多主体复杂交互。它可以遵循复杂指令，让不同人物完成多个动作指令的互动。比如，有创作者体验时发现，生成的视频中人物能够按照指令进行一系列动作，并且在不同运镜下，人物的外貌、服装细节等都能保持一致。这表明模型对复杂指令的理解和执行能力非常强，能够为创作者提供更多的创作可能性。

豆包视频生成大模型的画面美感

豆包视频生成大模型的画面具有极高的美感。经过专业级的光影布局和色彩调和，画面视觉极具真实感。无论是在色彩的搭配上，还是光影的运用上，都能给人带来视觉上的享受。例如，在一些生成的视频中，可以看到逼真的场景、细腻的人物表情以及丰富的色彩层次。这种美感不仅仅是表面的视觉冲击，更是通过对细节的精心处理和对整体氛围的营造所展现出来的艺术魅力。它能够为观众带来沉浸式的视觉体验，让人们仿佛置身于真实的场景之中。

豆包视频生成大模型的风格多样性

豆包视频生成大模型支持 3D 动画、2D 动画、国画、黑白、厚涂等多种风格，适配电影、电视、电脑、手机等各种设备的比例。这种风格的多样性为创作者提供了广阔的创作空间。无论是想要制作具有电影质感的大片，还是充满艺术气息的国画风格作品，或者是时尚的 2D 动画，都可以通过这个模型轻松实现。例如，在电商营销场景中，可以根据不同的产品特点和目标受众选择合适的风格，制作出吸引人的宣传视频；在动画教育领域，可以利用多种风格激发学生的创造力和想象力。

豆包视频生成大模型的适用场景

豆包视频生成大模型适用于多种场景。在电商营销方面，可以大幅降低视频制作成本，提高生产效率，制作出吸引人的广告片。在动画教育领域，能够为学生提供丰富的视觉素材，激发他们的创作灵感。城市文旅场景中，可以通过生成具有特色的视频，宣传城市的文化和旅游资源。微剧本创作中，也能为创作者提供辅助，帮助他们快速实现创意。此外，还能为专业创作者和艺术家们提供创作辅助，让他们在创作过程中获得更多的灵感和惊喜。

豆包视频生成大模型的发布带来了巨大的影响。它以其强大的特色功能、出色的指令遵循效果、高美感的画面、丰富的风格多样性以及广泛的适用场景，为视频创作领域带来了新的机遇和挑战。它不仅能够满足专业创作者的需求，也为普通用户提供了一种全新的创作方式。随着技术的不断进步和应用的不断拓展，相信豆包视频生成大模型将会在未来的视频创作中发挥更加重要的作用。