🤔 有没有想过,让图片里的人开口说话,甚至做出相应自然的肢体动作?以往的 AI 技术可能效果平平,但现在,即梦 AI 带来了对口型全新的“大师模式”🚀,快来一起看看它有多神奇吧!
上个月,字节跳动旗下的即梦 AI 就开始小范围内测 AI 数字人“大师模式”🌟,就是传说中坊间爆火的 OmniHuman-1[1] 模型。🎉

此外,汗青大佬(视频号 AI.TALK)就为此出了一部很好看的作品🎬,全流程 AI 打造。
经汗青大佬的启发,以及对 The First Take 这档音乐节目的喜爱🎧,豆福致敬并复刻了一部 AI 作品,
回顾AI数字人的过去
在对口型“大师模式”之前,即梦 AI 已经提供了两种口型模式,但都各有不足:
-
• 标准模式: 优点是能保持照片的原始比例,但缺点也很明显——只动嘴,身体其他部分就像木头一样僵硬。😐 -
• 生动模式: 这种模式下人物的表情会更自然一些,看起来更生动。然而,它会自动裁切除头部以外的部分。👶
为了解决这种问题💡,当然有其他方法,比如先生成人物的动态视频,比如:人物开口说话,伴随轻微肢体动作等,再进行对口型。这个方案虽然稍显麻烦,但在当时,已经是相对更好的对口型方案。
大师模式——对口型效果远超以往✨
而现在,有了 即梦 AI 的“OmniHuman-1”模型加持的“大师模式”,效果简直是质的飞跃💥,超越以往所有方案!它不仅解决了以上痛点问题,结果让人惊喜:全身自然律动💃、表情丰富细腻😊。
拿上面那部视频作品来说🎥:大师模式对口型不仅更自然协调,手部还能根据音乐旋律配合乐器的弹奏🎸。
👇下面豆福手把手教大家如何制作这类视频。
制作流程三步走👣
1️. (AI) 音乐: 首先,需要准备一段音乐,这里可以是现成的音乐,也可自行 AI 创作音乐。
2️. AI 出人物: 其次,需要有 AI 人物形象。
-
3. AI 对口型: 将音乐和人物,实现动态效果。
(AI)音乐🎶
如果是现成的音乐作品,直接下载好.mp3
格式拿来用就好了;如果是 AI 创作音乐,此处略,豆福此前写过不少 AI 音乐的教程📚,请到文章最下方👇推荐阅读
查阅。
💡Tips:
准备好的音乐文件,需要用剪映分割成15秒内的片段导出⏳,需要根据歌词调整分割的时长,以备第三步使用。
AI 出人物🎨
AI 出图出人物,首选 Midjourney[2] 或者 悠船[3](Midjourney国内代理商)🖼️,其次,也可以选择 即梦 AI 生图[4]。
这里注意一点🔍,除主角的图外,一定要另外出几张不同人(事)物、机位角度和景别的图,比如空镜、其他配角,以便视频切换镜头使用。
在这部作品中,我选择了主角的三个机位角度:左特写、右特写和测面近景📷,此外还给出了配角皮卡丘和可达鸭的镜头画面。
Midjourney Prompt
:
An ultra-realistic close-up shot of a beautiful Chinese girl's hands strumming the strings of an acoustic guitar. Her delicate fingers move gracefully, with short pink hair slightly visible in the frame. She wears a yellow T-shirt, and the guitar's black strap is subtly seen over her shoulder. The background is a soft light grey, illuminated by professional studio lighting. The focus is on the intricate details of her hands, the guitar strings, and the subtle textures of her skin. Ultra-realistic photo style, shot with a macro lens to capture every fine detail.


英文不好的,可以用翻译🌐,或者用 即梦 AI 输入中文提示词即可。
AI 对口型🎤
选择合适且好看的图片,进行图生视频和对口型。
图生视频📹
前奏或间奏不需要对口型的地方,选择图生视频,让静态图片动起来,比如:弹吉他🎸,敲架子鼓🥁,最终剪辑的时候,需要掐对音乐节奏🎶。
对口型(重点)🎯
打开即梦 AI 对口型[5]页面,操作如下图:

-
• 导入角色图片👤 -
• 选择大师模式🌟 -
• 上传(15秒内)本地配音🎧
大师模式解决了侧面对口型的难题🎭。在画面上,实现了动态效果和质感提升✨,在音乐上,它能识别歌词并展现丰富的面部表情😄,还支持多人弹唱🎤。
剪辑✂️
此处略。

更深层次的思考🧠
虽然以上三步操作步骤看起来简单,但要做出高质量的 AI 内容,需要一些音乐🎵和影视🎬方面的基本常识和审美能力👁️,也需要 AI 绘画🎨作为基础。
🎧 音乐基础
首先,音乐品味这个东西不在本文讨论范围🎶,萝卜白菜,各有所爱。
如果要用 AI 生成音乐,首推 Suno 🌞,尤其是英文歌曲。另外,需要了解一些音乐基础,例如节拍🎼、乐器和歌曲结构等。这样有助于后续出图的时候,不会出现明显的常识性基本错误❌。
🎬 影视基础
这部作品有多个机位角度的镜头📽️,为了避免视觉表现不穿帮,需要考虑镜头逻辑的关系。除了多机位角度的图片外,增加空镜以及配角的图片,是为了避免审美疲劳😴,看起来不是那么单调,让视觉表现更有趣🎭。
🖼️ 绘画基础
制作 AI 数字人形象需要好的审美👌和绘画基础🖌️,尤其是要注意人物一致性👥和场景一致性🏞️。
结语🎉
即梦 AI 对口型的大师模式,是目前最好的 AI 数字人解决方案🏆,没有之一!
当然,目前也有一些小问题⚠️,例如:不能用提示词来干预动态效果,抽卡概率更大了🎰,成本也比较高💰,只能一次生成最多15秒的内容⏱️,并且生成时间较慢🐢。
总的来说,它的出现,无疑将进一步推动了 AI 数字人应用和 AI 音乐 MV 的发展🚀,并为影视创作带来更多的可能性🌈。让我们一起期待它在未来能带来更多惊喜吧!🎊
暂无评论内容