FreeMo，一个可以根据语音自动生成上半身手势的模型，就在这里!

2024-07-11 18:37| 来源: 网络整理| 查看: 265

FreeMo，一个可以根据语音自动生成上半身手势的模型，就在这里! 文字转语音 19/07/2022

三个要点✔️ 提议FreeMo，一个能自动生成上半身手势的模型，以响应语音。✔️ 提出了一种基于姿势模式分支和节奏运动分支的生成方法，与以往的手势生成模型不同。✔️ 在多样性、质量和同步性方面比现有的基线有明显的表现

Freeform Body Motion Generation from Speechwritten by Jing Xu, Wei Zhang, Yalong Bai, Qibin Sun, Tao Mei(Submitted on 4 Mar 2022)Comments: Published on arxiv.Subjects: Computer Vision and Pattern Recognition (cs.CV); Sound (cs.SD); Audio and Speech Processing (eess.AS)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

优秀的演讲者用他们的语言打出手势来有效地传达信息，这种手势在实现数字化身和社交机器人等应用方面已经变得至关重要。

然而，虽然生成唇部动作以匹配语音的研究已经广泛开展，但从语音到手势的翻译仍然没有得到充分的发展，因为它保留了一个高度不确定的方面。

具体来说，存在各种问题，如同一个人连续两次发表同样的演讲并不总是表现出同样的手势，在较长的演讲中可能偶尔切换停顿，以及较长演讲的手势生成困难。

本文介绍的FreeMo（自由形态运动生成模型）通过将手势分解为姿势模式和节奏运动两个模块来解决这些问题，并根据语音自动生成上半身手势。该模型成功地自动生成了响应语音的上半身手势。

FreeMo的概述。

FreeMo（自由形式运动生成模型）模型概述。下图显示。

语音合成的手势生成是指生成与输入语音相对应的一系列动作，这需要有一个从语音到手势的映射。

然而，这种映射是高度非确定性和多模态的，在现有的研究中一直是一个挑战。

为了解决这个问题，提议的方法将手势生成分解为两个互补的映射，即姿势模式分支和节奏动力学分支。

姿势模式分支负责通过VAE潜在空间的条件采样生成各种上身姿势，而节奏动力学分支负责将生成的姿势与语音的前景同步。

与现有的手势生成模型进行比较验证。

在这个实验中，使用以下五个模型进行了比较实验

音频到身体动力学（Audio2Body）：采用RNN网络进行语音到手势的转换。 Speech2Gesture（S2G）：采用CNN网络从语音中生成手势。语音驱动模板（Tmpt）：学习手势模板，以解决从语音到身体动作的映射中的模糊问题三元语境（TriCon）：采用RNN网络，从三个输入中学习：语音、文本和SpeakerID。 Mix-StAGE：一个生成模型，为每个说话人学习独特的风格嵌入。

根据现有的方法，该数据集使用Speech2Gesture数据集进行了测试，该数据集包含电视主播的视频，但由于大部分视频是电视节目，有很多来自环境的干扰，如观众和前台的声音。在手势限制方面也有问题，因为演讲者经常坐在椅子上或靠在桌子上。

因此，我们使用一个数据集进行了评估，该数据集包括来自TEDGesture数据集的讲座视频和从YouTube收集的视频。上面的数字显示了Speech2Gesture数据集和TEDGesture数据集的样本。

定性结果

下图显示了该方法与现有方法的定性比较结果。

结果显示，。

现有的方法在生成的手势中包含了手的变形（图中圈出和放大的区域），而这种方法几乎没有显示这种变形。由S2G和TriCon产生的手势通常是小动作，没有什么表现力。因此，现有的方法无法产生在地面实况数据中看到的明显的姿势变化（图中的红色框内区域）。与这些现有的方法相比，我们的方法FreeMo能够生成更自然、更具表现力的手势。

接下来，为了验证我们方法的手势多样性，我们从同一个初始姿势对同一个声音进行了多次手势生成。(红框显示了生成的手势和地面真实手势之间的姿势模式转换）。