FreeMo,一个可以根据语音自动生成上半身手势的模型,就在这里! 您所在的位置:网站首页 rapelay角色语音对应的中文 FreeMo,一个可以根据语音自动生成上半身手势的模型,就在这里!

FreeMo,一个可以根据语音自动生成上半身手势的模型,就在这里!

2024-07-11 18:37| 来源: 网络整理| 查看: 265

FreeMo,一个可以根据语音自动生成上半身手势的模型,就在这里! 文字转语音 19/07/2022

三个要点✔️ 提议FreeMo,一个能自动生成上半身手势的模型,以响应语音。✔️ 提出了一种基于姿势模式分支和节奏运动分支的生成方法,与以往的手势生成模型不同。✔️ 在多样性、质量和同步性方面比现有的基线有明显的表现

Freeform Body Motion Generation from Speechwritten by Jing Xu, Wei Zhang, Yalong Bai, Qibin Sun, Tao Mei(Submitted on 4 Mar 2022)Comments: Published on arxiv.Subjects: Computer Vision and Pattern Recognition (cs.CV); Sound (cs.SD); Audio and Speech Processing (eess.AS)code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

优秀的演讲者用他们的语言打出手势来有效地传达信息,这种手势在实现数字化身和社交机器人等应用方面已经变得至关重要。

然而,虽然生成唇部动作以匹配语音的研究已经广泛开展,但从语音到手势的翻译仍然没有得到充分的发展,因为它保留了一个高度不确定的方面。

具体来说,存在各种问题,如同一个人连续两次发表同样的演讲并不总是表现出同样的手势,在较长的演讲中可能偶尔切换停顿,以及较长演讲的手势生成困难。

本文介绍的FreeMo(自由形态运动生成模型)通过将手势分解为姿势模式和节奏运动两个模块来解决这些问题,并根据语音自动生成上半身手势。该模型成功地自动生成了响应语音的上半身手势。

FreeMo的概述。

FreeMo(自由形式运动生成模型)模型概述。下图显示。

语音合成的手势生成是指生成与输入语音相对应的一系列动作,这需要有一个从语音到手势的映射。

然而,这种映射是高度非确定性和多模态的,在现有的研究中一直是一个挑战。

为了解决这个问题,提议的方法将手势生成分解为两个互补的映射,即姿势模式分支和节奏动力学分支。

姿势模式分支负责通过VAE潜在空间的条件采样生成各种上身姿势,而节奏动力学分支负责将生成的姿势与语音的前景同步。

与现有的手势生成模型进行比较验证。

在这个实验中,使用以下五个模型进行了比较实验

音频到身体动力学(Audio2Body):采用RNN网络进行语音到手势的转换。 Speech2Gesture(S2G):采用CNN网络从语音中生成手势。 语音驱动模板(Tmpt):学习手势模板,以解决从语音到身体动作的映射中的模糊问题 三元语境(TriCon):采用RNN网络,从三个输入中学习:语音、文本和SpeakerID。 Mix-StAGE:一个生成模型,为每个说话人学习独特的风格嵌入。

根据现有的方法,该数据集使用Speech2Gesture数据集进行了测试,该数据集包含电视主播的视频,但由于大部分视频是电视节目,有很多来自环境的干扰,如观众和前台的声音。在手势限制方面也有问题,因为演讲者经常坐在椅子上或靠在桌子上。

因此,我们使用一个数据集进行了评估,该数据集包括来自TEDGesture数据集的讲座视频和从YouTube收集的视频。上面的数字显示了Speech2Gesture数据集和TEDGesture数据集的样本。

定性结果

下图显示了该方法与现有方法的定性比较结果。

结果显示,。

现有的方法在生成的手势中包含了手的变形(图中圈出和放大的区域),而这种方法几乎没有显示这种变形。 由S2G和TriCon产生的手势通常是小动作,没有什么表现力。 因此,现有的方法无法产生在地面实况数据中看到的明显的姿势变化(图中的红色框内区域)。 与这些现有的方法相比,我们的方法FreeMo能够生成更自然、更具表现力的手势。

接下来,为了验证我们方法的手势多样性,我们从同一个初始姿势对同一个声音进行了多次手势生成。(红框显示了生成的手势和地面真实手势之间的姿势模式转换)。

这里值得注意的是,姿势模式分支能够从任意的初始姿势生成各种手势,而由节奏运动分支生成的手势则与音频充分同步。

主观评价

该文件进一步在以下条件下针对几个基线进行了用户研究

在每个数据集中,随机选择50个10至30秒的调谐测试音频片段。 十名参与者被要求合作,每个人都被要求观看随机选择的十个音频片段的视频 参与者被要求对不同模型产生的视频进行评分,评分标准为1-6分(1分最差,6分最好)。

下图显示了10项得分的平均值。

在这两个数据集上,本文的建议FreeMo得分最高,并被判断为对许多用户产生了更自然和更有表现力的手势 。

摘要

情况如何?在这个问题上。一个能根据语音自动生成上半身手势的模型,。FreeMo(自由形式的运动生成模型),这是一个响应语音而自动生成上半身手势的模型。

这项研究的结果非常有趣,因为它们导致了虚拟代理的构建,这对于诸如机器人领域中使用的社交机器人和Metaverse中流行的数字化身等应用是至关重要的。

另一方面,这种技术可能存在被滥用的风险,例如生成虚假的视频,因此需要谨慎行事。

所介绍的模型结构和生成的手势的细节可以在本文中找到,感兴趣的人可以参考一下。

メルマガ登録(ver ライター エンジニア_大募集!!

与本文相关的类别

语音识别 机器学习 深度学习 估算 文字转语音 生成模型 田中侑李 avatar 田中侑李


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有