只看手势动作，就能完美复现音乐，MIT联合沃森实验室团队推出最新AI，多种高难度乐器信手拈来！

推荐星级：
授课对象：
上课地址：
授课学校：
浏览人数：

课程价格：

400-888-888

课程详情
学校环境
课程评价

本文摘要：会玩乐器的人在生活中简直自带光环！不过，学会一门乐器也真的很难，多少人陷入过从入门到放弃的死循环。但是，不会玩乐器，就真的不能演奏出好听的音乐了吗？最近，麻省理工（MIT）联合沃森人工智能实验室（MIT-IBMWatsonAILab）共同开发出了一款AI模型FoleyMusic，它可以根据演奏手势完美还原乐曲原声！而且还是不分乐器的那种，小提琴、钢琴、尤克里里、吉他，统统都可以。

威尼斯在线官网

会玩乐器的人在生活中简直自带光环！不过，学会一门乐器也真的很难，多少人陷入过从入门到放弃的死循环。但是，不会玩乐器，就真的不能演奏出好听的音乐了吗？最近，麻省理工（MIT）联合沃森人工智能实验室（MIT-IBMWatsonAILab）共同开发出了一款AI模型FoleyMusic，它可以根据演奏手势完美还原乐曲原声！而且还是不分乐器的那种，小提琴、钢琴、尤克里里、吉他，统统都可以。

只要拿起乐器，就是一场专业演奏会！如果喜欢不同音调，还可以对音乐风格进行编辑，A调、F调、G调均可。这项名为《FoleyMusic：LearningtoGenerateMusicfromVideos》的技术论文已被ECCV2020收录。接下来，我们看看AI模型是如何还原音乐的？会玩多种乐器的FoleyMusic如同为一段舞蹈配乐需要了解肢体动作、舞蹈风格一样，为乐器演奏者配乐，同样需要知道其手势、动作以及所用乐器。

如果给定一段演奏视频，AI会自动锁定目标对象的身体关键点（BodyKeypoints），以及演奏的乐器和声音。身体关键点：由AI系统中的视觉感知模块（VisualPerceptionModel）来完成。它会通过身体姿势和手势的两项指标来反馈。

一般身体会提取25个关2D点，手指提起21个2D点。乐器声音提取：采用音频表征模块（AudioRepresentationModel），该模块研究人员提出了一种乐器数字化接口（MusicalInstrumentDigitalInterface，简称MIDI）的音频表征形式。

它是FoleyMusic区别于其他模型的关键。研究人员介绍，对于一个6秒中的演奏视频，通常会生成大约500个MIDI事件，这些MIDI事件可以轻松导入到标准音乐合成器以生成音乐波形。在完成信息提取和处理后，接下来，视-听模块（Visual-AudioModel）将整合所有信息并转化，生成最终相匹配的音乐。

我们先来看一下它完整架构图：主要由视觉编码，MIDI解码和MIDI波形图输出三个部分构成。视觉编码：将视觉信息进行编码化处理，并传递给转换器MIDI解码器。

从视频帧中提取关键坐标点，使用GCN（Graph-CNN）捕获人体动态随时间变化产生的潜在表示。MIDI解码器：通过Graph-Transfomers完成人体姿态特征和MIDI事件之间的相关性进行建模。Transfomers是基于编解码器的自回归生成模型，主要用于机器翻译。

在这里，它可以根据人体特征准确的预测MIDI事件的序列。MIDI输出：使用标准音频合成器将MIDI事件转换为最终的波形。

实验结果研究人员证实FoleyMusic远优于现有其他模型。在对比试验中，他们采用了三种数据集对FoleyMusic进行了训练，并选择了9中乐器，与其它GAN-based、SampleRNN和WaveNet三种模型进行了对比评估。其中，数据集分别为AtinPiano、MUSIC及URMP，涵盖了超过11个类别的大约1000个高质量的音乐演奏视频。

乐器则为风琴，贝斯，巴松管，大提琴，吉他，钢琴，大号，夏威夷四弦琴和小提琴，其视频长度均为6秒。以下为定量评估结果：可见，FoleyMusic模型在贝斯（Bass）乐器演奏的预测性能最高达到了72%，而其他模型最高仅为8%。另外，从以下四个指标来看，结果更为突出：正确性：生成的歌曲与视频内容之间的相关性。

噪音：音乐噪音最小。同步性：歌曲在时间上与视频内容最一致。黄色为FoleyMusic模型，它在各项指标上的性能表现远远超过了其他模型，在正确性、噪音和同步性三项指标上最高均超过了0.6，其他最高不足0.4，且9种乐器均是如此。另外，研究人员还发现，与其他基准系统相比，MIDI事件有助于改善声音质量，语义对齐和时间同步。

说明GAN模型：它以人体特征为输入，通过鉴别其判定其姿态特征所产生的频谱图是真或是假，经过反复训练后，通过傅立叶逆变换将频谱图转换为音频波形。SampleRNN：是无条件的端到端的神经音频生成模型，它相较于WaveNet结构更简单，在样本级层面生成语音要更快。WaveNet：是谷歌Deepmind推出一款语音生成模型，在text-to-speech和语音生成方面表现很好。

威尼斯在线官网

另外，该模型的优势还在于它的可扩展性。MIDI表示是完全可解释和透明的，因此可以对预测的MIDI序列进行编辑，以生成AGF调不同风格音乐。

如果使用波形或者频谱图作为音频表示形式的模型，这个功能是不可实现的。最后研究人员在论文中表明，此项研究通过人体关键点和MIDI表示很好地建立视觉和音乐信号之间的相关性，实现了音乐风格的可拓展性。

为当前研究视频和音乐联系拓展出了一种更好的研究路径。以下为Youtobe视频，一起来感受下AI音乐!https://www.youtube.com/watch?v=bo5UzyDB80E引用链接：（）http://foley-music.csail.mit.edu/https://arxiv.org/pdf/2007.10984.pdfhttps://venturebeat.com/2020/07/23/researchers-ai-system-infers-music-from-silent-videos-of-musicians/原创文章，未经授权禁止转载。详情见转载须知。

本文关键词：只看,手势,动作,威尼斯在线官网,就能,完美,复现,音乐,MIT,联合

本文来源：威尼斯在线官网-www.gztxjhw.com

网上报名

学校信息

职业资格报考中心

职业资格证即职业资格证书，是表明劳动者具有从事某一职业所必备的学识和技能的证明。它是劳动者求职、任职、开业的资格凭证，是用人单位招聘、录用劳动者的主要依据，也是境外就业、对外劳务合作人员办理技能水平公...

只看手势动作，就能完美复现音乐，MIT联合沃森实验室团队推出最新AI，多种高难度乐器信手拈来！

网上报名

学校信息

同类课程推荐