今天介绍一款AI音乐工具,M2UGen ,由腾讯和新加坡国立大学研究团队共同发布。
M2UGen 模型是一种音乐理解和生成模型,利用大型语言模型的强大功能进行多模态音乐理解和生成。能够从文本、图像、视频和音频中进行音乐问答和音乐生成,以及音乐编辑。
项目地址:https://github.com/shansongliu/M2UGen/tree/main?tab=readme-ov-file#-model-testing
项目演示地址:https://crypto-code.github.io/M2UGen-Demo/
一、M2UGen产品框架及技术细节
M2UGen框架是一个多模态音乐理解和生成系统,它结合了大型语言模型(LLMs)的强大推理能力,以处理音乐、图像和视频等多种模态。
1、多模态特征编码器:
MERT音乐编码器:用于处理音乐输入,提取音乐特征。MERT模型在音乐标签任务中表现出色,因此被选为音乐编码器。
ViT图像编码器:用于处理图像输入,将图像分割成固定大小的补丁,并将其转换为补丁嵌入,然后输入到Transformer编码器中。
ViViT视频编码器:用于处理视频输入,提取视频的空间和时间信息,生成特征嵌入。
2、多模态理解适配器:
这些适配器用于将不同模态的编码器输出与LLaMA 2模型的输入对齐。适配器包含1D卷积层、线性投影层和由三个子块组成的密集网络。
3、LLM作为桥梁:
LLaMA 2模型用于理解输入的多模态上下文信息,并执行下游任务,如音乐问答和音乐生成指导。
4、音乐理解和生成:
音乐理解:直接由LLaMA 2模型处理,用于音乐问答和音乐描述。
音乐生成:通过探索和比较两种音乐解码器,AudioLDM 2和MusicGen,来生成音乐。音乐生成过程中,使用LLaMA 2模型的输出嵌入作为音乐解码器的输入。
5、训练方法:
冻结预训练编码器:在训练过程中,音乐、图像和视频的预训练编码器被冻结,专注于训练多模态理解适配器和输出投影层。
LoRA方法:采用LoRA(Low-Rank Adaptation)方法来训练LLaMA 2模型,以减少计算负担并提高训练效率。
损失函数:在训练过程中,使用交叉熵(CE)损失和均方误差(MSE)损失的组合,以确保模型在文本标记生成和生成音乐嵌入方面都表现出色。
6、数据集:
MUCaps数据集:包含文本-音乐对,用于训练音乐理解和生成任务。
MUImage数据集:用于训练模型生成与输入图像相匹配的音乐。
MUVideo数据集:用于训练视频到音乐的生成任务。
MUEdit数据集:用于训练音乐编辑任务,使模型能够根据自然语言提示编辑音乐。
二、M2UGen产品功能和作用
1、音乐理解:
音乐问答:M2UGen能够理解和回答关于音乐的问题,这包括对音乐的描述、乐器使用、节奏和情感等方面。
音乐描述:框架能够根据音乐文件生成详细的描述,包括音乐的风格、旋律、节奏和情感等元素。
2、音乐生成:
文本到音乐:基于文本描述,M2UGen能够生成相应的音乐作品。
图像到音乐:框架能够根据图像内容生成与之相匹配的音乐。
视频到音乐:M2UGen能够为视频内容生成背景音乐,增强视频的情感表达和氛围。
音乐编辑:M2UGen支持基于自然语言提示的音乐编辑,允许用户通过语言指令对生成的音乐进行修改,如添加、删除或调整音乐元素。
3、多模态整合:
跨模态理解:M2UGen能够整合来自不同模态(文本、图像、视频)的信息,以生成更加丰富和相关的音乐。
模态对齐:框架通过多模态理解适配器,将不同模态的特征与LLaMA 2模型的输入对齐,实现跨模态的理解和生成。
4、创意潜力:
艺术创作辅助:M2UGen可以辅助艺术家和音乐创作者,通过提供音乐生成和编辑的工具,激发创意灵感。
用户体验提升:用户可以利用M2UGen来总结视频内容并生成相应的音频评论或背景音乐,辅助视频创作过程。
5、研究贡献:
填补研究空白:M2UGen框架解决了利用LLMs同时进行音乐理解和生成的研究空白。
数据集构建:研究者通过自动化方法生成了大量数据集,支持模型训练,并对社区发展做出了贡献。
三、M2UGen模型评估结果
1、音乐理解:
评估指标:BLEU、METEOR、ROUGEL、BERT-Score。
结果:M2UGen模型在音乐理解任务上的表现与当前最先进的模型(如MU-LLaMA)相当或更优。这些指标用于衡量模型生成的音乐描述与目标描述之间的相似度和质量。
2、文本到音乐生成:
评估指标:Fréchet音频距离(FAD)、Kullback-Leibler散度(KL)、CLAP分数。
结果:M2UGen模型在文本到音乐生成任务上,使用AudioLDM 2和MusicGen作为音乐解码器时,表现出色。CLAP分数的提高表明生成的音乐与输入文本的关联性更强,FAD和KL分数的降低则反映了生成音乐的质量。
3、基于提示的音乐编辑:
评估指标:Fréchet音频距离(FAD)、Kullback-Leibler散度(KL)、Log Spectral Distance(LSD)。
结果:M2UGen在音乐编辑任务上,能够根据自然语言提示有效地编辑音乐。LSD分数用于评估编辑后音乐与目标音乐在频谱上的相似度,FAD和KL分数则反映了音乐编辑的质量。
4、多模态音乐生成:
评估指标:Fréchet音频距离(FAD)、Kullback-Leibler散度(KL)、ImageBind Ranking(IB Rank)。
结果:在图像到音乐(I2M)和视频到音乐(V2M)生成任务中,M2UGen模型展现了卓越的能力,无论是在生成音乐的质量还是与输入模态的关联性上,都超越了其他最先进的模型。IB Rank用于衡量生成音乐与输入图像或视频的匹配程度。
5、主观评估:
评估方法:通过40名参与者的主观评价,对文本到音乐(T2M)、图像到音乐(I2M)和视频到音乐(V2M)生成任务进行评估。
结果:M2UGen模型在所有三个子任务中都获得了最高的偏好度,表明用户认为其生成的音乐质量高,且与输入文本、图像或视频的关联性强。