前向神经网络下的音乐情感识别范文

时间：2022-08-07 05:20:10

前向神经网络下的音乐情感识别

摘要:情感是音乐的固有属性。本文通过对基于音乐多特征的比较，最终选择旋律走势作为情感特征，介绍了前向神经网络运用于音乐情感识别的基本原理，对使用前向神经网络(Feed－forwardneuralnetwork)进行音乐情感识别的结果进行分析。实验结果显示:前向神经网络在音乐情感识别领域有着较高的准确性，能够有效地对音乐情感进行识别。

关键词:情感识别;前向神经网络;特征提取

1引言

现如今多媒体技术和信号处理技术的快速发展，通过互联网作为媒介，数字音乐借此得到了更好的发展和传播，其中对海量在线音乐作品的管理和检索的需求日益增加。音乐的本质性特征是情感［1］，有研究发现，检索和描述音乐最常用的就是情感词［2］，基于音乐情感属性来组织和检索音乐的需求是客观存在的。音乐情感识别系统通过分析音乐的音频数据和其他相关信息构建计算模型［3］，从而实现音乐情感自动判别。深度学习(deeplearning)能从数据中学习音频的底层特征与高层概念的关系，而且机器学习在分类、回归与特征等中也取得了较好的结果。音乐情感识别正在面临着巨大的挑战，挑战产生的原因在于如何将音频信号的特征与音乐的情感语义之间存在着难以用物理参数描述的差异［4］，通过机器学习进行情感识别，也许能够跨越这一差异。前向神经网络在音乐相关研究中有着较为出色的表现，因此模型采用了前向神经网络。

2算法发展及研究现状

音乐情感识别已经研讨了很多年，音乐情感识别是涉及多个学科的跨学科领域，心理学、音乐学、机器学习、信号处理、模式识别、数据挖掘等都是音乐情感自动分析的相关领域。目前音乐情感识别主要通过机器学习的方式建立计算机模型［3］，从而进行音乐情感的识别。在2004年T．Li等［5－6］设计并实现了一种名为MARSYAS的情感检测系统，该系统完成了对音乐情感的模糊识别，通过提取诸如音调和节拍等音乐信息，然后将这些数据输入支持向量机(SVM)，对模型进行训练，从而实现音乐情感识别。同年M．Wang［7］等人也实现了自动识别音乐情感的工作，经过支持向量机(SVM对音乐频谱特征的提取，利用这些数据进行模型训练，从而识别音乐的情感类型。2009年CyrilLaurier等人通过监督学习进行模型训练完成音乐情感识别，运用支持向量机(SVM)进行音乐情感的主动标注，将特征提取的结果作为模型训练的输入。通过基因表达式编程(GEP)算法，浙江大学刘涛［8］对音乐情感表达的向量进行探索，剖析了情感语义之间的相似关系，最终完成了音乐特征空间到情感空间的映射。2014年Weninger等提出了基于循环神经网络(RecurrentNeuralNetwork，RNN)［10］情感识别方法。该使用频谱提取低层特征，在低层特征的轮廓上计算矩阵、百分位数和回归系数等一般特征作为RNN的前端输入，通过实验认证该模型优于支持向量回归(SVR)及前馈神经网络(FNN)。2016年Li等提出了基于DBLSTM(DeepBidirectionalLongShort－TermMemory)［11］的音乐动态情感预测方法。该方法基于多种尺度的时间序列训练多个DBLSTM，然后使用超限学习机(ExtremeLearningMachine，ELM)将训练结果融合起来得出结论。3FNN模型前向神经网络(Feed－forwardneuralnetwork)是神经网络中基础的网络架构，区别于循环神经网络(RNN)，前向神经网络的单元之间不形成连接，通过对输入进行各种非线性变化后对数据进行拟合。

2．1神经网络传播公式神经网络的传播方式包括前向传播和反向传播，前向传播指的是模型自底向上进行传播，根据给定的输入进行计算。反向传播根据向前传播计算结果计算损失值，反向传播错误使用梯度下降算法进行计算、训练各神经元参数。

2．2Softmax分类器本文对于FNN的训练采用Softmax作为激活函数，Softmax在多分类问题上有着不错的表现，因为Softmax每个神经元的输出为正且和为1，因此可将Softmax层的输出视为概率分布。对于计算结果就能得到一个直观的解释。

3情感识别整体框架

基于前向神经网络的音乐情感识别包括以下流程:(1)对音乐情感进行分类，根据种类构建数据集;(2)对数据集的数据进行特征提取，构建神经网络模型;(3)输入训练样本集训练得到输出值，计算误差，反向更新模型参数，重复此过程直至误差小于期望误差;(4)输入测试样本，进行测试。

4实验素材及分类设计

4．1音乐情感分类情感是非常主观的东西，不同的人之间存在较大差异，并且难以用合适的量级进行评价。音乐情感识别要完成的是对音乐作品的情感内涵进行自动分析，其中最重要的前提工作是对情感进行合理的分类。连续维度情感模型虽然能够细腻地将同类情感进行分类，但是对于音乐的分类不够直观，离散类别情感模型对情感的分类更接近人类体会音乐并进行描述的音乐情感，更适用于MIDI格式的符号乐曲的情感分类研究。为了研究情感分类对实验的准确度的影响，本次试验依据YangYH等人［15］所运用的情感模型将数据集的音乐情感粗略分为生机勃勃的(Exuber-ance)、焦虑的(Anxious)、令人满足的(Content-ment)、丧气的(Depression)。再次实验时，将以上四种情感更加细致地分为活力的(Aggressive)、苦乐参半的(Bittersweet)、快乐(Happy)、幽默的(Humor-ous)、激昂的(Passionate)五种情感。

4．2数据集构成我们通过网络爬虫在Yoube上收集了196首多音轨MIDI文件，演奏风格多样化，演奏乐器多样化、情感描述准确，对于这些音乐文件按照下载时情感标签分为四类，再根据具体需求进行更细致的分类。

5实验结果及分析

5．1特征提取文献［14］运用超梯度提升算法xgboost建立模型，将音乐的中高层次特征作为模型输入实现了音乐情感自动识别。在多维空间中将音乐特征输入结果与音乐情感进行非线性拟合，与低水平特征输入产生的结果相比，基于中高级特征的音乐情感识别模型的识别精度所能达到的精度有明显的提升。文中实验还发现情感识别受中高级特征影响的情况也有所差异，根据统计可以看出，各特征对音乐情感识精度的影响情况如下:速度＞调式＞旋律走势＞乐器＞和弦＞纹理＞节奏。音乐调式无法直接通过MIDI文件数据直接获取，需要专业人士对音乐文件进行分析后最终确定，旋律被称为音乐的首要要素，音乐的速度可通过MIDI文件数据直接获取但并不是音乐构成要素中最重要的，综合考虑特征提取的准确和难易程度，最终决定将音乐的旋律作为前向神经网络的输入，旋律走势可表示为一段时间的音乐音高的变化。

5．2基于FNN的音乐情感识别结果及分析随机选取相同数量的音频数据对FNN模型进行50次测试。

6结论

情感识别在音乐检索和数据服务方面有着不可动摇的地位，研究情感识别有着较高的现实意义。本文通过构建前向神经网络对音乐情感识别进行了研究，通过研究的实验数据可以看出，前向神经网络对于音乐情感识别有较高的准确度，同时该准确度受到分类数、音乐情感复杂程度的影响。神经网络的训练时间受到CPU或者GPU运行状态的影响，同时分类数的不同也会在一定程度上影响训练时间。由于较为复杂的音乐在不同的“段落”所表示的情感也许并不与整体情感相符合，这带来了识别的困难，导致前向神经网络对于此种类型的音乐判断准确率较低，若将同一音频数据分为多段，将多段输入到训练好的神经进行“投票”，对音乐情感的判断也许会更加准确、科学。同时通过使用更加复杂的神经网络架构进行试验，如与时间相关的分类问题上较为优秀的循环神经网络(RecurrentNeuralNetworks，RNN)对音乐情感分类进行研究，也许能够得到优于前向神经网络的结果。

作者：赵薇；王立昊；黄敬雯；周义楠单位：中国传媒大学理工学部

前向神经网络下的音乐情感识别范文

扩展阅读