基于文本、语音和视频融合的多模态情感分类方法[发明专利]
(12)发明专利申请
(10)申请公布号 CN 110287389 A(43)申请公布日 2019.09.27
(21)申请号 201910472457.5(22)申请日 2019.05.31
(71)申请人 南京理工大学
地址 210094 江苏省南京市玄武区孝陵卫
200号(72)发明人 夏睿 李晟华
(74)专利代理机构 南京理工大学专利中心
32203
代理人 孟睿(51)Int.Cl.
G06F 16/906(2019.01)G06K 9/62(2006.01)
权利要求书2页 说明书4页 附图4页
(54)发明名称
基于文本、语音和视频融合的多模态情感分类方法(57)摘要
本发明公开了一种基于文本、语音和视频融合的多模态情感分类方法,包括:获取多模态数据进行预处理,划分为训练集与测试集;构建基于张量融合的端对端多模态情感分类模型,并使用训练集对模型进行训练;对测试集进行步骤1的预处理操作,使用步骤2得到的张量融合情感分类模型进行情感分类。本发明通过多模态情感分类模型能更好地捕捉模糊的深层情感信息。
CN 110287389 ACN 110287389 A
权 利 要 求 书
1/2页
1.一种基于文本、语音和视频融合的多模态情感分类方法,其特征在于,包括以下步骤:
步骤1、获取多模态数据,对多模态数据进行预处理,并将多模态数据划分为训练集、测试集;
步骤2、构建基于张量融合的多模态情感分类模型,并使用训练集对基于张量融合的多模态情感分类模型进行训练;
步骤3、对测试集进行步骤1的预处理操作,使用步骤2得到的张量融合情感分类模型进行情感分类。
2.根据权利要求1所述的基于文本、语音和视频融合的多模态情感分类方法,其特征在于,所述多模态数据包括同频率音频数据、视频字幕数据以及视频数据。
3.根据权利要求2所述的基于文本、语音和视频融合的多模态情感分类方法,其特征在于,步骤1对多模态数据进行预处理的具体方法为:
将同频率音频数据进行对齐,将对其后的音频数据变换为时频图;将获取的视频字幕数据进行分词;将视频数据进行对齐。
4.根据权利要求1所述的基于文本、语音和视频融合的多模态情感分类方法,其特征在于,步骤2构建的基于张量融合的多模态情感分类模型包括输入层、表示层、融合层和分类层,其中:
输入层包括并列的词向量嵌入层、两个批标准化层,词向量嵌入层用于对分词后的视频字幕数据进行初始化,两个批标准化层用于分别对时频图、对齐后的视频数据预处理;
表示层包括与词向量嵌入层连接的循环神经网络、时频图批标准化层连接的一维卷积神经网络以及与视频数据批标准化层连接的三维卷积神经网络;
融合层用于按规则对表示层向量表示的视频字幕数据、时频图以及视频数据进行拼接;
分类层包括与融合层连接的多层全连接单元以及sigmoid激活函数。5.根据权利要求4所述的基于文本、语音和视频融合的多模态情感分类方法,其特征在于,融合层融合的规则为张量融合方法,即:
其中,zl、zv、za分别是视频字幕数据、视频数据以及时频图的低维表示向量,是Kronecker积,zm是融合数据的表示向量。
6.根据权利要求1所述的基于文本、语音和视频融合的多模态情感分类方法,其特征在于,步骤2使用训练集对基于张量融合的多模态情感分类模型进行训练的具体方法为:
利用有监督的方式最小化损失函数来对基于张量融合的多模态情感分类模型进行训练,基于张量融合的多模态情感分类模型的损失函数为二元交叉熵函数:
其中,y(i)∈{0,1}表示第i个样本是否属于正负类,当第i个样本属于正类时取值为1,
2
CN 110287389 A
权 利 要 求 书
2/2页
否则为0;hθ(x(i))表示第i个样本属于正类的概率,m表示样本个数。
3
CN 110287389 A
说 明 书
基于文本、语音和视频融合的多模态情感分类方法
1/4页
技术领域
[0001]本发明属于自然语言处理技术,具体为一种基于文本、语音和视频融合的多模态情感分类方法。
背景技术
[0002]目前,相关的社交媒体网站每天都在生产大量的带有丰富情感信息的视频数据,从而产生了大量的面向文本、语音、视频多模态的观点挖掘和情感分析技术,这一技术不仅是自然语言处理和情感分析领域的学术前沿问题和热点研究问题,也是应用领域亟待解决的重要问题,具有不可估量的应用价值和社会意义,同时也具有很大的挑战。[0003]在机器学习方法兴起之前,情感分析主要由人工进行,成本较高,得到的精度也不稳定。传统机器学习、传统的多模态方法都主要依赖特征工程的思路,在语音、视频端都使用人工抽取的特征,然而由于情感的表达具有模糊性,人工抽取的特征往往难以抽取情感的深层表达,情感识别的正确率还有很大的提升空间。发明内容
[0004]本发明的目的在于提出了一种基于文本、语音和视频融合的多模态情感分类方法。
[0005]实现本发明的技术解决方案为:一种基于文本、语音和视频融合的多模态情感分类方法,包括以下步骤:[0006]步骤1、获取多模态数据,对多模态数据进行预处理,并将多模态数据划分为训练集、测试集;[0007]步骤2、构建基于张量融合的多模态情感分类模型,并使用训练集对基于张量融合的多模态情感分类模型进行训练;[0008]步骤3、对测试集进行步骤1的预处理操作,使用步骤2得到的张量融合情感分类模型进行情感分类。[0009]优选地,所述多模态数据包括同频率音频数据、视频字幕数据以及视频数据。[0010]优选地,步骤1对多模态数据进行预处理的具体方法为:[0011]将同频率音频数据进行对齐,将对其后的音频数据变换为时频图;[0012]将获取的视频字幕数据进行分词;[0013]将视频数据进行对齐。[0014]优选地,步骤2构建的基于张量融合的多模态情感分类模型包括输入层、表示层、融合层和分类层,其中:
[0015]输入层包括并列的词向量嵌入层、两个批标准化层,词向量嵌入层用于对分词后的视频字幕数据进行初始化,两个批标准化层用于分别对时频图、对齐后的视频数据预处理;
[0016]表示层包括与词向量嵌入层连接的循环神经网络、时频图批标准化层连接的一维
4
CN 110287389 A
说 明 书
2/4页
卷积神经网络以及与视频数据批标准化层连接的三维卷积神经网络;[0017]融合层用于按规则对表示层向量表示的视频字幕数据、时频图以及视频数据进行拼接;
[0018]分类层包括与融合层连接的多层全连接单元以及sigmoid激活函数。[0019]优选地,融合层融合的规则为张量融合方法,即:
[0020][0021]
其中,zl、zv、za分别是视频字幕数据、视频数据以及时频图的低维表示向量,是
Kronecker积,zm是融合数据的表示向量。[0022]优选地,步骤2使用训练集对基于张量融合的多模态情感分类模型进行训练的具体方法为:[0023]利用有监督的方式最小化损失函数来对基于张量融合的多模态情感分类模型进行训练,基于张量融合的多模态情感分类模型的损失函数为二元交叉熵函数:
[0024]
其中,y(i)∈{0,1}表示第i个样本是否属于正负类,当第i个样本属于正类时取值为1,否则为0;hθ(x(i))表示第i个样本属于正类的概率,m表示样本个数。[0026]本发明与现有技术相比,其显著优点为:(1)本发明使用的主要都是原始数据,只做了一些简单的数学变换,不仅在处理上易于实施,同时能更好地利用端对端模型进行深度抽取;[0027](2)本发明构建的基于张量融合的多模态情感分类模型使得文本、语音、视频数据都可以进行融合表示,具有较好的灵活性,同时本发明提高了预测情感类别的准确性。[0028]下面结合附图对本发明做进一步详细的描述。
[0025]
附图说明
[0029]图1为本发明的流程图。
[0030]图2为时频图计算方法示意图。
[0031]图3为本发明的基于张量融合的多模态情感分类模型示意图。[0032]图4为实施例情感分析示意图。
具体实施方式
[0033]如图1所示,一种基于文本、语音和视频融合的多模态情感分类方法,具体步骤为:[0034]步骤1、获取多模态原始数据,所述多模态数据包括同频率音频数据、视频字幕数据以及视频数据,对多模态数据进行预处理,并将多模态数据划分为训练集、测试集,对多模态数据进行预处理的具体方法为:
[0035]将获取的视频字幕数据进行分词,依据词进行划分,从而获得文本模态数据;[0036]如图2所示,对于同频率音频数据,若长度不同,取最大长度将全部音频数据填充至最长的音频具有的长度,不足的部分用零补足;然后将对齐的音频数据做短时傅里叶变
5
CN 110287389 A
说 明 书
3/4页
换获取时频图,从而获得音频模态数据。对于一个时序信号x(t),窗函数w(t),可求得傅里叶变换函数X(t,f)如下:
[0037]
然后可由以下公式计算时频图函数SP(t,f):[0039]SP(t,f)=|X(t,f)|2[0040]对于视频数据,对其先逐帧读取为图片的集合;若长度、尺寸不一,则将图片转化为同一尺寸,并按最大长度填充所有视频转化为的图片集合;当帧数过多时,使用下采样减少总帧数,从而获得视频模态数据。[0041]步骤2、构建基于张量融合的多模态情感分类模型,并使用训练集对模型进行训练,如图3所示,所述基于张量融合的多模态情感分类模型包括:输入层、表示层、融合层和分类层,其中:
[0042]所述输入层包括并列的词向量嵌入层、两个批标准化层,词向量嵌入层用于对分词后的视频字幕数据进行初始化,两个批标准化层用于分别对时频图、对齐后的视频数据预处理。词向量使用谷歌BERT模型对预处理后的视频字幕数据训练得到;[0043]所述表示层包括与词向量嵌入层连接的循环神经网络、时频图批标准化层连接的一维卷积神经网络以及与视频数据批标准化层连接的三维卷积神经网络。对于循环神经网络层,一般使用双层长短期记忆网络(LSTM),对于卷积神经网络层,层与层间使用批标准化层与最大池化层进行连接;最后,使用一些全连接单元与融合层进行连接,从而分别获得融合前的文本、视频、语音的低维表示向量zl、zv、za;
[0044]所述融合层用于按规则对表示层向量表示的视频字幕数据、时频图以及视频数据进行拼接,一般采用张量融合方法,使用的规则为张量融合方法可以用下列公式进行描述:
[0045][0046]
[0038]
其中,zl、zv、za分别是视频字幕数据、视频数据以及时频图的低维表示向量,是
Kronecker积,zm是融合数据的表示向量。
[0047]所述分类层先用多层(建议为两层)的全连接单元对融合向量进行处理,得到表示向量r,再使用sigmoid激活函数对得到的表示向量r进行分类,即:[0048]p=sigmoid(W·r+b)[0049]其中,W和b为权重参数。
[0050]构建好基于张量融合的多模态情感分类模型后,利用有监督的方式最小化损失函数来对基于张量融合的多模态情感分类模型进行训练,基于张量融合的多模态情感分类模型的损失函数为二元交叉熵函数:
[0051]
其中,y(i)∈{0,1}表示第i个样本是否属于正负类,当第i个样本属于正类时取值
为1,否则为0;hθ(x(i))表示第i个样本属于正类的概率,m表示样本个数。[0053]步骤3、对测试集进行步骤1的预处理操作,使用步骤2得到的张量融合情感分类模
[0052]
6
CN 110287389 A
说 明 书
4/4页
型进行情感分类。[0054]实施例
[0055]如图4所示,本实施例以卡耐基梅隆大学的MOSI数据集为例,首先获取其三模态的原始数据,再进行预处理。
[0056]标注对应片段的情感标签,并将对应的视频字幕数据(文本模态)、同频率音频数据(音频模态)、视频数据(视频模态)对齐。比如:[0057]普通的样本:“I love this movie.”从语义可以直接标注情感类别为积极;[0058]语义模糊的样本:“The movie is sick.”结合声音较大、视频中有明显的皱眉,可标注情感类别为消极;[0059]在训练阶段,把<文本,语音,视频,情感>原始样本送入基于张量融合的多模态情感分类模型进行训练,得到情感分类模型,用于测试时评断测试样例的情感类别;在测试阶段,输入测试的视频字幕数据、同频率音频数据、视频数据,得到测试样本相关的情感类别。
7
CN 110287389 A
说 明 书 附 图
1/4页
图1
8
CN 110287389 A
说 明 书 附 图
2/4页
图2
9
CN 110287389 A
说 明 书 附 图
图3
10
3/4页
CN 110287389 A
说 明 书 附 图
4/4页
图4
11
因篇幅问题不能全部显示,请点此查看更多更全内容