利用电生理信号进行情绪识别的多模态机器学习方法

您所在的位置:网站首页 塑料杯分类识别方法 利用电生理信号进行情绪识别的多模态机器学习方法

利用电生理信号进行情绪识别的多模态机器学习方法

2024-07-17 02:53:50| 来源: 网络整理| 查看: 265

摘要

本研究探索了一种通过机器学习进行情绪识别的新方法,该方法解决了以往研究方法中存在的局限性。虽然深度学习在这一领域具有广泛的应用前景,但通常需要大量的计算资源和时间。因此,本文提出了一种利用特征级融合(FLF)和决策级融合(DLF)的多模态方法,以提高性能的同时降低复杂性。本研究重点在于整合脑电图(EEG)、肌电图(EMG)和眼电图(EOG)信号。信号预处理包括统计特征提取、功率谱密度(PSD)和增量熵分析。采用递归特征消除(RFE)作为特征选择器,便于不同信号特征的融合。本研究探讨了三种融合策略:EEG与EOG融合、EEG与EMG融合,以及EEG与EOG和EMG的融合。在分类方面,选择了Bagging分类器和K最近邻算法。研究结果表明,在样本依赖(subject-dependent)分类中,唤醒分类的准确率为95.7%,效价分类的准确率为96.41%;在样本独立(subject-independent)分类中,唤醒分类的准确率为93.68%,效价分类的准确率为93.23%。这为深度学习方法提供了一种可行的替代方案,在减少计算成本的同时提高了性能。

引言

情绪在我们日常生活中起着至关重要的作用,并极大地影响着我们的主观幸福感。研究人员研究了不同的情绪识别方法,例如分析面部表情、语调和生理信号。在这些方法中,电生理信号被认为是检测真实情绪最可靠的方法,因为面部表情和语调是可以被操纵的。心电图(ECG)、肌电图(EMG)、脑电图(EEG)、眼电图(EOG)、皮肤电反应(GSR)和体积描记图(plethysmography)是一些可用于情绪识别的电生理信号。此外,研究揭示了EEG信号可以有效地识别情绪,为个体的情绪状态提供可靠而精确的反馈。

EEG是一个广泛研究的主题,并且可以结合机器学习和深度学习方法来进行研究。方法的选择取决于具体的任务和可用的资源。研究人员通常更倾向于深度学习,因为特征提取过程是自动化的,这与通常可以提供更好模型性能的机器学习不同。虽然深度学习有效,但要达到预期的结果可能需要耗费大量资源和时间。

因此,多模态方法是一种提高预测模型精度的有效方法。这需要结合多个模型,每个模型专门处理不同的数据模态,以提供更全面和精确的数据分类。各种应用,包括图像和语音识别、自然语言处理和人类行为分析,都已成功地实现了这项技术。多模态方法使研究人员能够开发更有效和更高效的预测模型。该方法有两种分类方式:特征级融合(通过结合其他信号的特征来生成新的特征向量,然后使用适当的分类器对其进行分类);决策级融合(利用来自多个信号分类的预测结果来确定新的行为预期结果)。研究人员已经通过结合行为方法和生理信号,以及行为技术和生理信号,尝试了不同的基于多模态的方法。

在许多研究中,从信号中提取的所有特征都被用于分类,而没有考虑特征选择过程。然而,特征选择过程可以提高模型的性能。因此,本研究旨在通过进行全面的特征选择过程来提高模型的性能,并将结果与深度学习进行比较,具体如下:

1.确定多模态方法是否能通过生理信号帮助改善情绪识别。

2.尝试不同的分类器,并确定最优的情绪识别模型。

3.尝试提高样本依赖和样本独立分类的情绪检测可靠性。

4.对深度学习模型和多模态机器学习模型进行比较。

本研究提出应用递归特征消除(RFE)作为一种特征选择方法。此外,本研究采用了多模态方法,整合了不同类型的电生理信号,以增强情绪识别机器学习模型的可靠性。这种方法允许我们利用多个数据源之间的协同作用,从而获得更稳健和准确的模型。

方法

在实验过程中,使用了一台Windows 11、AMD Ryzen 5 5600H CPU和16GB RAM的笔记本电脑。使用Python版本3.10.9编写代码,本研究方法如图1所示。

图1.分类过程示意图。

数据集

用于情绪分类的三个具有代表性的脑电信号数据集分别是DEAP、SEED和DREAMER。DEAP数据集包含32名参与者在观看40个视频片段时的脑电信号(32通道)。每个参与者对视频的唤醒度、效价、喜爱度、支配性和熟悉度进行评分。

SEED数据集包含15名参与者在观看积极、中性和消极情绪视频时的脑电信号和眼动记录。DREAMER数据集包含23名参与者在视听刺激期间的EEG信号(14通道)和ECG信号(2通道)。参与者在5点量表上对唤醒度、效价和支配性进行评分。DEAP数据集的原始数据包括EEG、EOG和EMG信号,采样率为512Hz,并对信号进行预处理以进一步用于特征提取(表1)。

茗创科技此前有分享过关于情绪脑电研究的公开数据集,详情请点击阅读推文→资源分享|情绪脑电研究公开数据集,这篇推文不仅包含了上述所提到的DEAP、SEED和DREAMER数据集,还介绍了其他情绪脑电研究数据集,并附带了这些数据集的下载链接,希望对该领域的研究者有所帮助。

表1.最流行的情绪识别公共数据集。

预处理

与情绪有关的EEG信号主要分布在θ(4-8Hz)、α(8-12Hz)、β(12-30Hz)和γ(30−45Hz)频段。对EEG信号进行5-45Hz的带通滤波。去除EOG,并将信号降采样至128Hz,以提高计算效率和减少计算时间。将EEG信号进行共同平均参考(CAR)是一种常见的做法,方法是计算所有电极的平均值,然后从每个电极样本中减去该均值。在进行标准化处理后,将数据分割成60s的试次段,然后移除每个试次前3s的基线数据。接下来,对信号进行加窗处理以提高情绪识别性能。根据Cai等人(2023)的研究发现,对于EEG和EOG信号,样本依赖性分析(subject-dependent)的最佳窗长为10s;样本独立性分析(subject-independent)的最佳窗长为5s。为了减少EEG通道数量以提高计算效率和模型精度,采用通道选择方法来实现这一目标;通常情况下,最佳通道数是13个。当选择的通道数超过13时,精度并没有明显改善。

用于唤醒分析的13个通道分别为Fp1、C3、F7、FC5、T7、F8、T8、P8、F3、FC1、C4、P3和AF3。用于效价分析的13个通道分别为Fp1、AF3、F7、F8、FC5、T7、C4、T8、Oz、F3、P3、P4和P8。

对于EOG和EMG信号,将其降采样至128Hz,分割成60s的试次段,并去除试次前3s的基线数据;对于样本依赖分类,这两个信号都被分割成10s长的窗口,窗口之间有5s的重叠;对于样本独立分类,窗长为5s,重叠为2.5s。这样做可以确保我们能够为所有3个信号创建相同数量的样本,有助于构建特征级融合向量,并且在决策级融合时具有相同数量的投票样本。预处理完成后,对信号进行特征工程处理。

特征工程

对于单模态数据,特征工程主要包括两个部分:特征提取和特征选择。但对于多模态数据,增加了特征融合部分,从而将不同模态的特征进行融合。特征工程过程在提高机器学习模型的性能和实现更好的预测精度方面发挥着重要作用。

(1)特征提取

特征提取是情绪分类中的一个重要过程,特征提取质量直接影响情绪分类的准确性。通过对信号进行预处理,结合统计特征、增量熵(IE)等时域特征和功率谱密度(PSD)等频域特征来构建特征向量。本研究提取了均值、方差、标准差(std)、最大值和最小值等统计特征。增量熵(IE)用于测量时间序列的复杂性,并且可以检测突然或剧烈的信号变化。本研究还提取了,使用Welch方法将功率谱密度(PSD)分成4个EEG频段(θ、α、β和γ),其中采用了256个样本窗口和128个重叠样本。本研究对每个频段取平均值,对于EOG和EMG,我们在特征向量中使用了来自PSD的所有特征。EEG特征向量有13(通道)×10(上述提取的特征)个特征。最后,使用特征降维技术来改进本研究的模型。

(2)特征选择

为了提高分类模型的准确性,需要从数据集中仅选择相关且具有影响力的特征。这个过程称为特征选择,本研究将使用递归特征消除(RFE)来实现这一目的。RFE的工作原理是在初始特征集上训练估计器,然后通过特定属性或可调用函数确定每个特征的重要性。然后,从当前的特征集中删除最不重要的特征,并在修剪的集合上递归地重复该过程,直到最终达到所需的特征数量。

在本研究的分类任务中,使用了RFE估计器,其中对于EEG信号使用了决策树分类器,对于EOG和EMG信号则使用了极端随机树分类器。一旦获得了特征向量,我们就能够有效地对单个模态进行分类。然而,由于本研究处理的是多种模态数据,所以必须应用特征融合技术来结合所有模态的特征,以获得更全面的数据表征。

(3)特征融合

多模态分类有两种类型,即特征级融合和决策级融合。在特征级融合中,将信号的特征组合在一个数组中,并在此基础上训练/测试分类器;在决策级融合中,在分类过程后使用投票来确定预测,然后计算精度和性能指标。对于特征级融合,本研究尝试将EEG信号的特征与从EOG和EMG提取的特征进行融合,然后将这三个信号的特征组合成一个向量。在特征选择后进行融合,以确保涵盖所有对分类影响较大的特征。

分类

在对被试数据进行分类时,可以采取两种方法:样本依赖和样本独立。样本依赖方法包括使用从每个被试中提取的特征来训练和测试分类器。然而,这种方法的一个潜在缺点是结果可能会偏向于用于训练的那些被试,从而导致分类器在处理未曾训练过的被试数据时表现不佳。

相比之下,样本独立分类将每次实验视为一个独立的样本。在进行分类之前,数据被分为80%的训练样本和20%的测试样本。本研究针对每个信号和融合方式测试了7种不同的分类器,包括AdaBoost、bagging、决策树、K最近邻(KNN)、梯度提升、随机森林(RF)和支持向量机(SVM),以确定最优分类器。本研究对训练样本进行了10折交叉验证,以验证模型的性能。

深度学习

如前所述,深度学习算法可以提供更好的模型可靠性。但缺点是需要大量的计算资源,而且模型耗时较长。本研究将我们的模型与现有的深度学习模型进行比较,以展示深度学习与机器学习之间的差异。对于深度学习模型,本研究使用了Maheshwari等人(2021)提供的多通道EEG深度卷积神经网络情绪识别代码。

结果与讨论

为评估模型的性能,选择准确率、F1分数、混淆矩阵(真阳性(TP)、假阳性(FP)、真阴性(TN)、假阴性(FN))、灵敏度、特异度、精确率以及曲线下面积作为性能指标。本研究还在所有可用的分类阈值上构建了接收者操作特征曲线(ROC)。ROC曲线的Y轴表示真阳性率(TPR),X轴表示假阳性率(FPR)。TPR又称召回率,是指模型正确预测为真阳性的比率,如公式(5)所示。相比之下,FPR是假阳性样本数与所有真阴性样本数的比率,如公式(6)所示;ROC曲线通过在各种阈值设置下绘制真阳性率与假阳性率来创建,每个点对应一个阈值,对角线表示模型只是一个随机模型,ROC曲线越接近左上角,表示该分类器的性能越好,曲线下面积(AUC)表示模型的整体性能,1表示完美模型,0.5表示随机概率模型。ROC曲线主要用于二分类。在完成模型的训练和测试过程后,本研究计算了所有被试的平均准确率、F1分数和精确率。精确率是真阳性预测数与总阳性预测数的比率,如公式(7)所示;F1分数用于确定模型的性能,F1分数越高,模型的性能越好,计算F1分数时使用了精确率和召回率(TPR),如公式(8)所示。

样本依赖分类结果

研究结果如图2和图3所示,而表2和表3则提供了样本依赖分类的数值结果。本研究发现,在EEG信号分类中,bagging分类器效果最佳,而KNN(k=2)对EMG和EOG信号的唤醒和效价分类效果更好。当使用特征及融合(FLF)处理所有三种电生理信号时取得了最佳结果,唤醒度的准确率为95.7%,效价的准确率为96.41%。此外,使用KNN(K=2)分类器,唤醒度和效价的F1分数分别达到了95.887%和96.58%。

图2.样本依赖性的唤醒度分类结果。

图3.样本依赖性的效价分类结果。

表2.在7种不同分类器上,样本依赖性的唤醒度分类结果。

表3.在7种不同分类器上,样本依赖性的效价分类结果。

为了进一步验证本研究的模型,我们在图4和图5中展示了被试19的ROC曲线(唤醒和效价)。这些曲线包括了每个分类中得分最高的模型图,具体来说,对于EEG信号使用Bagging分类器,其余信号使用KNN分类器。使用FLF的所有信号的曲线均接近左上角,唤醒和效价的AUC值分别为0.988和0.999。这些结果表明,这种融合策略是本研究的最佳选择。

图4.与被试19相关的唤醒度ROC曲线。

图5.与被试19相关的效价ROC曲线。

样本独立分类结果

表4和表5显示了样本独立分类的数值结果。当使用KNN分类器(K=2)时,FLF在所有三种信号上的表现最好。唤醒和效价分类的准确率分别为93.684%和93.229%。唤醒和效价的F1分数分别为94.43%和94.22%。相应的混淆矩阵如表6和表7所示,图形结果见图6和图7。

表4.在7种不同分类器上,样本独立性的唤醒度分类结果。

表5.在7种不同分类器上,样本独立性的效价分类结果。

表6.精度最高模型的唤醒度分类混淆矩阵。

表7.精度最高模型的效价分类混淆矩阵。

图6.样本独立性的唤醒度分类结果。

图7.样本独立性的效价分类结果。

图8和图9显示了样本独立分类中获得最高准确率的模型的ROC曲线;FLF在唤醒和效价分类中的AUC分别为0.966和0.961,且最接近左上角,这表明在本研究中,这种方法和分类模型是最佳的选择。

图8.样本独立性的唤醒度曲线。

图9.样本独立性的效价ROC曲线。

回顾以往研究发现,本研究的方法比现有技术中的方法表现更好(见表10和表11)。本研究进行了一项消融实验,以确保选择最优模型。这个实验有助于确定分类器的通道选择、特征选择和超参数调优所带来的影响。本研究使用了最可靠的模型(即所有三种信号的FLF)来展示这些影响。根据表8的数据,这些组成部分对改善模型的准确率都有贡献。其中,超参数调优的影响最为显著,使准确率和F1分数提高了8-10%。

表8.通过消融实验,分析了通道选择、特征选择和超参数调优对模型的影响。

与深度学习的比较

表9将本研究的模型与深度学习模型进行了比较。这一比较涉及到了三种模态下六种不同分类方式以及三种特征级融合策略。本研究在两种不同情绪维度(唤醒和效价)上进行了10折交叉验证。实验结果表明,在样本依赖分类中,本研究模型的CPU使用率为60%,耗时0.42小时。此外,在样本独立分类中,本研究模型耗时1.71小时。尽管本研究的模型表现良好,但深度学习算法的性能更优,但代价是需要耗费12.33小时以及100%的CPU使用率。在计算资源有限的情况下,应用深度学习算法的弊端显而易见。

表9.深度学习模型与多模态机器学习模型的比较。

表10.样本依赖性结果与现有技术的比较。

表11.样本独立性结果与现有技术的比较。

多模态方法有助于弥补机器学习模型存在的缺陷,但这种方法并非完美,因为它需要多种模态的信息,而获取这些模态可能会有一定的难度,特别是对于电生理信号,因为这些设备既不便宜也不容易采集。尽管如此,随着技术的进步,尤其是可穿戴设备的发展,我们可以看到像心率测量、压力测量和血氧饱和度等检测技术已经集成到日常的使用设备中。在此基础上,我们可以探索不同的电生理信号、分类器和信号融合方法,以实现更好的结果,并研究独立于数据集的分类问题。此外,还可以测试其他有前景的方法;基于自蒸馏的深度对比表征学习(DCRLS)利用对比学习和自我蒸馏从高级和低级语义信息中提取模式,从而改善有监督和无监督模型。另一种很有前景的方法是用于多变量时间序列分类的深度感知网络(DKN),它通过低级和高级语义信息之间的密集相互监督来增强模型性能。DKN利用残差多头卷积网络提取低级语义,以及利用基于transformer的网络提取高级语义。CapMatch(参见Xiao等人(2023)的研究)也集成了有监督和无监督学习,在人类活动识别方面实现了高性能,尤其是在标记数据有限的情况下。

结论

与现有的先进方法相比,特征选择显著改进了本研究的模型,这表明仅提取特征是不够的,并且可能会导致情绪识别的性能更差。多模态方法进一步提高了机器学习模型的可靠性。在现有的硬件条件下,对其他模态进行预处理和分类所需的时间几乎可以忽略不计,但大型数据集除外,这可能需要额外的处理时间。总的来说,不同电生理信号特征的融合极大地提高了模型的性能。这表明,我们可以通过探索电生理信号、分类器以及信号融合来实现更好的结果,同时也能更好地研究不依赖特定数据集的分类方法。

参考文献:Mohamad A. Ramadan, Nancy M. Salem, Lamees N. Mahmoud, Ibrahim Sadek, Multimodal machine learning approach for emotion recognition using physiological signals, Biomedical Signal Processing and Control, Volume 96, Part B, 2024, 106553, ISSN 1746-8094, https://doi.org/10.1016/j.bspc.2024.106553.

小伙伴关注茗创科技,将第一时间收到精彩内容推送哦~



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭