ACL 2023 对话情绪识别综述 您所在的位置:网站首页 多模态情绪识别 ACL 2023 对话情绪识别综述

ACL 2023 对话情绪识别综述

2024-05-11 02:37| 来源: 网络整理| 查看: 265

8.3实验 实验数据集:IEMOCAP,MELD,EmoryNLP 实验评价指标:Accuracy (Acc),Weighted-F1 score (w-F1),Macro-F1 实验结果与结论: 图片 表8-1 在不同数据集上的实验结果 图片 表8-2 SACL-LSTM和DialogueCRN的细粒度结果 图片 表8-3 消融研究的实验结果 图片 表8-4 针对不同优化目标的比较结果   图片   表8-5 不同训练策略的比较结果 图片 表8-6 针对不同优化目标对结果进行聚类 图片 图8-3不同优化目标的上下文稳健性性能 图片   图8-4 SACL-LSTM及其变体的混淆矩阵 图片 图8-5 在MELD上以不同优化目标学习的表征的t-SNE可视化。 1. 如表8-1和表8-2所示,SACL-LSTM在三个数据集上表现卓越,w-F1提高了1.1%,Acc提高了1.2%。并且在大多数情绪类别上优于强基线,宏F1分数分别提高了2.0%、1.6%和0.8%,表明了该方法的有效性。 2. 如表8-3所示,SACL框架和上下文感知的Dual-LSTM模块都对性能起着重要作用,移除它们会导致性能下降。 3. 如表8-4所示,SACL通过联合类别扩散对比学习目标,相对于CE+SCL、CE+SupCon和CE等其他优化目标,在三个数据集上表现出显著优势,保持了更好的类内特征并提升了性能。 4. 如表8-5所示,CAT策略通过添加对抗性扰动和极值训练方法,持续在三个数据集上表现更好,增强了情感特征的多样性,而相比之下,AT策略在极短对话中表现最差,难以改善上下文相关特征的多样性。 5. 如表8-6所示,SACL框架在不同优化目标下能够显著提高ERC任务的聚类性能和质量,通过监督和无监督聚类度量标准的综合评估,SACL相较于其他优化目标在ARI、NMI、FMI、SC、CHI和DBI等方面均表现得更出色。 6. 如图8-3所示,在不同的优化目标下,SACL在IEMOCAP和MELD数据集上表现出更好的上下文鲁棒性,特别是通过引入CAT,SACL在MELD上取得显著改进,因为MELD具有有限的上下文。 7. 如图8-4所示,SACL-LSTM模型在IEMOCAP和MELD测试集上通过归一化混淆矩阵显示更好的真正例,表明其对于少数情绪标签没有偏见,并能有效减轻相似情绪的误分类问题,而MELD中的类别不平衡导致一些话语容易被误分类为中性情感。 8. 如图8-5所示,使用SACL相对于CE目标函数,在MELD测试集上学习到的情感表示更加紧凑和一致,表明SACL能够更好地泛化,同时也部分学习到了类间内在结构。 九、用于对话情绪识别的对比学习框架 Context or Knowledge is Not Always Necessary: A Contrastive Learning Framework for Emotion Recognition in Conversations 9.1动机 以往的研究并没有关注于当前话语的情绪识别是否需要上下文和外部知识,而是更多地关注于更好的建模方法。如图9-1所示,即使不利用上下文和外部知识,也可以正确识别出示例1的情绪。因此,如何判断对话中的话语是否需要上下文或外部知识,并在训练过程中有效地对无关上下文和知识进行去噪是一个挑战。 图片 图9-1 动机示例。 9.2方法 9.2.1设计思路: 本文提出了一个自监督对比学习框架(CKCL),如图9-2所示。该框架包括上下文对比学习模块(Context CL):用于捕捉上下文无关和上下文相关话语之间的关联性和差异性;知识对比学习模块(Knowledge CL):与Context CL类似,其中,知识无关的话语被设定为正样例,反之则设为负样例。和情绪监督对比学习(Emotion SCL):一种加权的监督对比学习方法,它使具有相似情绪标签的句子的表征更加清晰。 图片 图9-2 CKCL整体框架图。 9.2.2具体模型: (1) Context CL 由于模型在某些话语中的性能甚至比不考虑上下文信息的模型更差,这突出了在ERC中去噪无关上下文的重要性。基于此,本文尝试设计了一个Context CL来捕捉上下文相关话语和上下文相关话语之间的相关性和差异。具体地,首先拷贝模型,并将掩码了图片上下文表示图片的输入数据图片输入到每个批次B的拷贝模型M†中。然后,进行伪标签的生成,如算法1中的第6-13行。最后,根据伪标签图片来计算对比损失项,如算法1中的第14-24行。 图片 (2) Knowledge CL 人类通常依靠常识来传达情绪,然而,在知识敏感的ERC模型中,用于理解话语的无关知识可能会成为噪声。特别是在识别某些话语的情绪时并不需要外部知识。为了区分知识无关的话语和知识相关的话语,并对无关知识进行去噪,本文设计了Knowledge CL。它的计算过程与Context CL相似,但不同之处在于其掩码了知识表征,而不是上下文表征。因此,可以获得另一个损失项图片,如算法1中所示。 (3) Emotion CL 考虑到ERC任务的特点,即:类分布极不均匀,情绪标签具有高度的相似性,因此提出了一种名为Emotion SCL的类加权SCL,以区分具有相似情绪的话语的表征。它可以将不同情绪标签的样本进一步拉开,在一定程度上类分布失衡问题的影响。在每个小批量样本中,Emotion SCL的计算过程如下: 图片 其中,B表示小批次样本,图片是B的大小。图片表示指代函数。图片是第j个话语的类权重。EmbeddingLayer(.)表示词嵌入方法。ERC模型通常采用BERT、Glove或Roberta模型对话语进行编码。图片图片是温度参数,图片表示余弦相似度函数。图片是B中话语的情绪标签集。 (4) 模型训练 本文通过最大限度地减少以下三个损失的总和来共同训练CKCL框架。 图片 9.3实验 实验数据集:IEMOCAP,MELD,EmoryNLP,DailyDialog 实验评价指标:Accuracy (Acc),Weighted-F1 (w-F1),Macro-F1,Micro F1 实验结果与结论: 图片 表9-1 在不同数据集上的实验结果 图片 表9-2 在不同基线和数据集上进行泛化分析的实验结果 图片 图9-3 在DailyDialog上性能退化的结果 图片   表9-4 在动态和静态伪标签上的比较结果 1. 如表9-1所示,在多个数据集上,基座模型COSMIC在情绪和情感识别上通过CKCL框架实现了显著提升,验证了CKCL框架的有效性。 2. 如表9-1所示,CKCL框架的各组成部分对模型性能都产生显著影响,其中Knowledge CL在去噪无关知识方面表现更佳,而Emotion SCL则有效改善了不同情绪下话语表征的区分度。 3. 如表9-2所示,使用CKCL框架对各种ERC模型进行实验。结果显示CKCL对不同模型的影响差异较大,但仍能提升模型在情绪或情感识别上的性能,证明了其在ERC任务中的泛化能力。 4. 如图9-3所示,尽管建模上下文和知识可以提高性能,但在某些话语下也可能导致模型性能下降,这一差距是由于模型无法实现有效去噪。 5. 如表9-4所示,由于CKCL框架在多次推理上导致的时间复杂度增加,本文尝试了一种低时间复杂度方法:使用已训练好的模型进行静态伪标签的注释,后续无额外推理。虽然模型性能略有下降,但仍能满足需求。 十、小结   (1) 模型对比 图片 表10-1 不同方法在不同数据集上的实验结果(M:多模态;T:文本模态;评价指标:Micro F1 over Dailydialog;Weighted F1 over other datasets) (2) 研究趋势 1. 综合多模态信息:考虑到不同模态信息可以提供丰富的情绪线索,越来越多的研究开始关注融合文本、音频和视觉信息以进行情绪识别。 2. 上下文建模:越来越多的研究关注于在多方对话中捕捉复杂的上下文依赖关系,包括话语之间,说话人之间的联系和类型等。这有助于更全面地理解情绪背后的上下文线索。 3. 多模态交互:传统方法中常常简单合并各个模态的信息,但现在的趋势是更深入地研究模态之间的复杂交互关系,以更好地利用多模态信息。此外,不同模态在情绪识别中的贡献可能不同,因此越来越多的工作着眼于充分捕捉不同模态之间的相关性和映射关系。 4. 表征学习:情绪识别的表征学习是一个持续的研究领域,研究者试图找到更广义和稳健的表示方法,以及在相似情绪之间保持特征的细粒度。 总的来说,对话情绪识别具有广泛的应用前景,正在不断演进以更好地理解和解决多模态情绪识别的复杂性和多样性。未来的研究将集中在更有效的模态融合、上下文建模、情绪分类和泛化技术上。 参考文献:

[1] Ruijie Tao, Zexu Pan, Rohan Kumar Das, Xinyuan Qian, Mike Zheng Shou, and Haizhou Li. 2021. Is someone speaking? exploring long-term temporal features for audio-visual active speaker detection. In Proceedings of ACM MM.

[2] Martin Rosvall and Carl T Bergstrom. 2008. Maps of random walks on complex networks reveal community structure. Proceedings of the national academy of sciences.

[3] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. 2021. Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of ICCV.

[4] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for image recognition. In Proceedings of CVPR.

[5] Panayotov, V., Chen, G., Povey, D., & Khudanpur, S. (2015, April). Librispeech: an asr corpus based on public domain audio books. In 2015 IEEE international conference on acoustics, speech and signal processing (ICASSP) (pp. 5206-5210). IEEE.

[6] Baevski, A., Zhou, Y., Mohamed, A., & Auli, M. (2020). wav2vec 2.0: A framework for self-supervised learning of speech representations. Advances in neural information processing systems, 33, 12449-12460.

[7] Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, and Alexander A Alemi. 2017. Inception-v4, inception-resnet and the impact of residual connections on learning. In Proceedings of AAAI.

[8] Dong Yi, Zhen Lei, Shengcai Liao, and Stan Z Li. 2014. Learning face representation from scratch. arXiv preprint arXiv:1411.7923.

[9] Yandong Guo, Lei Zhang, Yuxiao Hu, Xiaodong He, and Jianfeng Gao. 2016. Ms-celeb-1m: A dataset and benchmark for large-scale face recognition. In Proceedings of ECCV.

[10] Yao-Hung Hubert Tsai, Shaojie Bai, Paul Pu Liang, J Zico Kolter, Louis-Philippe Morency, and Ruslan Salakhutdinov. 2019. Multimodal transformer for unaligned multimodal language sequences. In Proceedings of ACL.

[11] Zhouxing Shi and Minlie Huang. 2019. A deep sequential model for discourse parsing on multi-party dialogues. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 7007–7014.

[12] Nicholas Asher, Julie Hunter, Mathieu Morey, Farah Benamara, and Stergos Afantenos. 2016. Discourse structure and dialogue acts in multiparty dialogue: the STAC corpus. In 10th International Conference on Language Resources and Evaluation (LREC 2016), pages 2721–2727.

[13] Taewoon Kim and Piek Vossen. 2021. Emoberta: Speaker-aware emotion recognition in conversation with roberta. arXiv preprint arXiv:2108.12009.

[14] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770– 778.

[15] Florian Eyben, Martin Wöllmer, and Björn Schuller. 2010. Opensmile: The munich versatile and fast open-source audio feature extractor. In Proceedings of the 18th ACM International Conference on Multimedia, MM ’10, page 1459–1462, New York, NY, USA. Association for Computing Machinery.

[16] Navonil Majumder, Soujanya Poria, Devamanyu Hazarika, Rada Mihalcea, Alexander Gelbukh, and Erik Cambria. 2019. Dialoguernn: An attentive rnn for emotion detection in conversations. In Proceedings of the AAAI conference on artificial intelligence, volume 33, pages 6818–6825.

[17] Qiong Cao, Li Shen, Weidi Xie, Omkar M Parkhi, and Andrew Zisserman. 2018. Vggface2: A dataset for recognising faces across pose and age. In 2018 13th IEEE international conference on automatic face & gesture recognition (FG 2018), pages 67–74. IEEE.

[18] Yifan Zhang, Bryan Hooi, Dapeng Hu, Jian Liang, and Jiashi Feng. 2021. Unleashing the power of contrastive self-supervised visual models via contrastregularized fine-tuning. Advances in Neural Information Processing Systems, 34:29848–29860.

[19] Lichen Wang, Jiaxiang Wu, Shao-Lun Huang, Lizhong Zheng, Xiangxiang Xu, Lin Zhang, and Junzhou Huang. 2019. An efficient approach to informative feature extraction from multimodal data. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 5281–5288.

[20] Karen Simonyan and Andrew Zisserman. 2014. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556.

[21] Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. 2019. Albert: A lite bert for self-supervised learning of language representations. arXiv preprint arXiv:1909.11942.



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有