Jorffy's blog

即使翅膀断了 心也要飞翔

0%

【阅读笔记】多模态嘲讽检测模型汇总

2019-2023年来,多模态嘲讽检测(Multi-Modal Sarcasm Detection,MSD)任务收到广泛关注,出现了一系列优秀的模型。
HFM 设计了一个分层融合模型来组合来自两种模态的信息,并提出了一个有公信力、较公平权威的基于 Twitter 的多模态讽刺检测数据集,为后续对 MSD 的研究提供了基础。D&R Net 使用语义关联上下文来查找讽刺线索。Att-BERT 通过自注意力机制融合视觉和文本嵌入。在 InCrossMGs 引入了一个图网络来描述图像文本对。CMGCN 通过跨模态图卷积网络构建区域和单词之间的连接。HKE 挖掘外部知识以构建原子级一致性和组合级一致性分层框架。MILNet 利用 OCR 辅助图像检测,提出相互增强不协调学习网络。DIP 提出双重感知网络,从事实和情感层面学习讽刺信息。

HFM [Cai et al. 2019]

论文下载: Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model
标题:利用层次融合模型检测 Twitter 中的多模态讽刺语言
作者:Yitao Cai(北京大学), Huiyu Cai, Xiaojun Wan
发表地点:ACL 2019

摘要:
讽刺是一种微妙的语言形式,是人们表达与暗示相反的一种表达手法。以前的讽刺检测工作集中在文本上。然而,越来越多的社交媒体平台(如 Twitter)允许用户创建多模态信息,包括文本、图片和视频。仅基于文本来检测多模态信息中的讽刺是不够的。在本文中,我们将重点研究 Twitter 中由文本和图片组成的推文的多模态讽刺检测。我们将文本特征图像特征图像属性作为三种模态,并提出了一种多模态层次融合模型来完成这项任务。我们的模型首先提取图像特征和属性特征,然后利用属性特征和双向 LSTM 网络来提取文本特征。然后重建三种模式的特征,并将其融合为一个特征向量用于预测。我们创建了一个基于 Twitter 的多模态讽刺检测数据集。数据集上的评估结果证明了我们提出的模型的有效性以及三种模态的实用性。

HFM 整体框架:

数据集统计:

Training Development Testing
Sarcasm 8642 959 959
Non-Sarcasm 11174 1451 1450
All 19816 2410 2409

D&R Net [Xu et al. 2020]

论文下载: Reasoning with Multimodal Sarcastic Tweets via Modeling Cross-Modality Contrast and Semantic Association
标题:通过建模跨模态对比和语义关联来推理多模态讽刺推文
作者:Nan Xu(中国科学院/中国科学院大学), Zhixiong Zeng, Wenji Mao
发表地点:ACL 2020

摘要:
讽刺是一种复杂的语言现象,用来表达与一个人真正意思相反的东西。随着社交媒体的快速发展,多模态讽刺推文被广泛发布在各种社交平台上。在多模态语境中,讽刺不再是一种纯粹的语言现象,并且由于社交媒体短文本的性质,相反的情况更经常通过跨模态表达表现出来。因此,传统的基于文本的方法不足以检测多模态讽刺。为了对多模态讽刺推文进行推理,在本文中,我们提出了一种在相关上下文中对跨模态对比进行建模的新方法。我们的方法通过构建分解和关系网络(D&R Net)来模拟跨模态对比和语义关联。分解网络表示图像和文本之间的共性和差异性,关系网络对跨模态上下文中的语义关联进行建模。在公共数据集上的实验结果证明了该模型在多模态讽刺检测中的有效性。

D&R Net 整体框架:

Att-BERT [Pan et al. 2020]

论文下载: Modeling Intra and Inter-modality Incongruity for Multi-Modal Sarcasm Detection
标题:多模态讽刺检测的模态内和模态间不协调建模
作者:Hongliang Pan(中国科学院), Zheng Lin, Peng Fu, Yatao Qi, Weiping Wang
发表地点:EMNLP 2020

摘要:
讽刺是当今社交媒体平台(如 Twitter 和 Reddit)中普遍存在的现象。这些平台允许用户创建多模式消息,包括文本、图像和视频。现有的多模态讽刺检测方法要么简单地将多模态的特征连接起来,要么以设计的方式融合多模态信息。然而,他们忽略了讽刺话语中的不协调性,这种不协调性通常表现在模态之间或模态内部。受此启发,我们提出了一个基于BERT架构的模型,该模型专注于多模态讽刺检测的模态内部和模态间不协调。具体来说,我们受到自我注意力机制的启发,并设计了模态间注意力来捕捉模态间的不协调。此外,还应用了共同注意力机制来模拟文本中的矛盾。然后使用不协调信息进行预测。实验结果表明,我们的模型在公共多模态讽刺检测数据集上实现了最先进的性能。

Att-BERT 整体框架:

InCrossMGs [Liang et al. 2021]

论文下载: Multi-Modal Sarcasm Detection with Interactive In-Modal and Cross-Modal Graphs
标题:使用交互式模态内和跨模态图进行多模态讽刺检测
作者:Bin Liang(哈尔滨工业大学), Chenwei Lou, Xiang Li, Lin Gui, Min Yang, Ruifeng Xu
发表地点:MM 2021

摘要:
讽刺是一种奇特的形式和复杂的语言行为,用于表达某人隐含的情感表达的不协调性,这在社交媒体平台上是一种普遍现象。与纯粹基于文本的讽刺检测相比,多模态讽刺检测更适合快速增长的社交媒体平台,人们有兴趣创建多模态信息。在关注 Twitter 上由文本和图像组成的推文的多模态讽刺检测时,提高多模态讽刺检测性能的重要线索演变为如何确定文本和图像之间的不协调关系。本文从新的角度研究了多模态讽刺检测,通过为每个多模态样本构建异构模态和跨模态图(InCrossMGs),确定特定模态内和不同模态之间的情感不一致。在此基础上,我们探索了一种交互式图卷积网络(GCN)结构,以共同和交互的方式学习模态内图和跨模态图的不协调关系,以确定讽刺检测中的重要线索。实验结果表明,所提模型在多模态讽刺检测中取得了较好的性能。

InCrossMGs 整体框架:

CMGCN [Liang et al. 2022]

论文下载: Multi-Modal Sarcasm Detection via Cross-Modal Graph Convolutional Network
标题:基于跨模态图卷积网络的多模态讽刺检测
作者:Bin Liang(哈尔滨工业大学), Chenwei Lou, Xiang Li, Min Yang, Lin Gui, Yulan He, Wenjie Pei, Ruifeng Xu
发表地点:ACL 2022

摘要:
随着在线发布多模态信息的日益普及,最近已经开展了许多利用文本和视觉信息进行多模态讽刺检测的研究。在本文中,我们通过为每个实例构建一个跨模态图来明确地绘制文本和视觉模态之间的反讽关系,从新的角度研究了多模态讽刺检测。具体来说,我们首先检测与图像模态描述配对的对象,从而能够学习重要的视觉信息。然后,以对象的描述为桥梁,确定图像模态的对象与文本模态的上下文词之间关联的重要性,从而为每个多模态实例构建跨模态图。此外,我们设计了一个跨模态图卷积网络来理解多模态讽刺检测模态之间的不协调关系。大量的实验结果和深入分析表明,该模型在多模态讽刺检测方面取得了最先进的性能。

CMGCN 整体框架:

HKE [Liu et al. 2022]

论文下载: Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity Modeling with Knowledge Enhancement
标题:基于知识增强的层次一致性建模的多模态讽刺检测
作者:Hui Liu(香港城市大学), Wenya Wang, Haoliang Li
发表地点:EMNLP 2022

摘要:
讽刺是一种语言现象,表明字面意思和隐含意图之间存在差异。由于其复杂的性质,通常很难从文本本身中检测到它。因此,多模态讽刺检测在学术界和工业界都受到了越来越多的关注。然而,大多数现有技术只模拟了文本输入与其伴随图像之间的原子级不一致,而忽略了两种模式的更复杂的组合。此外,他们忽略了外部知识中包含的丰富信息,例如图像标题。在本文中,我们通过探索基于多头交叉注意力的原子级一致性和基于图神经网络的组合级一致性,提出了一种新的讽刺检测层次框架,其中低一致性的帖子可以被识别为讽刺。此外,我们利用各种知识资源的效果进行讽刺检测。基于 Twitter 的公共多模态讽刺检测数据集的评估结果验证了所提模型的优越性。

HKE 整体框架:

MILNet [Qiao et al. 2023]

论文下载: Mutual-Enhanced Incongruity Learning Network for Multi-Modal Sarcasm Detection
标题:面向多模态讽刺检测的相互增强不协调学习网络
作者:Yang Qiao(山东大学), Liqiang Jing, Xuemeng Song, Xiaolin Chen, Lei Zhu, Liqiang Nie
发表地点:AAAI 2023

摘要:
讽刺是一种复杂的语言现象,在当今的社交媒体平台上很普遍。多模态讽刺检测旨在识别具有多模态信息(即文本和图像)的给定样本是否具有讽刺意味。这项任务的关键在于在同一上下文中捕捉模态间和模态内的不协调。尽管现有方法取得了令人信服的成功,但它们受到从整个图像和文本中提取的不相关信息的干扰,或者由于输入不完整而忽略了一些重要信息。为了解决这些局限性,我们提出了一种用于多模态讽刺检测的相互增强不协调学习网络,名为 MILNet。特别是,我们设计了一个局部语义引导的不协调学习模块和一个全局不协调学习模块。此外,我们还引入了一个相互增强模块,以利用两个模块之间的底层一致性来提升性能。在广泛使用的数据集上进行的大量实验证明了我们的模型优于尖端方法。

MILNet 整体框架:

DIP [Wen et al. 2023]

论文下载: DIP: Dual Incongruity Perceiving Network for Sarcasm Detection
标题:DIP:用于讽刺检测的双重不协调感知网络
作者:Changsong Wen(南开大学), Guoli Jia, Jufeng Yang
发表地点:CVPR 2023

摘要:
讽刺表明字面意思与真实态度相反。考虑到图文数据的普及性和互补性,我们研究了多模态讽刺检测的任务。与其他多模态任务不同,对于讽刺数据,一对图像和文本之间存在内在的不协调性,正如心理学理论所证明的那样。为了解决这个问题,我们提出了一个由两个分支组成的双重不协调感知(DIP)网络,从事实和情感层面挖掘讽刺信息。在事实方面,我们引入了一种通道重加权策略来获得语义判别嵌入,并利用高斯分布对不协调引起的不确定相关性进行建模。该分布由存储在存储库中的最新数据生成,可以自适应地模拟讽刺和非讽刺数据之间的语义相似性差异。在情感方面,我们利用具有共享参数的连体层来学习跨模态情感信息。此外,我们使用极性值来构建小批量的关系图,形成连续的对比损失以获得情感嵌入。大量的实验表明,我们提出的方法与最先进的方法相比具有良好的性能。我们的代码在 https://github.com/downdric/MSD 上发布。

DIP 整体框架:

模型结果对比:

参考文献:

[Cai et al., 2019] Yitao Cai, Huiyu Cai, and Xiaojun Wan. Multi-modal sarcasm detection in twitter with hierarchical fusion model. In Proceedings of the 57th Conference of the Association for Computational Linguistics, pages 2506–2515, 2019.

[Xu et al., 2020] Nan Xu, Zhixiong Zeng, and Wenji Mao. Reasoning with multimodal sarcastic tweets via modeling cross-modality contrast and semantic association. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 3777–3786, 2020.

[Pan et al., 2020] Hongliang Pan, Zheng Lin, Peng Fu, Yatao Qi, and Weiping Wang. Modeling intra and inter-modality incongruity for multi-modal sarcasm detection. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 1383–1392, 2020.

[Liang et al., 2021] Bin Liang, Chenwei Lou, Xiang Li, Lin Gui, Min Yang, and Ruifeng Xu. Multi-modal sarcasm detection with interactive in-modal and cross-modal graphs. In Proceedings of the 29th ACM International Conference on Multimedia, pages 4707–4715, 2021.

[Liang et al., 2022] Bin Liang, Chenwei Lou, Xiang Li, Min Yang, Lin Gui, Yulan He, Wenjie Pei, and Ruifeng Xu. Multi-modal sarcasm detection via cross-modal graph convolutional network. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), volume 1, pages 1767–1777. Association for Computational Linguistics, 2022.

[Liu et al., 2022] Hui Liu, Wenya Wang, and Haoliang Li. Towards multi-modal sarcasm detection via hierarchical congruity modeling with knowledge enhancement. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing (EMNLP 2022), pages 4995–5006. Association for Computational Linguistics, 2022.

[Qiao et al., 2023] Yang Qiao, Liqiang Jing, Xuemeng Song, Xiaolin Chen, Lei Zhu, and Liqiang Nie. Mutual-enhanced incongruity learning network for multi-modal sarcasm detection. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 37, pages 9507–9515, 2023.

[Wen et al., 2023] Changsong Wen, Guoli Jia, and Jufeng Yang. Dip: Dual incongruity perceiving network for sarcasm detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2540–2550, 2023.