EOC实验室硕士研究生缪小然与指导老师赵作鹏副教授近期在遥感领域国际权威期刊IEEE Transactions on Geoscience and Remote Sensing 发表论文“Masking-Based Cross-Modal Remote Sensing Image–Text Retrieval via Dynamic Contrastive Learning”。该期刊为国际遥感领域顶级期刊,CCF推荐的B类高质量期刊,最新影响因子8.2,中科院1区。
论文提出了一种基于掩码交互推断和对齐(Masked Interaction Inferring and Aligning, MIIA)框架,利用动态对比学习(Dynamic Contrastive Learning, DCL)实现跨模态遥感图像与文本检索(Cross-Modal Remote Sensing Image–Text Retrieval, CMRSITR)。该领域的主要挑战在于有效地将视觉和文本模态映射到共享潜在空间。现有方法通常独立提取特征,难以实现必要的跨模态对齐。MIIA框架通过以下方式克服这些限制:
掩码交互推断(Masked Interaction Inferring, MII)模块:通过新颖的掩码视觉语言(Masked Vision-Language, MVLM)建模方法,促进局部视觉-文本标记间的交互。
跨模态DCL机制:更有效地捕获和对齐图像与文本之间的语义相关性。
双向分布匹配(Bidirectional Distribution Matching, BDM)技术:通过最小化图像-文本相似度分布的Kullback-Leibler(KL)散度,确保视觉和文本嵌入的全面匹配。
研究背景:
遥感(Remote Sensing, RS)技术的发展极大地增强了我们监测和理解地球环境的能力。然而,从海量RS数据中提取有用信息并转化为可操作见解仍面临挑战。跨模态RS图像-文本检索(CMRSITR)旨在解决这一问题,其主要目标是提取跨模态特征并将其对齐到统一嵌入空间。
研究方法:
MIIA框架主要包含三个组成部分:掩码交互推断(MII)、动态对比学习(DCL)和双向分布匹配(BDM)。
1、掩码交互推断(MII)
交叉注意掩码图像推断(Cross-Attention Masked Image Inferring, CMII):使用多头交叉注意(Multihead Cross-Attention, MCA)层、四层变压器和掩码图像建模(Masked Image Modeling, MIM)头,通过随机掩码图像标记来推断被掩码部分。
交叉注意掩码语言推断(Cross-Attention Masked Language Inferring, CMLI):与CMII类似,但目标是预测被掩码文本标记。
使用动量对比(Momentum Contrast, MoCo)机制,通过两个特征队列(一个用于图像,一个用于文本)来解耦负样本数量与批次大小,从而增强计算可行性和效率。
通过最小化图像-文本相似度分布的KL散度,增强不同模态表示之间的相关性。
2、动态对比学习(DCL)
3、双向分布匹配(BDM)
研究结论:
本文提出的MIIA框架通过MVLM、DCL和BDM技术,显著增强了跨模态遥感图像与文本的特征提取和对齐能力。在三个基准数据集上的实验结果表明,MIIA框架在CMRSITR任务中表现出色,具有广阔的应用前景。未来工作将关注提升模型对短语级语义的理解能力。