type
status
date
slug
summary
tags
category
icon
password
论文网站:
arXiv.orgBeyond Modality Collapse: Representations Blending for Multimodal...

Beyond Modality Collapse: Representations Blending for Multimodal...
Multimodal Dataset Distillation (MDD) seeks to condense large-scale image-text datasets into compact surrogates while retaining their effectiveness for cross-modal learning. Despite recent...
代码网站:
解决的问题:模态崩溃。 如 Figure 1(中间)所示,蒸馏后的数据集表现出明显的模态内聚合和模态间分离。

这种模态崩溃导致两个关键问题。首先,它会导致过度的模态内相似性,其中每个模态内的嵌入随着蒸馏的进行变得越来越集中。这种过度集中逐渐抑制了表征的多样性,使得语义上不同的实例更难区分,并侵蚀了每个模态内的细粒度辨别能力。其次,它扩大了模态间隙,导致不同模态的特征分布之间存在很大差异。跨模态交互不足会破坏嵌入空间并削弱语义对齐,从而影响正对的正确匹配和跨模态的负对的分离。
贡献总结如下:
我们首次发现当前 MDD 解决方案中的模态崩溃问题,其中蒸馏数据集表现出较高的模态内相似性和较大的模态间差距。通过理论分析,我们将其归因于数据集蒸馏的过度压缩行为与对比目标强制执行的跨模式监督之间的相互强化效应。
我们提出表征混合,通过削弱过于强大的跨模态监督和增强模态内表征多样性来减轻模态崩溃。此外,我们引入对称投影轨迹匹配来实现更平衡的多模态蒸馏,这不仅加强了跨模态对准,而且提高了整体蒸馏效率。
算法框架:




- Author:Coding
- URL:http://preview.tangly1024.com/article/2afad491-793a-80b3-9cb1-f2e8e293a580
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts


