Low-Rank Similarity Mining for Multimodal Dataset Distillation

type

status

date

slug

summary

category

icon

password

论文网站：

arXiv.orgLow-Rank Similarity Mining for Multimodal Dataset Distillation

Low-Rank Similarity Mining for Multimodal Dataset Distillation

Though dataset distillation has witnessed rapid development in recent years, the distillation of multimodal data, e.g., image-text pairs, poses unique and under-explored challenges. Unlike...

代码网站：

介绍：

打破单模态局限，LoRS在多模态数据提炼上的突破！ - 文章 - 开发者社区 - 火山引擎

在近年来数据集提炼已经迅速发展的同时，多模态数据的提炼，例如图像-文本对，提出了独特且尚未深入探索的挑战。与

解决的问题：

图像-文本对的蒸馏比单模态数据更具挑战性：（1）算法不仅应该单独压缩每个模态，还应该正确学习模态之间的对应关系；（2）单峰数据有类别且呈簇分布；但图像文本对数据没有分类且分布稀疏，这可能导致数据集蒸馏的样本方差较高。虽然关于图像-文本数据集蒸馏的第一个工作(Wu et al., 2023)通过vanilla MTT(Cazenavette et al., 2022)实现了非平凡的性能，但它缺乏对图像-文本数据的特定适应和利用。因此，我们建议强调学习模态对应关系，而不是总结每个类别的数据模式。

算法流程图：

图 1: Vanilla 数据集蒸馏可以适应图像-文本数据，但受限于固定的数据配对（“Baseline”）。我们提出相似性挖掘，它同时蒸馏 ground truth 相似度矩阵，以及用于公平数据参数大小的低秩优化（LoRS）

他们的贡献：

(1) 对于图像文本数据集蒸馏，我们提出了一种新的范式来学习相似性矩阵作为合成数据的一部分，从 ITC 训练的角度来看，这是完全合理的。 (2) 我们提出了一种新颖且可行的结合低秩分解的相似性挖掘实现。 (3) 在存储负担相同或更小的情况下，我们的方法显着优于基准方法。算法框架：

计算流程图：