type
status
date
slug
summary
tags
category
icon
password
论文网站:arXiv.orgarXiv.orgLow-Rank Similarity Mining for Multimodal Dataset Distillation
代码网站:
介绍:打破单模态局限,LoRS在多模态数据提炼上的突破 ! - 文章 - 开发者社区 - 火山引擎
 
解决的问题:
图像-文本对的蒸馏比单模态数据更具挑战性:(1)算法不仅应该单独压缩每个模态,还应该正确学习模态之间的对应关系; (2)单峰数据有类别且呈簇分布;但图像文本对数据没有分类且分布稀疏,这可能导致数据集蒸馏的样本方差较高。虽然关于图像-文本数据集蒸馏的第一个工作(Wu et al., 2023)通过vanilla MTT(Cazenavette et al., 2022)实现了非平凡的性能,但它缺乏对图像-文本数据的特定适应和利用。 因此,我们建议强调学习模态对应关系,而不是总结每个类别的数据模式。
 
算法流程图:
notion image
图 1: Vanilla 数据集蒸馏可以适应图像-文本数据,但受限于固定的数据配对(“Baseline”)。 我们提出相似性挖掘,它同时蒸馏 ground truth 相似度矩阵,以及用于公平数据参数大小的低秩优化(LoRS
 
他们的贡献:
(1) 对于图像文本数据集蒸馏,我们提出了一种新的范式来学习相似性矩阵作为合成数据的一部分,从 ITC 训练的角度来看,这是完全合理的。 (2) 我们提出了一种新颖且可行的结合低秩分解的相似性挖掘实现。 (3) 在存储负担相同或更小的情况下,我们的方法显着优于基准方法。 算法框架:
notion image
 
计算流程图:
notion image
notion image
 
Multimodal Distillation Vision-Language Dataset DistillationAudio-Visual Dataset Distillation
Loading...