type
status
date
slug
summary
tags
category
icon
password
论文网站:arXiv.orgarXiv.orgVision-Language Dataset Distillation
代码网站:Vision-Language Dataset Distillation
知乎介绍:zhuanlan.zhihu.com
 
数据蒸馏的对比:
notion image
 
他们的工作是:提出了第一个视觉-语言数据集蒸馏方法。具体来说,给定一个包含图像及其对应文本描述的数据集,我们的方法会创建一个更小的合成(图像,文本嵌入)对集合,然后可以用它来高效地训练旨在学习图像-文本对齐的模型。由于直接提取信息不可行,我们的共同蒸馏是通过隐式匹配目标视觉-语言数据与合成数据的副产品来实现的。在我们的案例中,副产品是长程训练的双轨迹。此外,由于在视觉-语言任务中广泛使用预训练模型的微调,我们通过匹配复杂模型的低秩矩阵轨迹(Hu et al., 2022)来有效地蒸馏关键信息。
 
算法流程图:
notion image
图2:视觉-语言数据集蒸馏。图像编码器和文本编码器都经过预训练,并后接一个可训练的投影层,同时文本编码器保持冻结状态。我们使用对比损失来衡量配对的图像-文本嵌入之间的距离,这会影响蒸馏过程中轨迹的更新。右侧图展示了蒸馏数据如何将其训练轨迹与专家的轨迹对齐,从专家轨迹上的随机起点开始。蒸馏数据集的更新基于学生和专家参数轨迹之间的双轨迹匹配损失。
 
论文还提出了图文对数据集难以进行数据蒸馏的原因:1. 它不像图片分类数据集一样有离散的类 2. 多模态模型的计算开销很大 (模型很大,也有很多的高分辨率图片) 3. 最后,与连续数据不同,文本本质上是不可微分的,这使得在离散文本标记上不可能进行直接基于梯度的优化。 算法框架:
notion image
notion image
notion image
notion image
Generalizing Dataset Distillation via Deep Generative PriorLow-Rank Similarity Mining for Multimodal Dataset Distillation
Loading...