type
status
date
slug
summary
tags
category
icon
password
论文网站:
arXiv.orgEfficient Multimodal Dataset Distillation via Generative Models

Efficient Multimodal Dataset Distillation via Generative Models
Dataset distillation aims to synthesize a small dataset from a large dataset, enabling the model trained on it to perform well on the original dataset. With the blooming of large language models...
代码网站:
解决的问题:
两个主要问题: 1) 生成的图像和字幕之间缺乏相关性. 我们观察到,直接将生成模型应用于蒸馏会产生次优的性能. 这主要是因为扩散模型训练侧重于样本噪声预测,而不是图像-文本对应关系,而这正是视觉语言数据集上图像-文本对比学习 (ITC) 任务最重要的方面. 2) 生成样本之间缺乏多样性. 在数据集蒸馏中,合成数据集仅包含原始数据的不到 5%,因此数据集的泛化对于蒸馏数据集的生成至关重要.
损失函数:
我们应用提出的损失如下: 1) 对比损失监督生成模型产生与给定条件高度相关的内容,有效对齐图像和文本表示. 2) 多样性损失通过推开样本特征来增加生成样本的可变性,从而鼓励合成数据集反映与原始数据集相同的分布.
此外,为了进一步提高文本到图像检索任务的性能,我们结合了一种字幕合成策略. 这涉及使用 MLLM 为合成数据集中的图像生成额外的字幕,为评估模型训练提供足够的文本信息,并提高检索性能.
算法流程图:

扩散模型在图像分类任务的数据集蒸馏方法上被证明是有效的. 然而,当将扩散模型应用于ITC任务的数据集蒸馏时,蒸馏过程存在两个主要限制:1)图像和文本特征之间的对应关系没有得到充分探索. 如上所述,扩散模型的训练是按样本进行的,其重点是噪声预测. 这种训练方案缺乏对图像和文本特征对应关系的监督. 2)合成样品之间缺乏多样性. 样本数量远小于原始数据集,因此蒸馏样本之间的多样性对于数据集蒸馏至关重要.
为了解决上述问题,我们提出了如图2所示的EDGE微调工作流程.

其中去噪潜在 和文本嵌入 用于计算对比损失和多样性损失,对比损失用于鼓励生成模型合成与给定文本条件高度相关的图像,而多样性损失用于推开不同图像-文本对之间的图像-文本嵌入.

在等式 3 中,损失鼓励每个图像与其相应的标题之间的对齐,同时还确保每个文本与正确的图像匹配. 通过结合这种双向对比目标,扩散模型学会捕获图像和文本之间的语义相关性. 因此,在采样过程中,模型会生成相关性较高的图文对,有利于评估模型的训练.


将基于生成的的数据集蒸馏方法应用于 ITC 任务将出现标题不足以进行模型训练的问题. 为了解决这个问题,作者还提出了字幕合成,为每张图片生成更多字幕. 具体来讲就是他们开发了一种可扩展的方法,可以创建任意数量的字幕. 方法涉及设计特定的提示工程模板,指导多模态大语言模型 (MLLM) 为给定图像生成字幕.

首先从合成数据集中收集图像. 对于每张图片,考虑一个直接的提示模板,以有效地生成字幕. 如图 3 所示,可以使用 MLLM,如 LLaVA 或 GPT 模型来为给定的图像生成任意数量的字幕. 传递给不同 MLLM 的提示略有不同. 对于 LLaVA,直接传递提示“用一句话描述图像”,就可以得到所需的字幕. GPT模型倾向于生成长的文本序列,并且它通常包含用于交互的短语,例如“这张图片包含”. 因此将提示更改为“用一句话简要描述图像. 不要以“这张图片”开头. "
在模型训练阶段,即使这个方法生成的图像少于标题,仍可以将具有不同标题对的同一图像视为不同的图像文本对. 这是因为从模型训练的角度来看,需要类似的计算资源.
- Author:Coding
- URL:http://preview.tangly1024.com/article/2afad491-793a-8087-ac84-f271925c4ec3
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts


