Audio-Visual Dataset Distillation

type

status

date

slug

summary

category

icon

password

论文网站：

Audio-Visual Dataset Distillation

In this article, we introduce \textit{audio-visual dataset distillation}, a task to construct a smaller yet representative synthetic audio-visual dataset that maintains the cross-modal semantic...

代码网站：

解决的问题：一个有效的视听数据集蒸馏方法不仅需要从两种不同的模态中压缩数据，还需要保持它们之间自然的跨模态关联，以确保合成多模态数据的有效性。

贡献包括：1）一种新颖的视听数据集蒸馏问题，旨在将大型视听数据集的知识压缩为更小的合成数据集。据我们所知，这是视听数据集蒸馏的第一项工作； 2）对视听数据集蒸馏进行系统研究，以评估压缩视听数据在视听事件识别中的功效； 3）两个新的视听分布匹配损失(隐式交叉匹配和跨模式间隙匹配)，可以对齐联合空间中合成数据和真实数据之间的分布，从而强制执行跨模式对齐； 4）对四个视听数据集进行了广泛的实验，验证了视听与合成数据的集成仍然有帮助，并且我们的方法可以优于其他数据集蒸馏基线。

算法框架：

要优化的目标：

损失函数：