1、Can Better Text Semantics in Prompt Tuning Improve VLM Generalization?
中文标题:更好的文本语义在提示微调中能否提高视觉语言模型的泛化能力?
简介:这篇论文介绍了一种新的可学习提示调整方法,该方法超越了仅对视觉语言模型进行微调的传统方法,成为一种潜在的资源高效替代方案。然而,有效学习提示面临两大挑战:
在低样本情况下训练会导致过拟合,限制了模型的适应性,并在新类别或数据集上表现较差。
提示调整的有效性严重依赖于标签空间,在大类别空间中性能下降,表明在桥接图像和类别概念方面存在潜在差距。
论文提出了一种利用从大型语言模型获得的类别描述的提示调整方法。该方法构建了基于部分级别描述的图像和文本特征视图,并对其进行对齐,以学习更具可推广性的提示。
论文在11个基准数据集上进行了广泛的实验,结果优于现有方法,展现了显著的性能改进。
2、Exploring the Low-Pass Filtering Behavior in Image Super-Resolution
中文标题:图像超分辨率中的低通滤波行为探究
简介:深度神经网络在图像超分辨率任务上已经显示出明显的优势,相比传统的插值等方法。但与数学基础扎实的传统方法相比,深度神经网络常常被批评为"黑箱"。
本文尝试使用信号处理理论来解释深度神经网络在这一任务上的行为。研究发现了一个有趣的现象,称为"sinc现象",当给神经网络输入脉冲信号时会出现这种现象。基于这一观察,作者提出了一种称为Hybird Response Analysis (HyRA)的方法来分析神经网络的行为。
HyRA将神经网络分解为线性系统和非线性系统的并联连接。其中,线性系统起到低通滤波器的作用,而非线性系统则注入高频信息。为了量化这些注入的高频信息,作者还引入了一种称为Frequency Spectrum Distribution Similarity (FSDS)的图像对图像的度量方法,它可以捕捉传统度量忽略的细微差别。
该研究的代码可在作者提供的GitHub仓库(https://github.com/RisingEntropy/LPFInISR)中找到。
3、CTRLorALTer: Conditional LoRAdapter for Efficient 0-Shot Control & Altering of T2I Models
中文标题:CTRLorALTer:用于高效0-shot控制和修改T2I模型的条件LoRAdapter
简介:文本到图像生成模型已经成为一种强大的工具,能够生成高分辨率且逼真的图像。然而,如何在生成过程中细粒度地控制和调节生成的风格和结构信息,仍然是一个悬而未决的问题。
本文提出了LoRAdapter,这是一种新颖的方法。LoRAdapter利用条件LoRA块,将风格和结构的调节统一到同一公式中,实现了0-shot的控制调节能力。LoRAdapter是一种高效、强大且与架构无关的方法,可以用于调节文本到图像扩散模型,在生成过程中实现细粒度的控制调节,并且优于现有的最先进方法。