2022
CVPR 2022
MISF: Multi-level Interactive Siamese Filtering for High-Fidelity Image Inpainting [pdf] [code]
本文创新点:提出了一个多级(像素级和语义特征级)预测滤波核分支,其实质就相当于动态卷积。
网络结构
在图像修复任务中,深度学习模型主要面临的问题:由于训练模型需要大量的数据,这些数据缺失区域的形状可能不同,背景也多种多样。这就导致模型对不同图像以及掩码会有泛化的问题。
在传统图像修复模型中,预测核模型是一类经典有效的模型(基本思想是一个像素点通过其周围的像素进行线性加权得到新的像素点),并且其不会受到上述问题的困扰。为此作者将预测核引入到深度学习模型中。
对于损坏图像I,预测核模型可以表示为,,具体来说,对于位置为p的像素点,其工作原理为:
预测核就是对目标像素点周围一定范围内的像素点进行线性加权。用一个网络φ对K进行预测。这种方法只适用于缺失区域比较小的图像,当缺失区域比较大时,远离缺失区域边界的像素将无法修复,因为大的缺失区域破坏了局部结构。
然后,将图像级预测核扩展到语义特征层面。作者用一个自编码网络,提取图像特征并修复图像:
与图像级预测过滤相比,语特征义过滤可以修复大面积缺失区域,但只是修复了主要结构,具体细节丢失了。
理论上对多层特征都进行过滤的效果会更好,然而每一个预测核都要通过一个专属的网络进行预测,计算量会增大。
为此作者提出了一种多级交互式孪生过滤(MISF),它由两个具有相似架构的分支组成,即内核预测分支(KPB)和语义和图像过滤分支(SIFB):
损失函数
损失函数主要由L1 损失、对抗 损失、风格损失和感知损失构成,