Authors: Omri Avrahami, Dani Lischinski, Ohad Fred
Keywords: Diffusion Model, Generative Model, CLIP, Multi-modality, Vision-Language, Text-driven Image Manipulation
Contributions
- DDPM(Denoising Diffusion Probabilistic Model)과 language guidance(CLIP, Contrastive Language-Image Pre-training)를 이용한 region-based image editing
- Background preservation technique로 unaltered region을 완벽히 보존
- input image의 noised version과 local text-guided diffusion latent를 noise level에서의 progression에서 spatially blending
- Simple augmentation technique로 adversarial result의 risk를 줄임
Preliminaries
CLIP (Contrastive Language Image Pre-training)


- 데이터로는 $N$ 개의 (image, text) pair가 있으며 (실제 데이터는 약 4억개), image와 text (single sentence) 각각엔 encoder가 존재한다.
- 각 encoder 에서 나온 각 $N$ 개의 image 및 text embedding 의 cosine similarity를 최대화하고, $N^2-N$ 개의 cosine similarity는 최소화하도록 두 encoder를 학습함으로써 multi-modality의 embedding space를 학습한다.
- Zero-shot prediction (downstream task에 대해 fine-tuning을 하지 않고 upstream task에 학습한 것으로 바로 downstream task를 진행하는 것) 이 가능하다.

Method
Target Requirements
- 저자들은 text-driven region-based image editing을 하려고 하는데, 다음과 같은 조건을 만족시키는 방법론을 제안하고자 한다.
- 생성된 이미지가 아닌 실제 이미지에 applicable하며,
- 특정 도메인 (e.g. Human Face, Car, Church 등) 에만 국한되지 않으며,
- user-specified region만을 변화시키고, 나머지 부분은 보존하며,
- seamless한 editing 결과를 보여주며,
- 같은 입력에 대하여 multiple result를 제공할 수 있어야함.