-
Latent Consistency Models : Synthesizing High-Resolution ImagesWith Few-Step Inference 논문 리뷰논문 후기와 구현 2024. 11. 1. 12:52
0. 요약
문제의식
- 이 논문은 고해상도 이미지 생성을 위한 Latent Diffusion Models의 샘플링 속도가 느리다는 문제에 주목함. 기존의 LDMs는 반복적인 reverse process을 통해 점진적으로 노이즈를 제거해야 하므로 계산 비용이 많이 들고 실시간 적용이 어려움.
- 이를 해결하기 위해 LDMs의 샘플링 과정을 빠르게 하려는 다양한 시도가 있었으나 여전히 문제는 많음
실험 결과
- 이 논문이 제안하는 Latent Consistency Models (LCMs)은 기존 방법에 비해 적은 샘플링 단계(1~4단계)로 고해상도 이미지를 생성함
- LAION-5B-Aesthetics 데이터셋에서 우수한 성능을 보임.
- LCM은 DDIM Solver를 활용하고 단계 스킵(k=20)을 적용하여 빠르게 수렴하며, FID(Fréchet Inception Distance)와 CLIP 점수 모두에서 뛰어난 성능을 기록
한마디로 말하자면, 1000단계의 diffusion 생성 과정을 1-4 단계로 줄였다는 것. 조건부 고해상도 적은 샘플링 이미지 생성으로는 이 논문이 처음이다. 더 나아가 이 논문은 아주 간략하게나마 LCM의 fine-tuning이 가능함을 제시한다. 1. 기존 Diffusion 방법론
모든 논문이 그렇듯이, 기존 Diffusion 방법론을 간략히 소개한다. 그러나 논문을 읽을 때 이 부분을 건너뛰지 말아야 하는 이유는, 논문마다 약간 다른 notation을 알아놔야 하기 때문이다. 특히 이 논문은 너무 훌륭한 연구 성과를 담고 있는 것에 비해, notation에서 변수명 중복(?)이 조금 있는 편이라 조심해서 읽어야 한다.
이 논문의 수식은 논문의 번호와 맞추었다.
2. 기존 Consistency Model 방법론
일단 이 Consistency Model 함수 f를 정의할 때, 그 어떤 스텝의 이미지를 넣더라도 "거의" 최종본이 output으로 나와야 한다. 흐릿한 이미지(900 steps 정도), 덜 흐릿한 이미지(800 steps 정도), 어느정도 윤곽이 나온 이미지(700 steps 정도) 등 그 어떤 걸 넣어도 말이다. 아래의 그림과 같다.
3. LCM: Latent Consistency Model
여기서 Ψ는 ODE solver를 의미하는데, 논문에서는 DDIM, DPM-Solver 등을 Solver로 사용하여 설명한다. Heun이나 Euler Solver가 아닌 저들 solver를 사용하는데, DDIM과 DPM-Solver는 확산 모델에서 적은 단계로도 높은 품질의 샘플을 생성할 수 있는 특화된 ODE Solver이다. 특히, DPM-Solver는 DDIM의 고차원 확장판으로, 매우 효율적인 추정값을 제공하면서 샘플링 속도를 극적으로 줄이는 데 기여한다.
4. One-stage Guided Distillation Method
5. Skipping Step
6. Fine-tuning
사실 이 논문에서는 fine-tuning에 대해 "가능하다" 정도로 굉장히 짧게 짚고 넘어가기는 한다.
'논문 후기와 구현' 카테고리의 다른 글