논문 후기와 구현
-
LCM-LoRA : A Universal Stable-Diffusion Acceleration Module 테크 리포트 리뷰논문 후기와 구현 2024. 11. 1. 15:45
논문은 아니고 간단한 테크 리포트이다.결론 : LCM과 LoRA를 함께 쓰는 게 가능하다.Latent Diffusion Models (Diffusion 과정을 latent space에서 진행하는 것)은 뛰어난 성능을 보였지만, 실시간성에 문제가 있다. 매우 느리기 때문이다.DDIM, DPM-Solver 등의 ODE-Solver들이 아주 우수하지만, 여전히 연산 부하가 크고, 여러 distillation 방법이 있지만, 계산 비용이 엄청 높다.LCM은 1000에 이르던 step 수를 1-4로 낮추었다. 또한 단 32 A100 시간 내에 distillation이 가능하다.한편, LoRA는 fine-tuning에 필요한 weight matrix의 rank를 낮추기 때문에, 결과적으로 파라미터 수를 줄여서 메모..
-
Latent Consistency Models : Synthesizing High-Resolution ImagesWith Few-Step Inference 논문 리뷰논문 후기와 구현 2024. 11. 1. 12:52
0. 요약문제의식이 논문은 고해상도 이미지 생성을 위한 Latent Diffusion Models의 샘플링 속도가 느리다는 문제에 주목함. 기존의 LDMs는 반복적인 reverse process을 통해 점진적으로 노이즈를 제거해야 하므로 계산 비용이 많이 들고 실시간 적용이 어려움.이를 해결하기 위해 LDMs의 샘플링 과정을 빠르게 하려는 다양한 시도가 있었으나 여전히 문제는 많음 실험 결과이 논문이 제안하는 Latent Consistency Models (LCMs)은 기존 방법에 비해 적은 샘플링 단계(1~4단계)로 고해상도 이미지를 생성함LAION-5B-Aesthetics 데이터셋에서 우수한 성능을 보임.LCM은 DDIM Solver를 활용하고 단계 스킵(k=20)을 적용하여 빠르게 수렴하며, FI..
-
CFG++: Manifold-Constrained Classifier Freeguidance For Diffusion Models 논문 리뷰논문 후기와 구현 2024. 10. 25. 16:42
1. 일단 Manifold란?최근 Diffusion 쪽에서는 데이터 manifold에 대한 논의가 활발하다. 예를 들어 이미지 데이터가 7만 차원의 공간에 분포되어 있다고 하더라도, 실제로 분포되어 있는 걸 보면 7만차원까지 가지 않는다는 이야기이다. 심지어 어떤 연구에 의하면 데이터셋이 부족하게 훈련된 Diffusion 모델은 manifold가 0차원인 것과 다르지 않다는 (즉, 항상 같은 그림만 생성한다는) 주장도 있다. 해당 논문의 내용은 굉장히 어려워 100% 이해하기는 힘들지만, 상당히 재미있고 충격적이다. 조금 쉽게 비유하자면, 아마도 이론물리학 쪽의 다양한 이론에 따르면 우주공간은 적어도 4차원 이상인 것 같다. 어떤 이론은 우주가 11차원이라고 주장한다나... (진짜 잘 모름) 그럼에도 불..
-
Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models 논문 리뷰논문 후기와 구현 2024. 10. 23. 11:01
2023년 초에 ControlNet 논문이 발표되고 나서, 수많은 ControlNet 계승 연구가 나왔다. Uni-ControlNet 또한 그중 하나이다. Uni-ControlNet은 여러개의 conditions가 실상 비슷한 구조로 conditioning이 됨에도 불구하고, N개 condition을 위해 N번 fine-tuning이 이루어지는 기존 ControlNet 및 기타 T2I 논문의 문제를 해결하기 위해 발표되었다. 그들이 밀고나가는 이 논문의 contribution을 한 눈에 볼 수 있는 표는 아래와 같다: 즉, ControlNet 같은 경우에는, 아래와 같이 condition 하나 당 하나의 모듈(fine-tuning)이 필요한 데 반해, Uni-ControlNet 같은 경우는 conditi..
-
MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis 논문 리뷰논문 후기와 구현 2024. 10. 22. 10:14
0. 전체 아키텍처 1. Instance 영역과 Background 영역을 분리한다.이 논문은, input으로 텍스트 프롬프트와 함께, 생성을 원하는 특정 물체의 bounding box를 함께 입력으로 넣어 생성하는 task를 연구한다. 그러므로 각 bounding box 내에 물체가 생성되고, 또 bounding box에만 생성되도록, 그에 맞는 M 행렬을 준비해야 한다.각 Instance 를 생성하는 diffusion 과정에서 M 행렬이 곱해지면서, bounding box를 벗어난다면 지워질 수 있을 것이다. 분리된 이후에는 각 instance를 생성(shading)한다.이때 우선은, "Blue Cat", "Green Dog"와 같은 description을 CLIP 태운 벡터로부터 key, value..
-
Adding Conditional Control to Text-to-Image Diffusion Models 논문 요약논문 후기와 구현 2024. 10. 17. 14:13
1. 스탠포드 대학교 논문 아니랄까봐 굉장히 논리적으로 잘 쓴 논문의 전형이면서 동시에2. 논문 결론이 "했더니 되던데?" 라는 느낌을 지울 수 없는... 적은 데이터로 pretrained model을 finetuning 및 continued training 하면 overfitting이나 catastrophic forgetting의 위험이 있다.Stable Diffusion 같은 것을 train할 때, LAION-5B 데이터셋이 사용되었는데, 이는 이름 그대로 50억 개 분량의 데이터셋이다. 그런데 conditioned diffusion을 train하려면 데이터셋이 10만개 수준이기 때문에, 이를 통해 Stable Diffusion 모델을 fine-tuning하거나 continued training 하려..
-
Classifier-Free Diffusion Guidance 논문 요약논문 후기와 구현 2024. 10. 15. 17:32
Diffusion계의 필수논문이 되어버린 Classifier-free Diffusion Guidance Classifier-Guidance가 있었다.Mode Coverage(얼마나 다양하게 만드는가)와 Sample Fidelity(얼마나 샘플과 유사하게 만드는가)는 trade-off 관계이다.다양한 생성 결과를 원할 때도 있지만, 때때로 우리는 low-temperature 결과를 원한다.Classifier-Guidance 등장 전까지는 low-temperature 생성 방법론이 명확하지 않았다.단순히 스코어 벡터를 스케일링하거나, 아니면 샘플링 과정에서 가우시안 노이즈를 줄이는 방식은 효과적이지 않다는 것이 알려져 있다.전자는 "스코어 벡터는 Diffusion이 이미지를 생성할 때, 어떤 방향으로 이미..
-
CoLa-Diff: Conditional Latent Diffusion Model for Multi-Modal MRI Synthesis 논문 요약논문 후기와 구현 2024. 10. 14. 16:25
이 논문의 요지는, T1, T2, FLAIR, T1ce 등으로 촬영된 MRI 영상 중 누락되었거나 현저히 적은 modality의 데이터셋을 나머지 modality의 데이터로부터 합성해낼 수 있다는 요지의 논문이다. 고질적인 데이터셋 부족 현상을 겪는 의료AI에 있어 데이터셋 합성은 굉장히 중요하며 최근 여기저기서 연구되고 있다. 전체 아키텍처가 다소 복잡한 편인데, 그래도 아키텍처 도식도가 구조적으로 잘 그려져 있어서 좋았다. 다운샘플링 후 Forward Porcess를 진행하였다. 우선 모든 Diffusion 모델이 그러하듯, Forward Process부터 살펴보면, 원본 이미지 데이터가 아닌, 인코더에 태워져 다운샘플링된 κ에 대해 Forward Process가 진행되고 있음을 확인할 수 있다.D..