논문 후기와 구현
-
FFN Fusion: Rethinking Sequential Computation in Large Language Models 리뷰: 바퀴의 발명은 끝나지 않았다.논문 후기와 구현 2025. 3. 31. 11:51
논문링크오랜만에 쓰는 블로그 글.. 0. AI 경량화일단 DeepSeek 파동 전부터, LLM 경량화는 AI계의 꽤 오랜 화두였다. 국내에서는 SqueezeBits 등의 스타트업이 AI 양자화로 유명하고, distillation, pruning, MoE 등의 기법도 착실히 연구되고 있다. 이 논문은 NVIDIA에서 낸 논문인데, FFN Fusion이라는 새로운 경량화 기법을 제안한다. 1. 기존 경량화 기법의 문제점- quantization: precision-accuracy trade-offs가 있다고 한다. Confusion metirc trade-off를 말하는 건 아닐 것 같고... 논문의 이 표현이 정확히 뭘 뜻하는지는 잘 모르겠지만, tensor의 float표현 precision이 낮아지면..
-
Stable Diffusion Family Models논문 후기와 구현 2024. 12. 16. 13:00
모델GitHubSD-v1.4https://github.com/CompVis/stable-diffusionSD-v1.5없어짐SD-v2https://github.com/Stability-AI/stablediffusionSDXLhttps://github.com/Stability-AI/generative-modelsSD3성능 이슈 있음SD3.5https://github.com/Stability-AI/sd3.5 최근 이미지 생성 모델은 더 좋은 모델들이 많이 공개되고 있지만, 그럼에도 불구하고 아직 코드가 완전히 공개된 것은 SD가 유일해보인다. 그러므로 대부분의 연구는 SD를 기반으로 진행되고 있다. 그중에서도 SDXL이나 SD3.5는 단순 sampling이면 몰라도 fine-tuning을 하는 것은 리소스가 ..
-
LCM-LoRA : A Universal Stable-Diffusion Acceleration Module 테크 리포트 리뷰논문 후기와 구현 2024. 11. 1. 15:45
논문은 아니고 간단한 테크 리포트이다.결론 : LCM과 LoRA를 함께 쓰는 게 가능하다.Latent Diffusion Models (Diffusion 과정을 latent space에서 진행하는 것)은 뛰어난 성능을 보였지만, 실시간성에 문제가 있다. 매우 느리기 때문이다.DDIM, DPM-Solver 등의 ODE-Solver들이 아주 우수하지만, 여전히 연산 부하가 크고, 여러 distillation 방법이 있지만, 계산 비용이 엄청 높다.LCM은 1000에 이르던 step 수를 1-4로 낮추었다. 또한 단 32 A100 시간 내에 distillation이 가능하다.한편, LoRA는 fine-tuning에 필요한 weight matrix의 rank를 낮추기 때문에, 결과적으로 파라미터 수를 줄여서 메모..
-
Latent Consistency Models : Synthesizing High-Resolution ImagesWith Few-Step Inference 논문 리뷰논문 후기와 구현 2024. 11. 1. 12:52
0. 요약문제의식이 논문은 고해상도 이미지 생성을 위한 Latent Diffusion Models의 샘플링 속도가 느리다는 문제에 주목함. 기존의 LDMs는 반복적인 reverse process을 통해 점진적으로 노이즈를 제거해야 하므로 계산 비용이 많이 들고 실시간 적용이 어려움.이를 해결하기 위해 LDMs의 샘플링 과정을 빠르게 하려는 다양한 시도가 있었으나 여전히 문제는 많음 실험 결과이 논문이 제안하는 Latent Consistency Models (LCMs)은 기존 방법에 비해 적은 샘플링 단계(1~4단계)로 고해상도 이미지를 생성함LAION-5B-Aesthetics 데이터셋에서 우수한 성능을 보임.LCM은 DDIM Solver를 활용하고 단계 스킵(k=20)을 적용하여 빠르게 수렴하며, FI..
-
CFG++: Manifold-Constrained Classifier Freeguidance For Diffusion Models 논문 리뷰논문 후기와 구현 2024. 10. 25. 16:42
1. 일단 Manifold란?최근 Diffusion 쪽에서는 데이터 manifold에 대한 논의가 활발하다. 예를 들어 이미지 데이터가 7만 차원의 공간에 분포되어 있다고 하더라도, 실제로 분포되어 있는 걸 보면 7만차원까지 가지 않는다는 이야기이다. 심지어 어떤 연구에 의하면 데이터셋이 부족하게 훈련된 Diffusion 모델은 manifold가 0차원인 것과 다르지 않다는 (즉, 항상 같은 그림만 생성한다는) 주장도 있다. 해당 논문의 내용은 굉장히 어려워 100% 이해하기는 힘들지만, 상당히 재미있고 충격적이다. 조금 쉽게 비유하자면, 아마도 이론물리학 쪽의 다양한 이론에 따르면 우주공간은 적어도 4차원 이상인 것 같다. 어떤 이론은 우주가 11차원이라고 주장한다나... (진짜 잘 모름) 그럼에도 불..
-
Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models 논문 리뷰논문 후기와 구현 2024. 10. 23. 11:01
2023년 초에 ControlNet 논문이 발표되고 나서, 수많은 ControlNet 계승 연구가 나왔다. Uni-ControlNet 또한 그중 하나이다. Uni-ControlNet은 여러개의 conditions가 실상 비슷한 구조로 conditioning이 됨에도 불구하고, N개 condition을 위해 N번 fine-tuning이 이루어지는 기존 ControlNet 및 기타 T2I 논문의 문제를 해결하기 위해 발표되었다. 그들이 밀고나가는 이 논문의 contribution을 한 눈에 볼 수 있는 표는 아래와 같다: 즉, ControlNet 같은 경우에는, 아래와 같이 condition 하나 당 하나의 모듈(fine-tuning)이 필요한 데 반해, Uni-ControlNet 같은 경우는 conditi..
-
MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis 논문 리뷰논문 후기와 구현 2024. 10. 22. 10:14
0. 전체 아키텍처 1. Instance 영역과 Background 영역을 분리한다.이 논문은, input으로 텍스트 프롬프트와 함께, 생성을 원하는 특정 물체의 bounding box를 함께 입력으로 넣어 생성하는 task를 연구한다. 그러므로 각 bounding box 내에 물체가 생성되고, 또 bounding box에만 생성되도록, 그에 맞는 M 행렬을 준비해야 한다.각 Instance 를 생성하는 diffusion 과정에서 M 행렬이 곱해지면서, bounding box를 벗어난다면 지워질 수 있을 것이다. 분리된 이후에는 각 instance를 생성(shading)한다.이때 우선은, "Blue Cat", "Green Dog"와 같은 description을 CLIP 태운 벡터로부터 key, value..
-
Adding Conditional Control to Text-to-Image Diffusion Models 논문 요약논문 후기와 구현 2024. 10. 17. 14:13
1. 스탠포드 대학교 논문 아니랄까봐 굉장히 논리적으로 잘 쓴 논문의 전형이면서 동시에2. 논문 결론이 "했더니 되던데?" 라는 느낌을 지울 수 없는... 적은 데이터로 pretrained model을 finetuning 및 continued training 하면 overfitting이나 catastrophic forgetting의 위험이 있다.Stable Diffusion 같은 것을 train할 때, LAION-5B 데이터셋이 사용되었는데, 이는 이름 그대로 50억 개 분량의 데이터셋이다. 그런데 conditioned diffusion을 train하려면 데이터셋이 10만개 수준이기 때문에, 이를 통해 Stable Diffusion 모델을 fine-tuning하거나 continued training 하려..