분류 전체보기
-
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens 논문 리뷰논문 후기와 구현 2025. 8. 18. 18:51
논문 링크 애리조나주립대의, 랩실 이름부터 근-본 있는 에서 2025년 8월 발행한 따끈따끈한 논문이다.Few-shot Learning과 CoT는 현업에서 굉장히 많이 쓰이는 프롬프팅 기법이다.현재 기준 두 논문 합치면 인용수가 7만이 넘음 Fine-tuning의 한계점이 점점 명확해진 2024년 즈음부터는, 현업 언어모델의 많은 부분이 Few-shot Learning과 CoT에 크게 의존하고 있다. 그런데 이 논문은 가히 그 제목부터 충격적이다. CoT는 신기루일 뿐이었는가?0. 일단 뭔가 수상함CoT까지 갈 것도 없이, 일단 평소에 ChatGPT를 사용하다보면 모종의 수상함을 느낄 때가 많다. 앞이랑 뒤랑 다른 소리를 하는 것인데, 논문에서는 다음의 사례를 제시한다.Q. 미국이 세워진 해는 윤년인가 ..
-
Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models 논문 리뷰논문 후기와 구현 2025. 8. 7. 08:30
논문 링크2025년 2월에 공개된 논문. 상당히 큰 반향을 불러일으킨 유명한 논문이지만, 어쩌다보니 6개월이나 지난 이제서야 읽게 되었다.회사에서도 가장 큰 고민거리가 이 Hallucination인지라, 이에 대한 연구에 더 관심이 가는듯하다. 0. Unknown entities 분류먼저 이 논문은 야구선수, 영화, 도시, 음악 총 4개 타입의 엔티티를 "아는 엔티티"와 "모르는 엔티티"로 분류한다.예를 들어 위 이미지와 같이 빈칸을 뚫어놓고 빈칸을 잘 채워넣을 수 있다면 언어모델은 "12 Angry Men" 영화를 잘 알고 있는 것이므로,12 Angry Men"는 "아는 엔티티"이다.더 자세한 과정은 부록에 나와았다. 위의 이미지에서 엔티티는 마이클 조던이다.Attribute은 태어난 곳, 태어난 연도..
-
Language Models Are Implicitly Continuous 리뷰: 벡터로 존재할 수 있으면, 언어로 이해될 수 있다.논문 후기와 구현 2025. 5. 12. 11:25
논문 링크 이 논문은 2025년 4월 4일에 올라온 논문인데, 한 달 동안 LinkedIn 등 딥러닝 커뮤니티에서 꽤나 회자되었던 논문이다. 그도 그럴 것이, 논문이 꽤나 강한 어그로(?)를 끌고 있다. "그동안 우리는 언어모델을 불완전하게 이해하고 있었다"이렇게 강력한 주장을 하는데 어떻게 안 읽을 수 있었을까. 그런데, 사실 개인적인 소감으로는 그렇게까지 충격적인 내용은 아니라는 것. 이 논문이 시사하는 바는 위 2개의 표로 간단하게 나타낼 수 있지만,사실 저 도표부터 이해하려고 하면 절대 이해가 안 되고, 논문을 어느정도 이해하고 나서야 이를 이해할 수 있었다. 1. 백문이 불여일견. 우선 실험 결과부터 보자. "In the sentence "apple apple apple apple", ..
-
FFN Fusion: Rethinking Sequential Computation in Large Language Models 리뷰: 바퀴의 발명은 끝나지 않았다.논문 후기와 구현 2025. 3. 31. 11:51
논문링크오랜만에 쓰는 블로그 글.. 0. AI 경량화일단 DeepSeek 파동 전부터, LLM 경량화는 AI계의 꽤 오랜 화두였다. 국내에서는 SqueezeBits 등의 스타트업이 AI 양자화로 유명하고, distillation, pruning, MoE 등의 기법도 착실히 연구되고 있다. 이 논문은 NVIDIA에서 낸 논문인데, FFN Fusion이라는 새로운 경량화 기법을 제안한다. 1. 기존 경량화 기법의 문제점- quantization: precision-accuracy trade-offs가 있다고 한다. Confusion metirc trade-off를 말하는 건 아닐 것 같고... 논문의 이 표현이 정확히 뭘 뜻하는지는 잘 모르겠지만, tensor의 float표현 precision이 낮아지면..
-
Stable Diffusion Family Models논문 후기와 구현 2024. 12. 16. 13:00
모델GitHubSD-v1.4https://github.com/CompVis/stable-diffusionSD-v1.5없어짐SD-v2https://github.com/Stability-AI/stablediffusionSDXLhttps://github.com/Stability-AI/generative-modelsSD3성능 이슈 있음SD3.5https://github.com/Stability-AI/sd3.5 최근 이미지 생성 모델은 더 좋은 모델들이 많이 공개되고 있지만, 그럼에도 불구하고 아직 코드가 완전히 공개된 것은 SD가 유일해보인다. 그러므로 대부분의 연구는 SD를 기반으로 진행되고 있다. 그중에서도 SDXL이나 SD3.5는 단순 sampling이면 몰라도 fine-tuning을 하는 것은 리소스가 ..
-
LCM-LoRA : A Universal Stable-Diffusion Acceleration Module 테크 리포트 리뷰논문 후기와 구현 2024. 11. 1. 15:45
논문은 아니고 간단한 테크 리포트이다.결론 : LCM과 LoRA를 함께 쓰는 게 가능하다.Latent Diffusion Models (Diffusion 과정을 latent space에서 진행하는 것)은 뛰어난 성능을 보였지만, 실시간성에 문제가 있다. 매우 느리기 때문이다.DDIM, DPM-Solver 등의 ODE-Solver들이 아주 우수하지만, 여전히 연산 부하가 크고, 여러 distillation 방법이 있지만, 계산 비용이 엄청 높다.LCM은 1000에 이르던 step 수를 1-4로 낮추었다. 또한 단 32 A100 시간 내에 distillation이 가능하다.한편, LoRA는 fine-tuning에 필요한 weight matrix의 rank를 낮추기 때문에, 결과적으로 파라미터 수를 줄여서 메모..
-
Latent Consistency Models : Synthesizing High-Resolution ImagesWith Few-Step Inference 논문 리뷰논문 후기와 구현 2024. 11. 1. 12:52
0. 요약문제의식이 논문은 고해상도 이미지 생성을 위한 Latent Diffusion Models의 샘플링 속도가 느리다는 문제에 주목함. 기존의 LDMs는 반복적인 reverse process을 통해 점진적으로 노이즈를 제거해야 하므로 계산 비용이 많이 들고 실시간 적용이 어려움.이를 해결하기 위해 LDMs의 샘플링 과정을 빠르게 하려는 다양한 시도가 있었으나 여전히 문제는 많음 실험 결과이 논문이 제안하는 Latent Consistency Models (LCMs)은 기존 방법에 비해 적은 샘플링 단계(1~4단계)로 고해상도 이미지를 생성함LAION-5B-Aesthetics 데이터셋에서 우수한 성능을 보임.LCM은 DDIM Solver를 활용하고 단계 스킵(k=20)을 적용하여 빠르게 수렴하며, FI..
-
CFG++: Manifold-Constrained Classifier Freeguidance For Diffusion Models 논문 리뷰논문 후기와 구현 2024. 10. 25. 16:42
1. 일단 Manifold란?최근 Diffusion 쪽에서는 데이터 manifold에 대한 논의가 활발하다. 예를 들어 이미지 데이터가 7만 차원의 공간에 분포되어 있다고 하더라도, 실제로 분포되어 있는 걸 보면 7만차원까지 가지 않는다는 이야기이다. 심지어 어떤 연구에 의하면 데이터셋이 부족하게 훈련된 Diffusion 모델은 manifold가 0차원인 것과 다르지 않다는 (즉, 항상 같은 그림만 생성한다는) 주장도 있다. 해당 논문의 내용은 굉장히 어려워 100% 이해하기는 힘들지만, 상당히 재미있고 충격적이다. 조금 쉽게 비유하자면, 아마도 이론물리학 쪽의 다양한 이론에 따르면 우주공간은 적어도 4차원 이상인 것 같다. 어떤 이론은 우주가 11차원이라고 주장한다나... (진짜 잘 모름) 그럼에도 불..