논문 후기와 구현
-
Multi-Conditioned Denoising Diffusion Probabilistic Model (mDDPM) for Medical Image Synthesis 논문 리뷰논문 후기와 구현 2024. 10. 8. 15:51
한 달 전(24년 9월)에 공개된 논문이다. 이 논문을 DDPM을 사용하되, 해부학적 가이드를 통한 샘플링을 적용한다. 조건 명세를 입력으로 받아 주석이 달린 합성 이미지를 생성하여 의료 AI의 학습데이터 부족 문제를 해결하는 데에 목적이 있다. 1. 이 논문은 DDPM을 이용한다.아래는 이 논문에 나온 수식인데, 기본적인 DDPM 수식에서 크게 바뀐 부분이 없다. DDPM은 한마디로, 노이즈로 가득한 x_T에서 x_{T-1}, x_{T-2}, ..., x_0까지 노이즈를 줄여가며 이미지를 생성하는 것이다. 2. Multi-Annotations Guidance이 논문의 핵심(?)은 여기서부터이다. ILVR(서울대학교 최주영 등)의 Guidance 기법을 이용하여, 모든 HU windows(의학용어임..
-
Spline-based Transformers 요약논문 후기와 구현 2024. 10. 7. 15:04
논문 링크 최근 코딩테스트 공부에 열중했어서, 이 블로그 개설의 진정한 목적인 논문 요약을 거의 못하고 있었는데, 와중에 굉장히 흥미로운 논문이 발표되었다. 열흘 전에 디즈니에서 나온 따끈따끈한 논문이다. 아는 형과 이 논문에 대해 이야기를 나누다가 듣기를, 산공 쪽 분야에서는 디즈니의 연구가 꽤나 유명하다고 한다. 아래의 글은 단순 요약이기라기보다는 내가 기존에 알고 있었던 내용과 생각이 많이 가미된 내용임을 밝힌다. 1. 이 논문은 "절대 위치 인코딩"이 없는 Transformer를 제안한다.일단 이 위치 인코딩이라는 것은 본디 Attention 시에 두 단어 사이의 거리는 고사하고 단순한 위치정보마저 전부 손실되기 때문에, 같은 단어로 구성된 문장이라면 정상적인 순서로 이루어진 문장이 아니라, 랜..
-
Coqui TTS (XTTS-v2) 한국어 Fine-Tuning논문 후기와 구현 2024. 9. 3. 10:45
Coqui TTS (쿠키 TTS)일단 Coqui TTS로는 다음을 할 수 있다:- 음성 생성- 음성 클로닝 (커스텀 TTS)- 음성 Conversion (커스텀 TTS) 그런데 황망한 소식부터 전하자면, Coqui TTS는 24년 1월 운영중단되었다. GitHub에서 clone해와서 쓸 수는 있지만, 모델이 더 이상 업데이트되지는 않을 것이다. 이제 쓸만한 오픈소스 TTS는 OpenVoice 밖에 남지 않았다. 사실 굳이 AI 공부를 하려는 것이 아니고, 그저 고성능 Voice Cloning TTS(특히, 한국어)가 필요할 뿐이라면 Elevenlabs에서 유료로 사용하는 것을 추천한다. 한국어 성능도 이미 굉장히 좋아서, 한국어 Fine-tuning이고 나발이고 그냥 서비스를 갖다 쓰기만 하면 되니 이보..
-
고등학생도 하는 GPT Fine-Tuning (AI-Hub 방언 데이터셋 활용해서 fine-tuning해보기)논문 후기와 구현 2024. 9. 2. 23:33
PrerequisiteVisual Studio Code 설치 (데이터셋 용량이 커서 Google Colab에서 구현 힘듭니다)10기가 정도의 충분한 여유공간OpenAI 가입 및 금액 충전 (ChatGPT 구독과 별개) GPT Fine-Tuning작년(2023년) 하반기에 독일에서 일할 때만 하더라도, 굉장히 어렵게 코딩를 짰어야지 겨우 fine-tuning을 할 수 있었는데, 2024년 상반기부터 굉장히 편해졌다. 데이터셋만 있으면, 누구나 fine-tuning을 할 수 있다. 늘 생각하지만 GPT의 fine-tuning이 가장 쉽기를 바라는 곳이 다름아닌 OpenAI이기 때문에, 그런 걸 할 줄 안다는 것에 자신의 가치를 두어서는 안 된다. Fine-tuning의 역할과 한계인공지능을 과대평가하는 것은..
-
코드 돌려보기 - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation (Talking Head Generation)논문 후기와 구현 2024. 8. 3. 08:12
Talking Head Generation미국 대선이 다가오고 있다. 트럼프가 될지 해리스가 될지보다도 사실 내가 궁금한 것은, 이번 대선에서 Diffusion 기술이 어떤 위력을 발휘할 것인가이다. 24년 6월 15일 GitHub에 공개된 Hallo도 Diffusion을 활용한 Talking Head Generation 기술을 다룬다. Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image AnimationFlamingo라고, 투고되자마자 ChatGPT가 공개되어 어마어마한 결과물에 비해 주목을 많이 받지는 못한 불운의 논문이 있었는데, 하여튼 저때부터 뭔가 저런 억지 backronym으로 논문 이름을 짓는 게 아주 유행을 하는 것 같..
-
KCC 2024 참여 후기논문 후기와 구현 2024. 8. 3. 07:55
KCC란? 한국컴퓨터종합학술대회(KCC)는 한국정보과학회(KIISE)에서 매년 주최하는 학술대회이다. 고성능컴퓨팅, 국방소프트웨어, 데이터베이스, 모바일응용및시스템, 사물인터넷, 소프트웨어공학, 스마트시티, 알고리즘, 언어공학, 오픈소스소프트웨어, 인공지능, 인공지능응용, 전산교육시스템, 정보보안및신뢰컴퓨팅, 정보통신, 컴퓨터그래픽스및상호작용, 컴퓨터시스템, 프로그래밍언어 등 다양한 분야의 논문을 받으며, 또한 학부생, 주니어(고등학생) 논문도 접수받는다. 주니어(고등학생) 논문을 제외하고, 총 800여 편 정도가 accept된다. 그중 학부생 논문은 300여 편이다. accept율은 공개되지 않은듯하다. 나는 언어공학(NLP) 부문에 학부생논문을 투고했다. 2024년 KCC의 일정은 아래와 같았다:논..