Bergeron 논문 Ablation Study 해보기

논문 후기와 구현 2024. 9. 15. 21:30

Jailbreaking

Diffusion 모델 등 생성형 모델은 본질적으로 인간의 통제가 온전히 개입할 수 없는 부분이 있다. 그러나 그렇다고 해서 손 떼고 있을 수만은 없다. 최근 소위 "딥페이크 범죄"가 크게 이슈가 되고 있듯이, 생성형 인공지능에 대한 통제를 포기한다면 사회는 큰 혼란에 빠질 것이기 때문이다. 현재로서는 보통은 (특히 언어모델은) fine-tuning을 이용해서 유해정보 생성을 억제하는 것이 최선이다. 예를 들어 ChatGPT에게 폭탄 제조법을 물어보면 안 알려주는데, 이는 해당 질문에 대해 대답을 하지 못하도록 fine-tuning된 것이다.

이렇듯 유해정보 생성을 하도록 유도하는 것을 Jailbreaking이라고 하는데, Jailbreaking 및 그에 대한 Defense 연구 논문이 많지는 않아도 어쨌든 꾸준히 나오고 있다.

의외로 역할극, 세뇌 전략이 좋은 성능을 보일 때가 많다. 예전에 "Every time I fire a linguist, the performance of the speech recognizer goes up(언어학자를 한 명 해고할 때마다 음성인식 성능이 좋아졌다)"이라는 말이 유행이었는데, 이제는 다시 저 역할극, 세뇌 전략 때문에 심리학자 채용 돌풍이라는 소식을 들었던 거 같은데... 세상 참 어떻게 될지 모른다.

여하튼 현재까지 Jailbreaking에 대한 논의의 특징은 다음과 같다:

Jailbreaking이 갖는 심각성과 중요성에 비해 논의가 더디게 진행되고 있다
Jailbreaking defense보다는 attack에 연구가 더 집중되고 있음
Chatting LLM에 대한 논의가 주를 이루고, CLIP, Diffusion, Vision-Language Model 등 다른 분야의 딥러닝 모델에 대한 Jailbreaking은 더디게 연구되고 있음
저-데이터 비-라틴계 언어 사용 공격도 영어에 비해 성공적인 Jailbreaking 성능을 보임
GCG 등 Prefix, Suffix에 랜덤 알파벳을 덧붙여 공격하는 방식은 성공의 원인이 규명되지 않고 있음
법학, 심리학, 군사학 등에서 연구되어온 설득 기법을 이용하는 경우가 많아지고 있음

또한 Jailbreaking에 대한 Defense도 활발히 논의된다.

현재까지 Defense의 특징은 다음과 같다:

특정 형태의 공격에 대해 Overfitting된 경향이 있음
특히 최근 발표되는 모델들 (ex. Gemini)의 경우 지나치게 “보수적”으로 답변한다는 지적이 대두되었음 (Safety-Alignment Trade-off)
False-positive (가짜 양성) 문제에 취약하여 helpfulness가 떨어진다는 문제점이 있음
계산/시간 효율성 측면에서 악영향을 미침

Bergeron (Pisano et al., 2023)

논문 링크

이 논문은, Jailbreaking에 대한 리뷰 논문에서 현재 가장 SOTA 성능을 보이는 Defense 논문으로 지목되었다. 사실 꽤나 단순한 아키텍처를 갖고 있는데, 아래와 같다.

https://github.com/matthew-pisano/Bergeron

그냥 LLM 아키텍처 앞뒤에, SLM을 하나 씩 총 두 개 붙이는 것이다. LLM 앞에 붙는 SLM은 프롬프트의 위험성을 파악한다. 이를 통해 역할극, 세뇌 전략을 막을 수 있다. 뒤에 붙는 SLM은 LLM의 답변을 검토한다. 이 SLM은 LLaMA2-7B 정도로 작아도 되기에, ~28% 정도의 계산량 증가만으로도 defense 성능이 크게 좋아진다고 논문에서는 주장한다.

다만 둘 중 어느 SLM에 의해 막히는 Jailbreaking이 더 많은지는 Future Work에 남겨놓았다. 근데 이건 꽤나 중요한 문제인데, 후단 SLM이 더 주요할 경우 이미지 생성 AI의 Jailbreaking을 defense하는 데에는 적용이 힘들 수 있기 때문이다. 더 나아가 완전히 benign한 prompt 외에는 모든 prompt에 일정 조작이 가해지고 token이 늘어나기에, 다른 segmentation이 혼합되어 helpfulness에 다소 영향을 미치는 것이 분명하다고 생각했다.

그럼에도 불구하고 논문에서는 두 개의 SLM에 대해 Ablation Study를 진행하지 않았다. 그래서 직접 해보았습니다...

초간단 Ablation Study

다만 나는 LLM을 돌릴만한 컴퓨터가 없기 때문에, LLM도 LLaMA-7B를 사용했고, LLM 앞뒤에 붙을 SLM도 모두 LLaMA-7B를 사용했다. 솔직히 LLaMA-7B도 어지긴한 컴퓨터에서는 버겁습니다... ~~사랑해요 meta~~

어쨌든 결과는 다음과 같았다:

후단 SLM 모듈보다는 전단 SLM 모듈이 시간, 기능적 측면에서 모두 Defese에 크게 기여함을 알 수 있음.
- 솔직히 전단 SLM만 있어도 큰 상관 없음. 즉, 이미지 생성 모델에도 Bergeron 방법론은 적용될 수 있다!
또한, 전/후단 SLM 모듈이 helpfulness를 심각한 수준으로 줄인다고는 볼 수 없음
Bergeron 방법을 적용하면 Vanilla LLaMA2-7B에 비해 평균 2.98배의 시간 소요...
- 다만, 이건 내가 조금 후진 환경에서 실험을 진행했고, LLM과 SLM 모두 동일한 모델을 사용했다는 것을 고려해야 한다. 아마 LLM으로 LLaMA2-405B 같은 거 썼으면 별 차이 안 났을 수도...

loewen.tistory.com

'논문 후기와 구현' 카테고리의 다른 글

Coqui TTS (XTTS-v2) 한국어 Fine-Tuning (7)	2024.09.03
고등학생도 하는 GPT Fine-Tuning (AI-Hub 방언 데이터셋 활용해서 fine-tuning해보기) (9)	2024.09.02
코드 돌려보기 - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation (Talking Head Generation) (0)	2024.08.03
KCC 2024 참여 후기 (0)	2024.08.03

ABOUT ME

LOEWEN LOEWEN

Jailbreaking

Bergeron (Pisano et al., 2023)

초간단 Ablation Study

'논문 후기와 구현' 카테고리의 다른 글

티스토리툴바

ABOUT ME

Jailbreaking

Bergeron (Pisano et al., 2023)

초간단 Ablation Study

'논문 후기와 구현' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바