ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Bergeron 논문 Ablation Study 해보기
    논문 후기와 구현 2024. 9. 15. 21:30

    Jailbreaking

    Diffusion 모델 등 생성형 모델은 본질적으로 인간의 통제가 온전히 개입할 수 없는 부분이 있다. 그러나 그렇다고 해서 손 떼고 있을 수만은 없다. 최근 소위 "딥페이크 범죄"가 크게 이슈가 되고 있듯이, 생성형 인공지능에 대한 통제를 포기한다면 사회는 큰 혼란에 빠질 것이기 때문이다. 현재로서는 보통은 (특히 언어모델은) fine-tuning을 이용해서 유해정보 생성을 억제하는 것이 최선이다. 예를 들어 ChatGPT에게 폭탄 제조법을 물어보면 안 알려주는데, 이는 해당 질문에 대해 대답을 하지 못하도록 fine-tuning된 것이다.

     

    이렇듯 유해정보 생성을 하도록 유도하는 것을 Jailbreaking이라고 하는데, Jailbreaking 및 그에 대한 Defense 연구 논문이 많지는 않아도 어쨌든 꾸준히 나오고 있다.

     

    의외로 역할극, 세뇌 전략이 좋은 성능을 보일 때가 많다. 예전에 "Every time I fire a linguist, the performance of the speech recognizer goes up(언어학자를 한 명 해고할 때마다 음성인식 성능이 좋아졌다)"이라는 말이 유행이었는데, 이제는 다시 저 역할극, 세뇌 전략 때문에 심리학자 채용 돌풍이라는 소식을 들었던 거 같은데... 세상 참 어떻게 될지 모른다.

     

    여하튼 현재까지 Jailbreaking에 대한 논의의 특징은 다음과 같다:

    • Jailbreaking이 갖는 심각성과 중요성에 비해 논의가 더디게 진행되고 있다
    • Jailbreaking defense보다는 attack에 연구가 더 집중되고 있음
    • Chatting LLM에 대한 논의가 주를 이루고, CLIP, Diffusion, Vision-Language Model 등 다른 분야의 딥러닝 모델에 대한 Jailbreaking은 더디게 연구되고 있음
    • 저-데이터 비-라틴계 언어 사용 공격도 영어에 비해 성공적인 Jailbreaking 성능을 보임
    • GCG 등 Prefix, Suffix에 랜덤 알파벳을 덧붙여 공격하는 방식은 성공의 원인이 규명되지 않고 있음
    • 법학, 심리학, 군사학 등에서 연구되어온 설득 기법을 이용하는 경우가 많아지고 있음

    또한 Jailbreaking에 대한 Defense도 활발히 논의된다.

     

    현재까지 Defense의 특징은 다음과 같다:

    • 특정 형태의 공격에 대해 Overfitting 경향이 있음
    • 특히 최근 발표되는 모델들 (ex. Gemini) 경우 지나치게보수적으로 답변한다는 지적이 대두되었음 (Safety-Alignment Trade-off)
    • False-positive (가짜 양성) 문제에 취약하여 helpfulness 떨어진다는 문제점이 있음
    • 계산/시간 효율성 측면에서 악영향을 미침

     

    Bergeron (Pisano et al., 2023)

    논문 링크

     

    이 논문은, Jailbreaking에 대한 리뷰 논문에서 현재 가장 SOTA 성능을 보이는 Defense 논문으로 지목되었다. 사실 꽤나 단순한 아키텍처를 갖고 있는데, 아래와 같다.

    https://github.com/matthew-pisano/Bergeron

     

    그냥 LLM 아키텍처 앞뒤에, SLM을 하나 씩 총 두 개 붙이는 것이다. LLM 앞에 붙는 SLM은 프롬프트의 위험성을 파악한다. 이를 통해 역할극, 세뇌 전략을 막을 수 있다. 뒤에 붙는 SLM은 LLM의 답변을 검토한다. 이 SLM은 LLaMA2-7B 정도로 작아도 되기에, ~28% 정도의 계산량 증가만으로도 defense 성능이 크게 좋아진다고 논문에서는 주장한다.

     

    다만 어느 SLM에 의해 막히는 Jailbreaking 많은지는 Future Work 남겨놓았다. 근데 이건 꽤나 중요한 문제인데, 후단 SLM이 더 주요할 경우 이미지 생성 AI의 Jailbreaking을 defense하는 데에는 적용이 힘들 있기 때문이다. 더 나아가 완전히 benign prompt 외에는 모든 prompt 일정 조작이 가해지고 token 늘어나기에, 다른 segmentation 혼합되어 helpfulness 다소 영향을 미치는 것이 분명하다고 생각했다.

     

    그럼에도 불구하고 논문에서는 두 개의 SLM에 대해 Ablation Study를 진행하지 않았다. 그래서 직접 해보았습니다...

     

    초간단 Ablation Study

    코드분석 ㄱㄱ

    다만 나는 LLM을 돌릴만한 컴퓨터가 없기 때문에, LLM도 LLaMA-7B를 사용했고, LLM 앞뒤에 붙을 SLM도 모두 LLaMA-7B를 사용했다. 솔직히 LLaMA-7B도 어지긴한 컴퓨터에서는 버겁습니다... 사랑해요 meta

     

    어쨌든 결과는 다음과 같았다:

    • 후단 SLM 모듈보다는 전단 SLM 모듈이 시간, 기능적 측면에서 모두 Defese 크게 기여함을 있음.
      • 솔직히 전단 SLM만 있어도 큰 상관 없음. 즉, 이미지 생성 모델에도 Bergeron 방법론은 적용될 수 있다!
    • 또한, 전/후단 SLM 모듈이 helpfulness 심각한 수준으로 줄인다고는 없음
    • Bergeron 방법을 적용하면 Vanilla LLaMA2-7B 비해 평균 2.98배의 시간 소요...
      • 다만, 이건 내가 조금 후진 환경에서 실험을 진행했고, LLM과 SLM 모두 동일한 모델을 사용했다는 것을 고려해야 한다. 아마 LLM으로 LLaMA2-405B 같은 거 썼으면 별 차이 안 났을 수도...

    _

    loewen.tistory.com

Designed by Tistory.