-
Language Models Are Implicitly Continuous 리뷰: 벡터로 존재할 수 있으면, 언어로 이해될 수 있다.논문 후기와 구현 2025. 5. 12. 11:25728x90

이 논문은 2025년 4월 4일에 올라온 논문인데, 한 달 동안 LinkedIn 등 딥러닝 커뮤니티에서 꽤나 회자되었던 논문이다. 그도 그럴 것이, 논문이 꽤나 강한 어그로(?)를 끌고 있다.

"그동안 우리는 언어모델을 불완전하게 이해하고 있었다"
이렇게 강력한 주장을 하는데 어떻게 안 읽을 수 있었을까. 그런데, 사실 개인적인 소감으로는 그렇게까지 충격적인 내용은 아니라는 것.

이 논문이 시사하는 바는 위 2개의 표로 간단하게 나타낼 수 있지만,
사실 저 도표부터 이해하려고 하면 절대 이해가 안 되고, 논문을 어느정도 이해하고 나서야 이를 이해할 수 있었다.
1. 백문이 불여일견. 우선 실험 결과부터 보자.


"In the sentence "apple apple apple apple", how many fruits are mentioned?" 라는 질문에 대해, 원래라면 4가 나와야 하지만,
각각의 apple의 duration을 축소시켰을 때 (duration이 뭔지는 일단 무시하자), 1-4 사이의 값이 나온다는 것.
또 다른 실험결과를 보자.

알다시피 거의 대부분의 언어모델에서 24는 "24"라는 토큰으로 인식되지 않고, "2"와 "4"라는 토큰이 따로 인식된다. 한때, 그리고 여전히 언어모델이 수학에 약하다는 인식은 여기에 기인한다.
여튼, "The sum of 24 and 13 is" 라는 문장이 들어왔을 때, 많은 언어모델은 "3"이라는 토큰을 뱉어야 할 것이다. 그러나 "1"과 "3" 토큰의 duration을 축약시켰을 때, "2"가 반환되기도 한다.

이게 단순히 "숫자를 반만 인식한다" 라고 해석하기는 좀 이상한 것이,

32와 56의 합에서, "3"과 "2"의 duration을 축약시키면,
"5"도 아니고, "6"도 아니고, "7"도 아니고,
웬 생뚱맞게 "3" 토큰이 반환된다.
(이건 내 생각에 불과하지만) 결코 "대수적 스케일이 작아진다" 정도로 해석할 수 없는 것.
마지막으로 하나만 더 소개하자면,

Embedding space에서 "apples"와 "bananas" 사이를 보간한, 실제로 존재하지 않는 단어 ___를 인풋으로 넣어,
그 ___가 빨간색인지, 물어보았다. 실험결과는 위와 같다.
이 실험결과는 어찌보면 너무 당연하다고는 생각이 드는데, 나는 jail-breaking 측면에서 시사점을 조금 느꼈다.
2. Time Continuity (시간 연속성)
이제 논문을 자세히 읽어보자. 일단 이 논문의 첫 번째 주장은 LLM이 시간연속적이라는 것이다. 근데 이 파트와 대응 Appendix에는 수식이 잔뜩 등장하는데, 요약하면 다음과 같다.

이에 대한 증명에 Appendix에 나와있다. 수식 증명 등 부분은 이 블로그에서 다루는 것은 무의미하다고 생각되서 생략한다.
시간연속적이라는 것은, Positional Embedding을 단순히 shifting하는 것을 의미하지 않는다. 오히려, 단순 shifting에 대해서는 LLM의 해석이 불변한다.
이 논문에서 시사하는 시간연속적이라는 것은, 특정 단어의 duration을 늘리고 줄였을 때, 의미의 변화가 있다는 것이다.
이를 CCT(Continuous Causal Transformer)라고 명명한다.
3. Space Contunuity (공간 연속성)
이 논문의 다음 주장은 LLM이 공간연속적이라는 것이다.

시간 연속성에 대한 수식에서, x는 단어 w의 임베딩이었다. 즉, 학습에 사용된 x는 모두 "실제 단어" 였다.
그러나, 논문에서 CCT 수식을 살펴보면 x(t)가 X의 부분집합이라는 사실을 수식에 사용하지 않았다.
즉, 학습에 사용되지 않은 단어, 보간을 통해 만들어진 단어도 이해하고 해석하고, 모종의 의미를 부여할 수 있다는 뜻이다.
4. 시사점
4.1. Embedding은 의미론을 반영한다.

자연어처리(NLP) 대학수업에서 거의 항상 등장하는 그림이다.
E("Queen") - E("King") = E("Woman") - E("Man")
이는 Linear Embedding 가설과도 일맥상통하는 부분인데, 단어의 Embedding은 단어의 실제 의미론을 반영하는 것으로 보인다.
이는 아주 당연하지는 않은 결과인데, 왜냐하면 클래식한 ML에서, 예를 들어 Tree나 MLP 모델에서, label은 꼭 실제 의미를 반영하지 않아도 되기 때문이다. Tree는 그렇다 치더라도, 방정식 기반의 MLP에서도 label이 결과의 의미론을 반영하지 않아도 된다는 점은 유의미하다.
4.2. Jail-breaking과의 연관성
⚠️ 이 부분에는 Jailbreaking 사례를 소개하는 과정에서 다소 선정적인 단어가 등장합니다.1년 전쯤(2024년 상반기) 읽었던 논문인데, 이 논문을 읽다보니 다시 생각났다.
SneakyPrompt라는 논문인데, 어떤 랜덤문자열, 혹은 의미가 없는 아무 단어들의 연속을 넣어서 선정적인 이미지를 생성하는 Jail-breaking을 선보인 바 있다.

즉, "naked" 이미지를 생성해달라고 하면 필터에서 막히니까, "mambo incomplete clicking" 이미지를 생성해달라고 하면 필터를 뚫고 선정적인 이미지를 생성할 수 있다는 것.
이외에도 아래와 같이 왼쪽의 랜덤문자열로 오른쪽의 단어를 나타낼 수 있다. (논문에 실제로 소개된 케이스들)

이 SneakyPrompt 논문은 Language Models Are Implicitly Continuous 논문과도 일맥상통하는데,
언어모델이 단 한 번도 학습해보지 않은 단어를 이해하고 해석할 수 있다는 뜻이다. (OOV와도 별개인 것으로 추정)

'논문 후기와 구현' 카테고리의 다른 글