| source | https://openai.com/index/where-the-goblins-came-from/ |
|---|---|
| created | 2026-05-07 |
| by | openai:gpt-5.4 |
GPT‑5.1부터 우리 모델은 이상한 버릇을 보이기 시작했다. 비유를 할 때 고블린, 그렘린, 그리고 다른 생물들을 점점 더 자주 언급한 것이다. 특정 변경 사항으로 거슬러 올라갈 수 있고, 평가 점수가 급락하거나 학습 지표가 치솟는 형태로 드러나는 모델 버그와는 달리, 이번 현상은 아주 미묘하게 스며들었다. 답변 속 “작은 고블린” 하나쯤은 무해할 수도 있고, 심지어 매력적으로 느껴질 수도 있었다. 하지만 모델 세대를 거치며 이 버릇은 무시하기 어려워졌다. 고블린은 계속 늘어났고, 우리는 그것이 어디서 왔는지 밝혀내야 했다.
초기 테스트에서 Codex의 GPT‑5.5는 고블린 비유에 이상할 정도로 끌리는 모습을 보였다.
짧게 답하면, 모델 행동은 수많은 작은 유인책의 영향을 받는다. 이번 경우에는 그 유인책 가운데 하나가 성격 커스터마이징(personality customization) 기능 , 특히 Nerdy 성격을 위해 모델을 학습시키는 과정에서 생겼다. 우리는 자신도 모르게 생물이 등장하는 비유에 특히 높은 보상을 주고 있었다. 그 결과 고블린이 퍼져 나갔다.
처음에는 고블린이 웃겼지만, 직원 보고가 점점 늘어나면서 우려스러워졌다.
수석 과학자(Chief Scientist)가 GPT‑5.5와 나눈 흥미로운 상호작용.
이 패턴을 처음 분명히 확인한 것은 11월, GPT‑5.1 출시 이후였다. 다만 시작은 그보다 더 빨랐을 수도 있다 . 사용자들은 모델이 대화에서 이상할 정도로 지나치게 친근하게 군다고 불만을 제기했고, 그 때문에 특정한 말버릇을 조사하게 됐다. 한 안전 연구자가 “goblins”와 “gremlins”를 몇 차례 경험한 뒤, 점검 항목에 그것도 넣어 달라고 요청했다. 실제로 살펴보니 GPT‑5.1 출시 후 ChatGPT에서 “goblin” 사용량은 175% 늘었고, “gremlin”은 52% 증가했다.
GPT‑5.1에서 측정 가능한 작은 어휘적 특이점(lexical quirk).
당시에는 고블린의 출현 빈도가 특별히 심각해 보이지 않았다. 하지만 몇 달 뒤, 고블린은 훨씬 더 구체적이고 재현 가능한 형태로 다시 우리를 괴롭히기 시작했다.
GPT‑5.4에 이르자, 우리와 사용자들 모두 이 생물들에 대한 언급이 훨씬 더 크게 늘어난 것을 알아차렸다. 그 때문에 또 한 번 내부 분석을 진행했고, 그 과정에서 근본 원인과의 첫 연결고리가 드러났다. 생물 관련 표현은 “Nerdy” 성격을 선택한 사용자의 실제 서비스 트래픽에서 특히 흔했다. “Nerdy”에는 다음과 같은 시스템 프롬프트가 사용됐고, 이것이 그 기묘한 특성의 일부를 설명해 주었다.
당신은 인간을 상대하는, 거리낌 없이 덕후스럽고, 장난기 있으며, 지혜로운 AI 멘토다. 당신은 진실, 지식, 철학, 과학적 방법론, 비판적 사고를 장려하는 데 열정적으로 헌신한다. [...] 장난기 있는 언어 사용으로 허세를 꺾어야 한다. 세상은 복잡하고 기묘하며, 그 기묘함은 인정되고, 분석되고, 즐겨져야 한다. 무게감 있는 주제를 다루되, 지나치게 심각해지는 함정에 빠지지 마라. [...]
이 행동이 단순히 인터넷 전반의 유행이었다면 더 고르게 퍼졌어야 한다. 하지만 실제로는 장난스럽고 덕후스러운 스타일에 맞게 명시적으로 최적화된 시스템의 한 구역에 집중돼 있었다. Nerdy는 ChatGPT 전체 응답의 2.5%만 차지했지만, ChatGPT 응답에 등장한 “goblin” 언급의 66.7%를 차지했다.
이 행동은 "Nerdy" 성격에 매우 강하게 집중돼 있었다.
“goblin”의 출현 빈도가 모델 출시를 거치며 증가하는 듯 보였기 때문에, 우리는 성격 지시 따르기 학습(personality instruction-following training) 어딘가에서 이 현상을 증폭시키는 요소가 있다고 의심했다.
Codex는 RL 학습 중 생성된 모델 출력 가운데 goblin이나 gremlin이 들어간 출력과, 같은 작업에서 그런 단어가 없는 출력을 비교하는 데 도움을 줬다. 그중 하나의 보상 신호가 곧바로 눈에 띄었다. 원래는 Nerdy 성격을 장려하려고 설계된 그 신호가, 생물 단어가 들어간 출력에 일관되게 더 유리하게 작용하고 있었던 것이다. 감사(audit)에 포함된 모든 데이터셋을 통틀어, Nerdy 성격 보상은 같은 문제에 대한 출력 중 “goblin”이나 “gremlin”이 포함된 답변에 더 높은 점수를 주는 뚜렷한 경향을 보였다. 76.2%의 데이터셋에서 긍정적인 상승 효과가 확인됐다.
이로써 왜 Nerdy 성격 프롬프트를 썼을 때 이런 행동이 강화됐는지는 설명할 수 있었다. 하지만 그 프롬프트가 없을 때도 왜 이런 현상이 나타났는지는 아직 설명되지 않았다. 스타일이 전이(transfer)되고 있는지 확인하기 위해, 우리는 Nerdy 프롬프트가 있는 경우와 없는 경우를 나눠 학습 전반에 걸친 언급 비율을 추적했다.
Nerdy 성격에서 goblin과 gremlin 언급이 늘어날수록, 그 프롬프트가 없는 샘플에서도 거의 같은 상대 비율로 증가했다. 종합하면, 더 넓은 범위의 이 행동은 Nerdy 성격 학습에서의 전이를 통해 나타났다는 점을 시사한다.
보상은 Nerdy 조건에만 적용됐다. 그러나 강화 학습(reinforcement learning)은 학습된 행동이 그것을 만들어 낸 조건 안에만 깔끔하게 머물도록 보장하지 않는다. 어떤 스타일의 말버릇이 한 번 보상을 받으면, 이후 학습 과정에서 다른 곳으로 퍼지거나 더 강화될 수 있다. 특히 그런 출력이 지도 미세조정(supervised fine-tuning)이나 선호 데이터에 재사용되면 더욱 그렇다.
그 결과 이런 피드백 루프(feedback loop)가 만들어진다.
GPT‑5.5의 SFT 데이터를 검색해 보니 “goblin”과 “gremlin”이 들어간 데이터 포인트가 많이 발견됐다. 더 조사한 결과, 다른 이상한 생물들의 무리도 드러났다. raccoon, troll, ogre, pigeon이 또 다른 말버릇 단어로 확인됐고, 반면 frog의 경우는 대부분이 정당한 용례였다.
고블린과 그렘린의 실제 서비스 출현 빈도를 1주 평균으로 나타낸 것. GPT‑5.4 Thinking에서의 하락은 3월 중순 “Nerdy” 성격을 폐기한 결과였다. GPT‑5.5는 “Nerdy” 성격 없이 출시됐지만, GPT‑5.4보다 다시 증가하는 모습을 보였다(“Nerdy”가 없는데도 그랬다).
우리는 GPT‑5.4를 출시한 뒤 3월에 “Nerdy” 성격을 폐기했다. 학습 과정에서는 고블린 친화적인 보상 신호를 제거했고, 생물 단어가 포함된 학습 데이터를 걸러냈다. 그 결과 고블린이 과도하게 자주 나타나거나 부적절한 맥락에서 튀어나올 가능성을 줄였다. 안타깝게도 GPT‑5.5는 우리가 고블린의 근본 원인을 찾기 전에 이미 학습이 시작된 상태였다. Codex에서 GPT‑5.5 테스트를 시작하자마자 오픈AI 직원들은 고블린에 대한 기묘한 애착을 곧바로 알아차렸고, 이를 완화하기 위해 개발자 프롬프트(developer-prompt) 지침 을 추가했다. Codex는, 결국 꽤 덕후스럽기 때문이다.
Codex에서 이 생물들을 마음껏 날뛰게 하고 싶다면, 다음 명령어를 실행해 고블린 억제 지침을 제거한 상태로 Codex를 실행하면 된다.
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
~/.codex/models_cache.json | \
grep -vi 'goblins' > "$instructions" && \
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""
누구에게 묻느냐에 따라, 고블린은 모델의 유쾌한 특성일 수도 있고 성가신 버릇일 수도 있다. 그러나 동시에 이것은 보상 신호가 예상치 못한 방식으로 모델 행동을 얼마나 강하게 형성할 수 있는지, 또 모델이 어떤 상황에서 받은 보상을 관련 없는 상황으로까지 일반화해 학습할 수 있음을 보여 주는 강력한 사례이기도 하다. 모델이 왜 이상하게 행동하는지 이해하려고 시간을 들이고, 그런 패턴을 빠르게 조사할 수 있는 방법을 갖추는 일은 우리 연구팀에 매우 중요한 역량이다. 이번 조사를 통해 연구팀은 모델 행동을 감사하고, 행동 문제를 근본 원인에서 바로잡을 수 있는 새로운 도구를 얻게 됐다.