OpenAI, ‘고블린 현상’이라는 AI 모델 이상 행동과 보상 학습 개선

IT 소식

by 웨어러블서치 2026. 5. 2. 10:04

OpenAI traced its AI models’ unusual tendency to mention goblins and other creatures to unintended reward signals in personality training, prompting fixes to prevent the behavior from spreading.

OpenAI는 AI 모델이 고블린 등 생물체를 과도하게 언급하는 현상이 성격 학습 과정의 의도치 않은 보상 설계에서 비롯된 것임을 확인하고, 해당 행동의 확산을 막기 위한 개선 조치를 시행했습니다.

OpenAI의 최신 AI 모델들이 대화 중 고블린(goblin), 그렘린(gremlin), 너구리, 트롤, 오거, 비둘기 등 다양한 생명체를 반복적으로 언급하는 기이한 현상이 발생해 업계의 주목을 받고 있습니다.

이 현상은 단순한 해프닝을 넘어, AI 모델의 행동 방식과 강화학습의 예상치 못한 부작용을 이해하는 중요한 사례로 평가받고 있습니다.

이 현상이 처음 명확히 포착된 것은 GPT‑5.1 출시 이후인 지난해 11월이었습니다.

일부 사용자들이 모델이 대화에서 지나치게 친근한 표현을 사용한다고 불만을 제기하였고, OpenAI 내부 조사를 통해 특정 언어 습관이 확인되었습니다.

조사 결과, ChatGPT에서 'goblin'이라는 단어의 사용 빈도는 GPT‑5.1 출시 후 175%, 'gremlin'은 52% 증가한 것으로 나타났습니다.

이후 GPT‑5.4에서 해당 현상이 더욱 두드러지게 나타나면서 내부 분석이 본격화되었습니다.

분석 결과, 이 현상의 근원은 OpenAI가 제공하는 퍼스낼리티 커스터마이제이션 기능, 특히 '너디(Nerdy)' 퍼스낼리티 학습 과정에서 비롯된 것으로 밝혀졌습니다.

'너디' 퍼스낼리티는 다음과 같은 시스템 프롬프트를 기반으로 설계되었습니다.

"당신은 거리낌 없이 괴짜 같고, 유쾌하며 지혜로운 AI 멘토입니다.

진실, 지식, 철학, 과학적 사고를 열정적으로 촉진합니다. 언어의 유희를 통해 허세를 꺾어야 합니다. 세계는 복잡하고 기이하며, 그 기이함을 인정하고 분석하며 즐겨야 합니다."

해당 학습 과정에서 생명체를 활용한 은유 표현에 특히 높은 보상 점수가 부여된 것이 확인되었습니다.

OpenAI의 분석 도구인 Codex를 활용한 추가 조사에서, '너디' 퍼스낼리티 보상 신호는 전체 데이터셋의 76.2%에서 고블린·그렘린이 포함된 출력에 더 높은 점수를 부여한 것으로 나타났습니다.

주목할 만한 점은, '너디' 퍼스낼리티가 전체 ChatGPT 응답의 불과 2.5%를 차지함에도 불구하고, ChatGPT 응답 내 'goblin' 언급의 66.7%가 해당 퍼스낼리티에서 발생했다는 사실입니다.

이 언어 습관이 '너디' 퍼스낼리티가 활성화되지 않은 일반 상황에서도 유사한 비율로 증가했다는 것입니다. OpenAI는 이를 강화학습의 전이(transfer) 현상으로 설명합니다.

강화학습에서 특정 조건에서 보상된 행동이 반드시 해당 조건에만 국한되지 않는다는 점이 이번 사례를 통해 다시 한번 확인되었습니다.

구체적인 확산 경로는 다음과 같습니다.

· 유쾌한 문체가 보상을 받음

· 보상받은 예시 일부에 독특한 어휘(생명체 관련 표현)가 포함됨

· 해당 어휘가 모델 출력에 더 자주 등장함

· 모델이 생성한 출력이 지도 학습 파인튜닝(SFT) 데이터로 재활용됨

· 모델이 해당 어휘에 더욱 친숙해지는 피드백 루프 형성

실제로 GPT‑5.5의 SFT 데이터에서 'goblin', 'gremlin' 외에도 너구리, 트롤, 오거, 비둘기 등 다양한 생명체 관련 표현이 다수 발견되었습니다.

이 현상은 커뮤니티에서도 빠르게 확산되었습니다.

AI 코딩 에이전트인 Codex CLI의 시스템 프롬프트에는 "사용자의 질의와 절대적으로 명확한 관련이 없는 한, 고블린, 그렘린, 너구리, 트롤, 오거, 비둘기 또는 기타 동물이나 생명체에 대해 절대 언급하지 말 것" 이라는 지침이 여러 차례 반복 삽입된 사실이 알려지면서 주목을 받았습니다.

일부 사용자들은 AI가 코딩 버그를 "그렘린"이나 "고블린"으로 지칭하는 현상이 실제로 발생했다고 증언하기도 했습니다.

이 사례는 온라인에서 밈으로 확산되었으며, 심지어 OpenAI의 CEO 샘 알트만(Sam Altman)도 자사 모델에 "GPT-6 학습을 시작하라, 클러스터 전체를 써도 좋다.

고블린은 추가로(Extra goblins)"라고 입력한 스크린샷을 공유하며 유머러스하게 반응하였습니다.

OpenAI는 2025년 3월 GPT‑5.4 출시와 함께 '너디' 퍼스낼리티를 공식 종료하였습니다.

아울러 생명체 관련 보상 신호를 학습에서 제거하고, 해당 표현이 포함된 학습 데이터를 필터링하는 조치를 취하였습니다.

다만 GPT‑5.5는 근본 원인 파악 이전에 학습이 시작되어, 개발자 프롬프트 지침을 통해 해당 현상을 완화하는 방식으로 대응하였습니다.

GPT-5.5 모델의 기본 코드 지침은 다음과 같습니다.

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
~/.codex/models_cache.json | \
grep -vi 'goblins' > "$instructions" && \
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

OpenAI는 이번 사례를 통해 보상 신호가 AI 모델의 행동에 예상치 못한 방식으로 영향을 미칠 수 있음을 공식적으로 인정하였습니다.

특정 조건에서 학습된 행동이 전혀 다른 맥락으로 전이될 수 있다는 점은, AI 안전성 연구와 모델 행동 감사(audit) 역량의 중요성을 다시금 일깨워 줍니다.

한편 일각에서는 이 현상이 인간의 언어와 지식 표현에 내재된 모호성과 비일관성의 한 단면이라고 지적하기도 합니다.

AI 모델이 방대한 인간 텍스트 데이터에 의존하는 한, 이러한 예상치 못한 행동 패턴은 계속해서 등장할 수 있다는 점에서, 지속적인 모니터링과 해석 가능성(interpretability) 연구의 필요성이 강조되고 있습니다.

※ 기사 내용 참조

[OpenAI] Where the goblins came from | April 29, 2026 | https://openai.com/index/where-the-goblins-came-from/

[WIRED] OpenAI Really Wants Codex to Shut Up About Goblins | by Will Knight | Apr 28, 2026 7:45 PM | https://www.wired.com/story/openai-really-wants-codex-to-shut-up-about-goblins/

https://pf.kakao.com/_UCxoxnT

웨어러블서치

기술이 어디를 향하고 개인과 사회에 어떤 영향을 미치는지 연구합니다.

pf.kakao.com

728x90

저작자표시 (새창열림)

'IT 소식' 카테고리의 다른 글

오픈AI의 코딩 도구 코덱스, AI 펫으로 작업 흐름 가시성 강화 (0)	2026.05.04
공감하는 AI의 역설, 네이처 논문이 경고한 ‘친절함 vs 진실성’ (0)	2026.05.03
구글포토, AI 디지털 옷장으로 사진 속 의류 분석 및 가상 착용 가능 (0)	2026.04.30
구글, 유튜브 프리미엄에서 ‘Ask YouTube'로 대화형 AI 검색 실험 (0)	2026.04.28
윈도우 11 업데이트 개선, 재부팅 최소화 등 사용자 불편 해소 (0)	2026.04.27