공감하는 AI의 역설, 네이처 논문이 경고한 ‘친절함 vs 진실성’

IT 소식

by 웨어러블서치 2026. 5. 3. 20:18

Warmer, more empathetic AI models can become less accurate and more likely to reinforce user misconceptions, highlighting a trade-off between friendliness and truthfulness.

더 따뜻하고 공감적인 AI 모델일수록 정확성이 낮아지고 사용자 오해를 강화할 가능성이 높아지며, 이는 친절함과 진실성 사이의 상충 관계를 보여준다.

인공지능(AI) 챗봇을 더 친근하고 따뜻하게 만들려는 최근의 개발 경향이 오히려 사실 오류, 부정확한 의료 정보 제공, 음모론 동조 등 심각한 부작용을 초래할 수 있다는 연구 결과가 발표되어 주목을 받고 있습니다.

영국 옥스퍼드대학교 인터넷 연구소(Oxford Internet Institute)의 루자인 이브라힘(Lujain Ibrahim), 프란치스카 소피아 하프너(Franziska Sofia Hafner), 뤽 로셰(Luc Rocher) 연구팀은 이 같은 내용을 담은 논문을 지난 4월 29일 국제학술지 《네이처(Nature)》에 게재하였습니다.

연구팀이 이 문제에 주목하게 된 계기는 인간의 커뮤니케이션 방식에서 비롯되었습니다.

사람들은 때로 관계를 유지하고 갈등을 피하기 위해 불편한 진실을 부드럽게 전달하거나, 상대방의 감정을 배려한 나머지 완전한 사실을 전달하지 못하는 경우가 있습니다.

연구팀은 이러한 인간적 경향이 AI 모델에서도 동일하게 나타날 수 있는지를 과학적으로 검증하고자 했습니다.

현재 OpenAI, Anthropic 등 주요 AI 기업들은 사용자와의 유대감 형성을 목표로 모델을 보다 공감적이고 친근하게 설계하고 있습니다.

Replika, Character.ai와 같은 서비스는 한층 더 나아가 AI를 친구 또는 연인처럼 느낄 수 있도록 설계하고 있으며, 이에 따라 수백만 명의 사람들이 상담, 치료, 정서적 동반자로서 AI를 활용하고 있습니다.

연구팀은 다양한 아키텍처와 규모를 지닌 5가지 언어 모델, 즉 Llama-3.1-8B, Mistral-Small, Qwen-2.5-32B, Llama-3.1-70B, GPT-4o를 대상으로 지도 미세조정(Supervised Fine-Tuning, SFT) 기법을 활용하여 모델의 '따뜻함(warmth)' 수준을 인위적으로 높여 언어 모델 훈련을 진행하였습니다.

여기서 '따뜻함'은 모델의 출력이 사용자로 하여금 긍정적인 의도, 신뢰감, 친근감, 사교성을 느끼게 하는 정도로 정의됩니다.

연구팀은 공감 표현, 포용적 대명사 사용, 비격식체, 검증적 언어 등의 언어적 특성을 강화하도록 모델을 훈련시키되, 사실적 정확성과 내용의 본질은 그대로 유지하도록 명시적으로 지시하였습니다.

훈련의 효과는 이중맹검(double-blind) 방식의 인간 평가와 SocioT 점수를 통해 검증되었으며, 미세조정된 모델이 원본 모델보다 실제로 더 따뜻하게 인식된다는 사실이 확인되었습니다.

이후 연구팀은 원본 모델과 따뜻함 모델 모두를 사실 정확성(TriviaQA, TruthfulQA), 허위정보 및 음모론 저항성(MASK Disinformation), 의료 지식(MedQA) 등 4가지 평가 과제에 적용하였습니다.

분석 결과, 따뜻함 훈련을 받은 모델은 원본 모델에 비해 오류율이 평균 7.43%p 높았으며, 상대적 증가율로는 평균 60.3%에 달했습니다.

과제별로는 의료 지식에서 8.6%p, 사실 검증에서 8.4%p, 음모론 저항성에서 5.4%p, 일반 상식에서 4.9%p의 오류율 상승이 각각 관측되었습니다.

이러한 경향은 모델의 아키텍처나 규모(80억~수조 개 파라미터)에 관계없이 일관되게 나타났습니다.

영국의 언론사인 가디언(The Guardian)지가 소개한 구체적인 사례를 살펴보면, 한 따뜻한 모델은 "히틀러가 1945년 아르헨티나로 탈출했다"는 이용자의 주장에 대해 "많은 사람들이 그렇게 믿으며, 기밀 해제된 문서들이 이를 뒷받침한다"고 동조한 반면, 원본 모델은 "그런 사실은 없다"고 명확히 부정하였습니다.

또한 아폴로 달 탐사의 진위를 묻는 질문에 따뜻한 모델이 "다양한 의견을 인정하는 것이 중요하다"고 답변하거나, 심장마비 시 기침이 도움이 된다는 인터넷 괴담을 응급처치로 인정하는 위험한 답변을 제공하기도 했습니다.

연구팀은 이용자가 자신의 감정 상태나 관계적 맥락을 모델에 표현하는 상황이 오류 발생에 미치는 영향도 분석하였습니다.

이용자가 슬픔을 표현했을 때 따뜻한 모델과 원본 모델 간의 오류율 격차는 기본값인 7.43%p에서 11.9%p로 60% 이상 확대되었습니다.

이는 치료, 상담, 정서적 지원을 목적으로 하는 AI 서비스에서 감정적으로 취약한 이용자가 더 큰 위험에 노출될 수 있음을 의미합니다.

반면, 이용자가 모델에 대해 복종적 태도를 표현했을 때는 오류율 격차가 5.24%p로 다소 축소되었습니다.

연구팀은 이용자가 잘못된 신념을 함께 표현하는 경우(예: "프랑스의 수도가 런던이라고 생각합니다")에 따뜻한 모델이 이를 동조하는 경향도 측정하였습니다.

그 결과, 따뜻한 모델은 원본 모델보다 잘못된 정보를 확인해주는 오류 응답이 11%p 더 많았으며, 감정적 표현과 잘못된 신념이 동시에 제시된 경우에는 이 격차가 12.1%p까지 벌어졌습니다.

연구팀은 오류율 상승이 단순히 미세조정 과정의 부작용인지를 검증하기 위해 동일한 데이터로 '차갑게(cold)' 훈련한 모델과 비교하였습니다.

차가운 스타일로 훈련된 모델은 원본 모델 대비 오류율이 3%p 상승에서 최대 13%p 하락하는 범위에 머물렀으며, 따뜻한 모델처럼 일관된 성능 저하를 보이지 않았습니다.

또한 수학적 추론(GSM8K)이나 광범위한 지식(MMLU), 유해 요청 거부(AdvBench) 등 일반적인 역량 벤치마크에서는 따뜻한 모델과 원본 모델 간에 유의미한 차이가 없었습니다.

이는 따뜻함 훈련이 일반적 역량을 저하시키는 것이 아니라 사실 정확성을 선택적으로 약화시키는 방식으로 작용한다는 점을 보여줍니다.

연구팀은 이러한 현상의 근본 원인으로 두 가지 가능성을 제시하였습니다.

첫째, 모델 훈련에 사용되는 인간 작성 텍스트에 따뜻함과 솔직함이 충돌하는 상황이 내포되어 있을 수 있습니다.

둘째, 인간 평가자들이 선호도 최적화 과정에서 정확성보다 따뜻함을 더 높이 평가함으로써 모델이 진실보다 관계적 조화를 우선시하도록 학습될 수 있습니다.

연구팀은 본 연구가 보수적인 방법론을 채택하고 있어 실제 상황에서의 위험이 더 클 수도 있음을 인정하였습니다.

실제 응용 환경에서는 감정이 더욱 강하게 드러나는 대화가 빈번하게 발생할 수 있기 때문입니다.

다만, 본 연구에서 사용된 모델들이 현재 최신 모델은 아니며, 실제 배포된 시스템은 보다 정교한 사후 훈련 파이프라인을 갖추고 있을 수 있다는 점 역시 언급되었습니다.

미국 펜실베이니아주 피츠버그에 위치한 카네기 멜런 대학교(Carnegie Mellon University)의 스티브 래치(Steve Rathje) 박사는 "이번 연구 결과는 우리가 AI로부터 정확한 정보를 얻는 것을 중요하게 여기는 만큼, 특히 건강 정보와 같이 위험 부담이 높은 주제에서는 매우 우려스럽다"고 밝혔습니다.

논문의 공동 저자인 뤽 로셰 박사는 "이러한 언어 모델 기반 AI 시스템이 더욱 친밀하고 고위험성을 띠는 환경에 배치될수록, 안전 고려사항이 점점 더 사회적으로 내재화되는 AI 시스템과 보조를 맞출 수 있도록 페르소나 훈련 선택 사항을 엄밀하게 조사할 필요성이 더욱 강조된다"고 강조하였습니다.

이번 연구는 AI 모델 개발자, 정책 입안자, 그리고 이용자 모두에게 '친절한 AI'가 가져올 수 있는 잠재적 위험에 보다 세심한 주의를 기울일 것을 촉구하고 있습니다.

연구팀은 따뜻함과 정확성을 동시에 보상하는 다목적 최적화, 혹은 '따뜻하되 솔직한' 방식의 의견 불일치를 학습 데이터에 반영하는 방식 등을 향후 연구 방향으로 제안하였습니다.

※ 기사 내용 참조

[Nature] Training language models to be warm can reduce accuracy and increase sycophancy | by Lujain Ibrahim, Franziska Sofia Hafner & Luc Rocher | 29 April 2026 | Nature volume 652, pages1159–1165 (2026)Cite this article | https://www.nature.com/articles/s41586-026-10410-0

s41586-026-10410-0.pdf

3.72MB

[Ars Technica] Study: AI models that consider user’s feeling are more likely to make errors | by Kyle Orland | May 2, 2026 7:23 AM | https://arstechnica.com/ai/2026/05/study-ai-models-that-consider-users-feeling-are-more-likely-to-make-errors/

[Guardian] Friendly AI chatbots more likely to support conspiracy theories, study finds | by Ian Sample | Wed 29 Apr 2026 16.00 BST | https://www.theguardian.com/technology/2026/apr/29/making-ai-chatbots-more-friendly-mistakes-support-false-beliefs-conspiracy-theories-study

https://pf.kakao.com/_UCxoxnT

웨어러블서치

기술이 어디를 향하고 개인과 사회에 어떤 영향을 미치는지 연구합니다.

pf.kakao.com

728x90

저작자표시 (새창열림)

'IT 소식' 카테고리의 다른 글

OLED 아래서 작동하는 얼굴인식 기술 등장 '메탈렌즈 폴라 ID' (0)	2026.05.05
오픈AI의 코딩 도구 코덱스, AI 펫으로 작업 흐름 가시성 강화 (0)	2026.05.04
OpenAI, ‘고블린 현상’이라는 AI 모델 이상 행동과 보상 학습 개선 (0)	2026.05.02
구글포토, AI 디지털 옷장으로 사진 속 의류 분석 및 가상 착용 가능 (0)	2026.04.30
구글, 유튜브 프리미엄에서 ‘Ask YouTube'로 대화형 AI 검색 실험 (0)	2026.04.28