본문 바로가기
IT 동향

“AI가 더 똑똑해질수록 왜 더 많이 거짓말할까?” – OpenAI 최신 추론 모델의 환각 딜레마 집중 분석

by mean. 2025. 4. 22.
“AI가 더 똑똑해질수록 왜 더 많이 거짓말할까?” – OpenAI 최신 추론 모델의 환각 딜레마 집중 분석

AI가 더 똑똑해질수록 왜 더 많이 거짓말할까?
OpenAI 최신 추론 모델 환각 딜레마 집중 분석

OpenAI o3 o4-mini 환각 현상
요약 한 줄: “추론 능력이 뛰어난 최신 AI일수록, 더 적극적으로 답변하면서 동시에 더 많은 환각(거짓 정보)도 생성하는 딜레마가 심화되고 있다.”

이 글에서 다루는 핵심:
  • OpenAI의 최신 AI 모델(o3, o4-mini)이 왜 더 많은 환각을 보이는지, 전문가 분석
  • AI 환각의 원인과 실제 사례, 그리고 해결책까지 한 번에 정리
  • AI 신뢰성, 비즈니스 활용, 앞으로의 전망까지 궁금증 해소!

AI 환각, 왜 다시 주목받는가?

“AI가 거짓말을 한다?”
인공지능에 관심 있는 분이라면 한 번쯤 들어봤을 ‘AI 환각(hallucination)’ 문제.

환각이란, AI가 실제로는 없는 사실이나 근거 없는 정보를 그럴듯하게 만들어내는 현상을 말합니다.
예를 들어, AI 챗봇에게 “한국 전쟁에 참전한 유명한 미국 장군을 알려줘”라고 물었을 때, 존재하지 않는 장군의 이름을 자신 있게 말하는 식이죠.

이 환각 문제는 AI의 신뢰성, 나아가 비즈니스와 사회 전반의 활용 가능성에 큰 영향을 미칩니다.

그런데 최근, OpenAI가 발표한 최신 추론(reasoning) 모델 o3, o4-mini에서 이 환각 문제가 오히려 더 심해졌다는 소식이 나와 업계가 술렁이고 있습니다.
AI 환각률 변화 그래프
왜 최신 AI일수록 더 똑똑해지는데, 거짓말도 더 많이 하게 된 걸까요?

OpenAI o3, o4-mini: 더 똑똑해졌지만 더 많이 '만든다'?

2025년 4월, OpenAI는 o3와 o4-mini라는 새로운 AI 추론 모델을 공개했습니다.
이 모델들은 기존 GPT-4o, o1, o3-mini 등과 비교해 코딩, 수학, 복잡한 논리 문제에서 탁월한 성능을 보였는데요,

놀랍게도, OpenAI의 자체 테스트 결과 이 모델들이 이전 모델보다 환각률이 2~3배 높게 나타났습니다.

  • o3: PersonQA(사람 관련 지식 정확도) 기준 33% 환각률 (이전 모델 o1: 16%, o3-mini: 14.8%)
  • o4-mini: PersonQA 기준 48% 환각률
“AI가 더 똑똑해질수록, 더 많은 답변을 시도하고, 그만큼 더 많은 거짓 정보도 만들어낸다.”

OpenAI 역시 이 현상의 원인을 명확히 파악하지 못했다고 공식 보고서에서 밝혔습니다.
[공식 기술 리포트 보기]

최신 모델에서 환각이 증가한 3가지 핵심 이유

1) 더 많은 주장(Claim) 생성

o3, o4-mini와 같은 추론(reasoning) 특화 모델은 기존보다 더 적극적으로 추론하고, 더 많은 정보를 생성하려는 경향이 있습니다.
질문 하나에 대해 더 많은 근거, 해설, 예시, 추측까지 덧붙이면서 ‘정확한 주장’과 ‘부정확한(환각) 주장’이 동시에 늘어나는 것이죠.

예를 들어, “이 인물이 어떤 활동을 했나요?”라는 질문에, 이전 모델은 1~2가지 사실만 답하던 반면, o3는 4~5가지 정보를 자신 있게 말합니다.
하지만 그중 일부는 실제와 다른, 만들어낸 정보일 수 있습니다.

2) 강화학습(RL) 방식의 영향

OpenAI의 o시리즈 모델들은 강화학습(RL, Reinforcement Learning)을 적극적으로 도입했습니다.
RL은 모델이 “더 자신 있게, 적극적으로 답변하는” 행동을 강화시킬 수 있는데, 이 과정에서 ‘모르겠다’고 솔직하게 말하는 것보다, 뭔가라도 답하는 쪽이 보상받는 문제가 발생할 수 있습니다.

Transluce 연구소의 Neil Chowdhury 연구원은,

“o시리즈의 RL 방식이 기존 후처리(post-training)에서 억제하던 환각 문제를 오히려 증폭시킬 수 있다”
– Transluce 연구소, TechCrunch 인터뷰 中
라고 지적했습니다.

3) 모델 스케일링(대형화)의 한계

지금까지는 AI 모델이 커질수록 환각이 줄어드는 경향이 있었습니다.
하지만 o3, o4-mini처럼 추론 능력을 극대화한 대형 모델에서는 오히려 ‘자신감 있는 환각’ 문제가 더 두드러진 것으로 보입니다.
즉, 모델이 더 똑똑해지고 복잡해질수록, 틀린 정보도 더 그럴듯하게, 더 많이 말할 수 있다는 딜레마에 직면한 것입니다.

실제 환각 사례로 보는 AI의 한계

① 실제로 실행할 수 없는 행동을 주장
Transluce 연구소의 테스트에서, o3는 “2021년형 맥북프로에서 코드를 실행해 결과를 얻었다”고 답변했습니다.
하지만 o3는 실제로 외부에서 코드를 실행할 수 없습니다. 즉, 실제로 할 수 없는 행동을 거짓으로 주장한 셈이죠.

② 존재하지 않는 웹사이트 링크 생성
Stanford 교수 Kian Katanforoosh 팀의 테스트에서는, o3가 “이 자료는 여기서 볼 수 있습니다”라며 실제로 존재하지 않는 링크를 자신 있게 제시했습니다.
실제 클릭해보면 404 오류가 뜨거나, 아예 없는 페이지인 경우가 많았습니다.

③ 사람 관련 질문에서의 환각
OpenAI의 PersonQA 테스트에서는 “이 인물이 2015년에 어떤 수상 경력이 있나요?”라는 질문에,

  • 실제로 없는 상을 만들어 답변하거나,
  • 존재하지 않는 프로젝트 참여 이력을 덧붙이는
등, 사실과 다른 정보를 적극적으로 생성하는 일이 잦았습니다.

AI가 생성한 잘못된 링크 예시

AI 환각이 비즈니스에 미치는 영향

환각 현상은 단순한 기술적 문제가 아니라, 실제 비즈니스와 사회에 직접적인 영향을 미칩니다.

  • 법률, 의료, 금융정확성이 핵심인 분야에서는, AI가 잘못된 정보를 생성하면 심각한 피해로 이어질 수 있습니다.
  • 실제 미국의 한 로펌은, AI가 생성한 잘못된 판례를 그대로 문서에 인용했다가 법정에서 곤란을 겪은 사례도 있습니다.
  • 기업용 AI 챗봇, 고객 상담, 정보 제공 서비스 등에서 환각률이 높으면 신뢰도 하락, 브랜드 이미지 실추로 이어집니다.
  • AI가 추천한 링크, 자료, 코드 등이 잘못된 경우, 업무 효율성 저하, 추가 리스크 발생도 우려됩니다.
“AI 환각 문제는 단순히 ‘재미있는 오류’가 아니라, 비즈니스 경쟁력과 신뢰성의 핵심입니다.”

환각을 줄이는 3가지 해결책과 미래 전망

1) 웹 검색 등 외부 정보 연계

GPT-4o처럼 웹 검색 기능을 통합하면, 최신 정보와 사실 기반 답변을 제공해 환각률을 크게 낮출 수 있습니다.
실제로 GPT-4o with web search는 SimpleQA 기준 90% 정확도를 달성했습니다.

단, 프라이버시(프롬프트 노출) 이슈검색 속도, 비용 문제도 함께 고려해야 합니다.

향후에는 웹 검색, 신뢰할 수 있는 데이터베이스, 실시간 정보 연계 등 다양한 방법이 복합적으로 활용될 전망입니다.

2) 추론 모델의 학습 및 강화 전략 개선

  • 강화학습(RL) 및 사후처리(post-training) 파이프라인을 재설계해, “모르겠다”, “확실하지 않다”와 같은 정직한 답변을 더 장려해야 합니다.
  • AI가 스스로 자신의 한계를 인지하고, 근거 없는 주장은 보류하는 방향으로 학습 전략을 개선해야 합니다.
  • 코드 실행, 외부 도구 활용 등 AI의 실제 능력 범위를 명확히 인지시키는 추가 연구가 필요합니다.

3) 신뢰성 검증 및 사용자 경고 강화

  • AI가 자신 없는 답변에는 “확신할 수 없음”, “참고용으로만 활용” 등 경고 메시지를 더 명확히 표시하도록 개선해야 합니다.
  • 중요 산업(법률, 의료, 금융 등)에서는 AI 답변을 반드시 검증하는 체계를 구축해야 합니다.
  • 사용자에게 AI 환각의 가능성을 사전에 안내하고, 비판적 사고를 유도하는 것도 중요합니다.

AI 환각 해결책 일러스트

결론: AI 신뢰성, 어디까지 끌어올릴 수 있을까?

OpenAI의 o3, o4-mini처럼 추론 능력이 강화된 최신 AI는, 분명 인간의 업무와 창의성에 큰 도움을 주고 있습니다.
하지만 동시에, 더 많이, 더 적극적으로 답변하려다 보니 ‘환각(거짓 정보)’도 함께 늘어나는 딜레마에 직면했죠.

이 딜레마를 해결하기 위해서는,

  • 외부 정보 연계(웹 검색 등)와
  • AI 학습/강화 전략의 혁신,
  • 사용자 신뢰성 검증 체계
가 반드시 병행되어야 합니다.

AI가 더 똑똑해질수록, “정확성 vs 창의성/환각”의 균형을 어떻게 잡을 것인가?
이 질문이 앞으로 AI 업계 전체의 핵심 과제가 될 것입니다.

💡 AI 환각, 여러분은 어떻게 생각하시나요?

여러분이 겪은 AI의 ‘황당한 환각 경험’이나, 신뢰성 높이는 팁이 있다면 댓글로 공유해 주세요!

728x90