
영어 사전에서 ‘환각·망상·환상’이라는 뜻을 담은 ‘할루시네이션hallucination’이라는 말이 있다. 그런데 이 말은 오늘날 ‘AI의 그럴듯하면서도 황당한 거짓말’을 지칭하는 개념으로 쓰이기도 한다. ‘할루시네이션’이라는 말은 ‘잘못 생각하다, 뭔가 이상하고 꺼림칙하거나 헷갈린 상태’라는 뜻인 라틴어 alucinatus(hallucinatus)에서 유래하면서 ‘속이다, 거짓말하다’라는 뜻으로까지 나아간다. AI가 만능인 듯한 시대를 살지만, 기계는 기계일 뿐이다. AI가 여러 생각이나 사고의 조합을 그럴듯하게, 그것도 순식간에 만들어낼 수는 있지만 스스로 ‘성찰省察’할 수 없음을 명심해야 하고, AI가 내놓는 답 앞에서는 반드시 여러 번 검증해야만 한다. 다음은 이와 관련하여 2025년 2월 11일자 「AhnLab」 온라인 소식지의 스크랩이다.
***
AI도 거짓말을 한다? 할루시네이션 문제와 해결법
새해 벽두부터 인공지능(AI)이 뜨거운 관심을 받고 있다. 현재 다양한 AI 기술이 쏟아져 나오고 있지만, AI를 맹신하는 것은 위험할 수 있다. AI도 실수를 범할 수 있기 때문이다. 가끔 AI는 뻔뻔하게 엉뚱한 답변을 내놓는데, 이를 ‘할루시네이션(Hallucination)’이라고 한다. 이는 AI 모델, 특히 딥러닝(DL) 기반 모델이 현실에 기반하지 않은 정보나 데이터를 생성해 허구적이고 비논리적인 결과를 도출하는 현상을 의미한다. 완벽해 보이는 AI가 왜 오류를 일으키는지, 그리고 그로 인한 위험은 무엇이며, 어떻게 해결할 수 있는지 자세히 살펴보자.
챗GPT가 국내에 소개된 지 얼마 되지 않았을 때, 화제가 된 사건이 있었다. 한 사용자가 “조선왕조실록에 기록된 세종대왕의 맥북프로 던짐 사건에 대해 알려달라”는 다소 황당한 질문을 던지자, 챗GPT는 “세종대왕이 훈민정음의 초고를 작성하던 중 어떤 일로 문서 작성이 중단되었고, 이에 세종대왕이 담당자에게 분노해 맥북 프로와 함께 그를 방으로 던졌다”라는 답변을 내놓았다.
세종대왕이 맥북을, 그것도 에어가 아닌 프로를 최환이라는 관료에게 던졌다는 챗GPT의 답변은 정말 어이 상실이다. 어디서 이런 데이터를 가져와 조합했는지 모르겠지만 정말 그럴듯한 거짓 역사 소설을 만들어낸 것이다.
챗GPT 초창기 버전인 3.5버전에서는 이와 같은 할루시네이션이 자주 발생했지만, 최신 버전에서는 이러한 문제를 상당 부분 극복했다. 세종대왕이 맥북 프로를 던졌다고 물어봐도, 시대적 배경이 맞지 않는다며 정상적인 답변을 한다. 이처럼 최신 챗GPT는 오류가 완전히 사라진 것은 아니지만, 이전처럼 터무니없는 ‘큰 실수’는 거의 하지 않는다.

하지만 다양한 AI 응용 분야에서 할루시네이션은 여전히 존재한다. 최근 공개된 오픈AI의 텍스트-비디오 생성형 AI ‘소라(Sora)’에서도 이런 현상이 관측됐다. 오픈AI가 공개한 영상인데 초반에 원근법으로 층 수를 나눠놨지만, 물리적으로 구분되지 않아 주요 인물들이 시장 상인들보다 몇 배나 큰 거인이어야 가능한 영상이 만들어졌다. 동영상 생성형 AI로 학습 데이터를 만들어 비전 인식 AI를 고도화하려는 시도가 오류 데이터로 학습되어 예측할 수 없는 결과를 낳은 것이다.
AI 할루시네이션은 단순한 기술적 오류를 넘어 사회적, 윤리적 문제로 확대될 수 있는 중요한 문제이다. 특히 의료, 법률, 금융 등 중요한 의사결정이 필요한 분야에 AI가 활용될 때, AI 할루시네이션은 치명적인 결과를 낳을 수 있다. 의료 AI가 잘못된 진단을 내리거나, 법률 자문 AI가 부정확한 법적 조언을 제공해 돌이킬 수 없는 피해로 이어질 수도 있다.
AI 할루시네이션은 대체 왜 일어날까? 그 원인은 크게 3가지로 정리할 수 있다.
첫째, AI 모델이 학습하는 데이터에 내제된 편향, 즉 데이터 편향이 대표적인 원인이다. 학습 데이터가 부정확하거나 편향된 정보를 포함할 경우, 모델은 이를 기반으로 잘못된 예측을 하거나 비현실적인 결과를 생성할 수 있다. 최근 출시된 딥시크(DeepSeek)도 이러한 데이터 편향 문제를 안고 있다. 예를 들어, 딥시크에 ‘톈안먼(천안문) 사건’, ‘신장위구르 문제’, ‘홍콩 민주화 운동’ 등 특정 주제에 관해 물으면 답변을 회피하거나 중국 정부의 공식 입장을 따르는 식으로 대응한다. 이와 관련해, 딥시크는 서구 AI 모델보다 훨씬 강한 자체 검열 기능을 적용하고 있어, 이 같은 데이터 편향이 발생하는 것으로 알려졌다.
둘째, 알고리즘 설계 문제이다. 딥러닝 모델은 입력 데이터의 패턴을 일반화하려는 경향이 있지만, 때로는 이 과정에서 과도한 일반화가 발생해 잘못된 결론에 도달할 수 있다. 예를 들어, 언어 모델은 문맥상 적절하지만 사실과 일치하지 않는 문장을 생성할 가능성이 있다.
셋째, 모델의 과적합이다. AI 모델이 학습 데이터에 과도하게 적응했을 때 발생하는 문제이다. 과적합된 모델은 새로운 데이터에 대한 일반화 능력이 떨어지며, 이로 인해 허구적인 결과가 나타날 수 있다.
그렇다면 AI 할루시네이션 현상을 줄이고, 보다 더 강력한 AI 모델을 만들기 위해서는 어떻게 해야 할까?
첫째, 높은 품질의 학습 데이터를 활용하면 된다. AI 모델이 더 정확하고 신뢰할 수 있는 답변을 생성할 수 있도록 믿을 수 있는 다양한 출처의 데이터를 기반으로 학습시키는 것이 중요하다. 또한, 데이터 전처리 및 라벨링 과정에 대한 철저한 관리도 빼놓을 수 없는 요소이다.
둘째, 지속적이고 체계적인 검증이 필요하다. 품질이 좋은 데이터를 활용해 학습시키는 것과 더불어, AI 모델의 답변을 지속적으로 검증하고 개선하는 것도 중요하다. 이를 위해 모델의 성능을 지속적으로 평가하고, 새로운 데이터를 학습시켜 모델이 최신 상태와 정확성을 유지하도록 지속적으로 모델을 개선하는 절차를 도입해야 한다.
셋째, 다양한 기술을 활용하는 것도 방법이다. 학습 데이터의 품질을 높이고 동적 검증도 가능한 RAG(Retrieval-Augmented Generation, 검색 증강 생성), 언어의 맥락, 의미, 뉘앙스 등 문맥 이해를 개선시킬 수 있는 자연어 처리(NLP), 데이터의 양과 다양성을 늘리는 데이터 증강(Data Augmentation) 기술 등을 이용하는 것도 중요하다. 활용하는 것도 중요하다.
AhnLab
콘텐츠마케팅팀
*이미지와 내용 출처-https://www.ahnlab.com/ko/contents/content-center/35771
할루시네이션.
할루시네이션.
지금 교육 현장에서도
ai 교과서가 나온다고 하는 과도기네요.
또 한 번의 문화혁명 시대인 듯 합니다.
전 두렵습니다.
지금 나의 이름을 살레시오 수녀라는 글과 함께 챗 지피티에 치면 할루시네이션을 바로 볼 수 있습니다. “아는 척” 하는 인공지능을 보면서 진짜 사람과 닮았다는 자괴감 섞인 감탄을 하였습니다. 좀 더 진실된 지적 훈련에 대해 생각합니다.