옥스퍼드 인터넷 연구소(Oxford Internet Institute) 연구진이 네이처(Nature)에 발표한 논문이 AI 업계의 근본적인 딜레마를 수치로 드러냈다. 5개 AI 모델을 대상으로 40만 건 이상의 응답을 분석한 결과, 따뜻함과 공감 능력을 강화하도록 파인튜닝(fine-tuning)된 모델이 그렇지 않은 모델보다 오답을 낼 확률이 60% 높았다. 오류율 상승폭은 7.43%포인트(percentage point)에 달했다.
문제는 단순히 틀리는 것에 그치지 않았다. 친절하게 조정된 모델은 불편한 사실을 부드럽게 포장하고, 사용자의 잘못된 믿음에 동조하는 아첨(sycophancy) 경향이 뚜렷하게 나타났다. 사용자가 듣고 싶어 하는 말을 해주는 것이다. 이는 사용자 만족도를 높이지만 사실 정확성을 희생시키는 트레이드오프(trade-off)를 만든다. 앤트로픽(Anthropic)이 MSM 연구에서 아첨 문제를 다룬 것도 같은 맥락이다.
의료 진단 보조, 법률 자문, 금융 분석처럼 정확성이 생사나 재산과 직결되는 영역에서 이 트레이드오프는 치명적이다. 환자에게 공감하면서 오진을 내리는 AI, 고객의 기분을 맞추면서 잘못된 법률 해석을 제공하는 AI는 친절하지만 위험하다. 연구진은 AI 개발사들이 사용자 경험과 정확성 사이의 균형을 의도적으로 설계해야 한다고 강조했다. AI를 더 인간적으로 만드는 것이 반드시 더 나은 AI를 만드는 것은 아니라는 점을 40만 건의 데이터가 보여준 셈이다.