일본산업뉴스요약

[생성 AI 활용 (2)] 할루시네이션 근절은 무리수 -- 파인 튜닝에 대한 과도한 기대도 금물
  • 카테고리AI/ 로봇·드론/ VR
  • 기사일자 2024.3.5
  • 신문사 Nikkei X-TECH
  • 게재면 online
  • 작성자hjtic
  • 날짜2024-03-13 21:48:58
  • 조회수153

Nikkei X-TECH_2024.3.5

생성 AI 활용 (2)
할루시네이션 근절은 무리수
파인 튜닝에 대한 과도한 기대도 금물

생성 AI(인공지능)를 업무에 활용할 때 유저 기업이 어려움에 직면하기 쉬운 포인트를 지적하는 이번 특집의 제2회에서는 ‘할루시네이션(hallucination)을 없애는 것은 어렵다’, ‘생성 AI를 업무 자동화에 활용하는 것은 어렵다’,‘파인 튜닝은 너무 어렵다’ 등, 3가지 포인트를 소개한다.

포인트 4: 할루시네이션을 없애는 것은 어렵다

생성 AI가 안고 있는 과제로 가장 널리 인식되고 있는 것은 할루시네이션(환각)일 것이다. 할루시네이션이란 생성 AI가 그럴듯한 잘못된 정보를 생성하는 문제다. 그러나 할루시네이션을 없애는 것은 어렵다. 이것이 네 번째 포인트다.

우선 '할루시네이션을 근절하지 않는 한 생성 AI는 업무에서 활용할 수 없다'고 생각하는 것 자체가 생성 AI의 업무 활용을 어렵게 한다. “할루시네이션이 완전히 나쁜 것은 아니다. 현재의 생성 AI는 할루시네이션 발생이 전제가 된다. 그러나 유저가 생성 AI의 출력을 충분히 이해하고 이용한다면, 할루시네이션은 큰 문제가 되지 않는다”고 엑사위저즈의 후쿠다(福田) 부장은 지적한다.

예를 들어, 사내 업무 효율화 등에 생성 AI를 활용하는 유스 케이스의 경우, 할루시네이션은 큰 문제가 되지 않는다고 한다. 유저에게 사전에 '생성 AI 출력에는 잘못된 정보가 포함될 수 있다'고 자주 고지하여 생성 AI 출력을 100% 믿지 않도록 유저가 주의하면 큰 트러블을 피할 수 있기 때문이다.

반면, 생성 AI 출력을 그대로 고객 등 사외 유저에게 제공하는 경우에는 할루시네이션이 문제가 되기 쉽다. 예를 들어, 기업이 고객을 위해 마련한 Q&A 사이트나 서비스 데스크에서의 활용이다.

-- LLM의 출력을 LLM이 체크 --
할루시네이션 대책으로 대규모언어모델(LLM)의 출력을 LLM을 이용해 평가하는 ‘LLM-as-a-Judge’라는 방법이 있다. LLM의 출력에 대해 ‘잘못된 정보나 편견은 포함되어 있지 않습니까?”라고 LLM에 질문해 출력 오류를 검출할 수 있다.

어떤 LLM의 출력을 다른 LLM을 통해 평가하는 방법도 있지만, 같은 LLM을 사용해 평가하는 케이스도 있다. 엑사위저즈의 후쿠다 부장은 “프롬프트(지시문)를 잘 고안하면, 같은 모델이라도 체크할 수 있다”고 평가한다. 현재는 미국 오픈AI(OpenAI)의 ‘GPT-4’의 성능이 뛰어나기 때문에, 무리하게 다른 LLM으로 평가할 필요는 없는 것 같다.

하지만 LLM의 출력을 매회 LLM으로 평가하는 것은 비용도 증가하고, 질문으로부터 답변까지의 응답 시간도 늘어난다. LLM의 버전 업 등으로 인해 출력이 악화되지 않았는지 등에 대한 정기적인 평가에 LLM-as-a-Judge를 사용하는 것이 현실적이다. 할루시네이션 근절은 ‘무리수’이기 때문에 할루시네이션과의 공생 방식을 고민할 필요가 있을 것이다.

포인트 5: 생성 AI를 업무 자동화에 활용하는 것은 어렵다

다섯 번째 포인트는 '생성 AI를 업무 자동화에 활용하기 어렵다'이다. 생성 AI의 출력에는 잘못된 정보 외에도 다양한 '변동'이 발생한다. 이 때문에 생성 AI의 출력을 그대로 업무 워크 플로우에 도입해 업무의 자동화를 도모하는 것은 어렵다.

생성 AI를 업무 자동화에 활용하는 시나리오로는 직원이 작성한 영업 일지 등의 정성적(定性的)인 데이터를 생성 AI에게 학습시켜 ‘고객의 관심도’,‘고객의 만족도’ 등 정량적인 데이터를 생성. JSON 포맷으로 정형하여 고객관리 데이터베이스(DB)에 등록하는 것을 생각할 수 있다.

그러나 “프롬프트에서 ‘이러한 포맷으로 출력해 달라’고 지시해도 올바른 포맷으로 출력되지 않는 경우가 있다. 생성 AI의 출력에 문제가 없는지 체크하는 등, 후처리를 실시할 필요가 있다”고 스톡마크의 오미(近江) VP of Research는 지적한다. 표(테이블) 형식의 데이터의 경우, 열(칼럼)이 거꾸로 출력되는 케이스도 있다고 한다.

잘못된 포맷을 그대로 사용하면 후속 업무에서 시스템 오류가 발생할 수 있다. 그러나 “현재, 생성 AI는 확률적으로 출력을 하기 때문에 포맷이 잘못되는 경우 어쩔 수 없다”(오미 VP)라고 한다. 완전히 AI에 맡기기보다는 최종적으로 사람이 확인해 전체적인 생산성을 높이면 된다”(오미 VP)라는 관점에서의 사용법이 요구된다고 한다.

포인트 6: 파인 튜닝은 너무 어렵다

여섯 번째 포인트는 ‘파인 튜닝은 너무 어렵다’이다. 파인튜닝(추가학습)이란 사전 학습을 한 LLM을 특정 데이터셋을 통해 추가학습해 모델의 파라미터를 조정하는 방법이다. ‘비즈니스에 관한 지식이 부족하다’, ‘할루시네이션을 일으킨다’ 등, 생성 AI가 안고 있는 문제를 개선하는 방법으로 유망 시 되고 있다.

그러나 “파인 튜닝에 너무 많은 기대를 해서는 안 된다”. 이렇게 지적하는 것은 노무라종합연구소(NRI) 미래창발센터 생활 DX·데이터연구실의 다무라(田村) 데이터 사이언티스트. “처음에는 우리도 기대했지만 생각보다 잘 안 되었다. 가장 예상 밖이었던 것은 파인 튜닝에 의해 LLM이 퇴화된다는 점이다”(다무라 데이터 사이언티스트). 파라미터가 바뀜에 따라 기존에는 맞았던 답변에 오류가 포함되는 케이스가 생겼다고 한다.

“파인 튜닝을 한 데이터에는 답하지만, 그 외의 질문에는 답하지 않거나, 무관하게 답변하는 사례가 증가했다. 퇴화되지 않도록 파인 튜닝을 하는 것은 매우 번거로운 작업이다”(다무라 데이터 사이언티스트). 방대한 파라미터를 가진 LLM은 정밀한 밸런스 위에 성립되어 있기 때문에, 파라미터의 수정에 의해 예기치 않은 결과가 발생할 수도 있는 것이다.

현재 유저 기업이 파인 튜닝을 할 수 있는 것은 소형 LLM에 한정되어 있다. 클라우드 서비스로 제공되는 대형 LLM은 애초에 파인 튜닝이 안 되거나, 된다고 해도 거액의 비용이 들기 때문이다. 파인 튜닝에 기대 걸고 소형 LLM을 사용하는 것보다 대형 LLM을 그대로 사용하는 것이 보다 성과를 거두기 쉬울 것이다.

-- 파인 튜닝을 위한 학습 데이터에 많은 비용 소요 --
소형 LLM이라 하더라도 파인 튜닝에는 상당한 비용이 든다. 파인 튜닝에는 프롬프트와 답변을 세트로 제공하는 교사 있어 학습이나 지시 학습을 사용하는 것이 일반적이다. 프롬프트와 답변이 쌍으로 이루어진 데이터는 1,000~1만 건 정도 필요하고, 그 데이터 작성에는 수백 만~수천 만 엔의 비용이 발생한다.

또한 “데이터 조정 등을 포함해 파인 튜닝에는 대략 반년 정도 걸린다”라고 rinna의 송(宋) 사업 개발부 매니저는 지적한다. 규모가 큰 프로젝트의 경우, 개발 비용을 포함해 억 엔 단위의 비용이 발생할 가능성이 있다.

물론 파인 튜닝에는 ‘사전 학습에서는 획득할 수 없었던 전문 지식을 제공한다’, ‘챗봇에 캐릭터(성격)를 부여한다’ 등, 다른 방법에는 없는 메리트가 있는 것도 사실이다. “기업 내에서의 데이터 활용은 RAG(Retrieval Augmented Generation, 검색확장생성)가 베스트이다. 업계를 바꾸고 싶다는 거대한 목표가 있는 경우에는 파인 튜닝에 도전해도 좋을 것”이라고 송 매니저는 설명한다. 파인 튜닝은 가치가 있는 기술이지만, 사용 시 충분한 검토가 필요하다.

 -- 끝 --

Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.

목록