일본산업뉴스요약

고정밀 텍스트 변환을 통해 재인식하게 된 AI -- 챗GPT 등장 이후 1년 반 경과
  • 카테고리AI/ 로봇·드론/ VR
  • 기사일자 2024.3.26
  • 신문사 Nikkei X-TECH
  • 게재면 online
  • 작성자hjtic
  • 날짜2024-04-02 22:08:31
  • 조회수99

Nikkei X-TECH_2024.3.26

고정밀 텍스트 변환을 통해 재인식하게 된 AI
챗GPT 등장 이후 1년 반 경과, 공존하기 위한 기본 자세

생성 AI(인공지능)라는 단어가 알려지기 시작할 무렵, 필자가 가장 먼저 생각한 것은 ‘생성 AI가 취재 내용의 텍스트 변환과 요약을 자동으로 해주면 얼마나 편할까?’ 라는 것이었다. 2022년 11월에 오픈AI가 ‘챗GPT’를 공개한 지 벌써 1년 반 정도가 지났다. 다양한 생성 AI가 등장한 지금, 텍스트 변환 및 요약의 정밀도가 어느 정도까지 높아졌는지 실제로 시험해 보았다.

필자가 사용해 본 것은 소스넥스트가 제공하는 'AutoMemo'의 스마트폰용 앱이다. 오픈AI의 음성 인식 모델 ‘Whisper’의 오픈소스소프트웨어(OSS) 버전을 포함한 십 수 개의 AI 모델을 조합해 음성 데이터를 텍스트로 변환할 수 있다. 앱에는 녹음 기능도 탑재되어 있다. 예를 들면, 회의 시 음성을 앱으로 녹음해, 그대로 앱 상에서 텍스트로 변환하거나 요약할 수 있다.

3월 19일에는 소스넥스트가 AutoMemo에 오픈AI의 ‘GPT-4’의 요약 기능 베타 버전을 도입해 발매했다. 필자는 직접 참여한 당일 기자발표회에서 무료 체험 티켓을 구할 수 있게 되어 바로 사용해보았다.

-- 기자회견의 Q&A를 텍스트로 변환해보았다 --
AutoMemo를 사용해 텍스트로 변환하는 음성 데이터는 필자가 참여한 소스넥스트의 기자회견에서 녹음한 것으로 했다. 소스넥스트가 베타 버전에 대한 설명을 마친 뒤 기자들의 질문에 답변하는 Q&A 시간의 음성을 녹음했다. 소스넥스트의 허가 얻어 필자와 소스 넥스트 담당자가 나눈 약 4분간의 대화를 텍스트로 변환했다.

하지만 실수로 아이폰의 순정 어플인 음성 메모 앱으로 기자회견의 음성 데이터를 녹음해버려 할 수 없이 음성 메모의 음성을 스피커로 출력하면서 다시 한번 AutoMemo로 녹음했다. 이 때문에 직접 AutoMemo로 녹음하는 경우보다 음질이 나빠지고 말았다.

사실 필자는 이러한 텍스트 변환 툴의 정밀도에 대해 회의적이었다. 물론 어느 정도의 정밀도로 텍스트 변환이 가능한 것은 틀림없지만, 실제 업무에 사용할 수 있는 수준이 되는 것은 조금 더 있어야 한다고 생각하고 있었다. 실제로, 이번 요약 결과에서도 몇가지 동음이의어 등에서 조금 아쉬운 부분이 있었다.

그러나 전체적으로 볼 때 이미 실용 레벨에 도달했다고 통감했다. 그렇게 느낀 이유 중 하나가 말도 안 되는 엉뚱한 문장이 없었다는 점이다. ‘Speech To Text’와 GPT-4 등 일상 대화에서 잘 사용하지 않는 단어들도 문제없이 변환되었다. 결석한 회의나 기자회견을 텍스트 변환해도 이야기의 흐름을 문제없이 이해할 수 있을 것 같다.

또한 눈길을 끄는 것이 요약 기능이다. 말하는 사람 별로 필자의 질문 내용뿐만 아니라 질문에 대한 답변 내용도 요약해주었다.

하지만 이렇게 높은 정밀도를 가진 앱을 사용하면, ‘잘못된 정보를 포함할 가능성이 있다’라는 것을 잊을 수 있을 것 같다. 기계학습을 업무에 이용할 때도 사람이 판단할 여지를 남기는 것이 사람과 AI의 올바른 공존 방법 중 하나일 것이다.

AI의 출력이 정확해질수록 할루시네이션(환각)의 위험이 있다는 것을 명심해야 한다. 또한, 당연한 이야기이지만, 필자는 이번에 AutoMemo에 미공개 정보를 입력하지 않았다. AI 활용이 급속하게 확산되고 있는 지금이야말로, 이러한 기본 자세를 잊지 않도록 해야 할 것이다.

 -- 끝 --

Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.

목록