일경비즈니스_2019/03/11(2)_AI-OCR

책 커버 표지
목차

요약

Nikkei Business_2019.3.11 테크노 트렌드 (p88-90)

AI-OCR의 진화
수기 문자도 순식간에 데이터화

종이에 적힌 정보를 데이터화하는 OCR(광학 문자 판독) 기술이 AI로 인해 진화하고 있다. 범위를 미리 지정하지 않아도 필요 항목을 판독할 수 있고 수기 문자에도 대응한다. 높은 기술을 보유한 스타트업 기업이 속속 참여하며 편리성과 인식 정밀도를 경쟁하고 있다.

매주 거래처에서 수백 장의 종이 청구서가 도착한다. 사명이나 금액, 명세 등 내용에 큰 차이는 없지만 문서 형식은 다양하다. 사원이 한 장씩 확인하며 컴퓨터에 손으로 입력해야 한다.

IT 활용이 활발해지고 전자메일이 보급된 지금도 많은 일본 기업은 종이 문서와의 격투를 벌이고 있다. RPA(Robotic Process Automation)를 도입하여 정형 업무를 자동화하려 해도 입력하고 싶은 정보가 디지털화되어 있지 않으면 그 전 단계에서 멈춰버리게 된다. 손으로 쓴 사인이나 날인은 정보시스템에게 큰 적이다.

이러한 상황에서 주목을 받고 있는 것이 ‘AI-OCR’이다. 종이에 적힌 정보를 자동으로 전자화할 수 있는 OCR과 AI(인공지능)를 조합한 기술로, 신흥 기업이 잇달아 참여하며 개발 경쟁이 과열되고 있다.

OCR 기술의 역사는 길다. 지금까지는 취급할 수 있는 문서가 한정적이어서 실제 업무에서는 사용할 수 없는 경우가 많았다. 과제는 크게 3개다.

첫 번째는 ‘판독 위치’의 지정이다. 청구서에 따라 사명이나 금액이 적혀 있는 위치는 천차만별이다. 형식이 다른 문서를 데이터화하기 위해서는 일일이 설정을 다시 할 필요가 있었다. 두 번째는 ‘문자인식정밀도’가 낮다는 것이다. 세 번째는 ‘수기 문자’에 대한 대응이다.

AI에서 사용되는 이미지해석이나 자연언어처리와 같은 기술이 이들 과제를 어떻게 해결할 수 있는지 순서대로 살펴보자.

인재파견 기업인 PERSOL Holdings 산하의 Persol Process & Technology(도쿄)는 2018년 8월에 판독 위치를 AI가 자동 인식하는 OCR 기술을 발표하였다. 데이터화하고 싶은 서류가 ‘청구서’인지, ‘납품서’인가를 판별, 어디에 ‘합계 금액’이나 ‘입금 계좌’가 적혀 있는가를 A가 자동적으로 판별하는 것이 특징이다.

문서를 스캔하면 AI가 자동으로 판독 위치를 결정, 적힌 문자열을 데이터화하여 엑셀 등의 소프트로 읽을 수 있는 형식으로 정리한다. 형식이 다른 다양한 종이 문서를 판독할 경우, 기존의 OCR은 사람이 자세하게 설정할 필요가 있었지만 Persol의 AI-OCR은 그 수고를 생략할 수 있다.

-- ‘판독 위치’를 자동 학습 --
핵심인 AI 기술을 개발한 것은 2014년 설립된 Sigfoss(도쿄)다. Sigfoss는 사진에 찍힌 물체를 ‘사람’ ‘개’ ‘자전거’ 등으로 판정하는 ‘물체 감지 기술’을 전문으로 한다. 자율주행 분야 등에서의 활용을 목표하고 있다. 이미지를 해석하여 그에 포함된 부분을 자동적으로 인식하는 노하우는 문서의 판독과 공통된다.

Sigfoss가 활용한 것은 심층학습 방법이다. 우선은 대량의 청구서 이미지를 준비한다. 이미지의 어디에 주소나 합계 금액이 있는지 한 장씩 사람의 손으로 ‘대답’을 제시해 둔다. 이러한 데이터를 반복하여 학습해 나가는 동안에 AI는 청구서 속에서 합계 금액이 적힌 위치를 추정하는 일종의 법칙을 스스로 도출할 수 있다. 그렇게 함으로써 처음 판독하는 서류라도 정확하게 문자열을 인식할 수 있게 된다고 한다. AI는 종이 문서를 판독하면 판독할수록 똑똑해진다. Sigfoss에 따르면 청구서에 인쇄된 금액이나 회사명, 날짜를 판독할 경우, 인식 정밀도는 99%까지 높아졌다.

Persol Group이 AI-OCR에 주력하는 이유는 노동력 부족을 배경으로 RPA를 도입하는 기업이 급증할 것으로 보이기 때문이다. 그를 위해서는 종이 문서의 디지털화가 필수다. RPA나 AI-OCR에 정통한 전문 인재를 파견하는 사업 등을 앞으로 크게 확대할 계획이다.

기존의 OCR이 안고 있던 두 번째 과제는 낮은 문자인식 정밀도다. 일반적으로는 80% 정도의 정밀도로 인식 결과를 사람이 확인하여 수정할 필요가 있었다.

명함 관리 소프트를 전개하는 Sansan(도쿄)은 이 과제를 해결하기 위해 이미지 해석뿐 아니라 문자나 단어 사이의 관계를 분석하는 ‘자연언어처리’도 활용하여 인식 정밀도를 최대한 100%에 근접시키는 것을 목표하고 있다. 스마트폰으로 촬영한 명함을 데이터화할 때 회사명이나 메일주소가 한자라도 틀리면 유저의 불이익으로 직결되기 때문이다.

예를 들면 회사명의 판독 결과가 ‘주식회사 닛케이(日徑)BP’라고 나오더라도, 미리 준비한 다수의 후보 속에서 가장 비슷한 것을 자동으로 판단하여 ‘주식회사 닛케이(日經)BP’라고 수정할 수 있다.

또한 ‘영업부장’이라는 문자를 판독했을 때 부서명은 ‘영업부’, 직함은 ‘부장’이라고 인식하거나 사람의 성과 이름을 정확하게 구분하는 시스템도 개발한다. 문자열을 판독하는 것에 그치는 것이 아니라 그것이 제대로 의미를 갖도록 하는 것이 자연언어처리의 역할이다.

Sansan에서는 07년 창업 당시에는 사람이 명함 사진을 보고 한 장씩 손으로 입력했지만 취급하는 명함 수가 증가하면서 자동화를 추진. 현재는 국내외 4종류의 OCR 소프트를 조합하여 데이터화하고 있다. 최근에는 자연언어처리기술도 활용한 독자적인 AI-OCR 시스템 개발에 착수, 가일층의 정밀도 향상을 목표하고 있다.

세 번째 과제는 수기 문자에 대한 대응이다. 활자와 달리 수기 문자는 글자와 글자의 구분이 명확하지 않다는 문제가 있다. 은행의 송금 용지 등에서 칸을 나눠서 한 글자씩 기입하도록 하는 것은 글자간 구분을 확실히 하기 위해서다.

-- ‘정정 표시’도 정확하게 인식 --
AI inside(도쿄)가 개발하는 ‘DX Suite’는 칸이 없는 서류라도 수기 문자를 99% 이상의 정밀도로 인식할 수 있는 것이 특징이다. 정자가 아닌 흘려 쓴 문자나 가타카나로만 구성된 문자라도 문제 없다. 정정 도장이 찍혀 있거나 검게 칠한 부분은 판독하지 않는다. 또한 체크 박스에 표시를 했는지 여부도 식별할 수 있다. 히라가나, 가타카나, 한자, 영문자 등의 문자 종류를 사전에 지정할 필요도 없다.

DX Suite는 수기 납품서 등이 많은 은행이나 보험회사, 또는 그러한 업계에서 사무 작업을 수탁하는 기업을 상대로 점유율을 늘려나가고 있다. 고객 기업이 제공한 문서를 사용해 AI 학습을 더욱 발전시키기 때문에 고객이 증가할수록 인식 정밀도는 높아진다. AI inside는 수기 문자의 미묘한 차이를 분별하는 기술을 응용하여 쓰레기 분기 수거를 위한 물체 감지 시스템 등도 전개한다.

AI-OCR은 앞으로 종이 문서를 비롯해 전세계에 있는 다양한 문자를 데이터화할 수 있을 것이다. 그런 미래를 가능하게 하는 것이 구글이 개발하는 ‘실시간 번역’ 기능이다.

레스토랑의 메뉴나 교통 표식 등에 스마트폰 카메라를 갖다 대면 적혀 있는 문자를 자동으로 인식하여 지정한 언어로 순식간에 번역한다. 뿐만 아니라 마치 피사체에 원래 적혀 있는 것처럼 화면 상에 표시한다. 아날로그 정보를 실시간으로 디지털 정보로 변환할 수 있는 것이다. 현 시점에서는 인식 정밀도 등에 다소 어려움이 있지만 앞으로 더욱 크게 진화할 것이다.

일본제지연합회에 따르면 17년까지의 4년간 인쇄∙정보용지의 수요량은 매년 약 3%의 속도로 감소하였다. 확실하게 감소하고 있기는 하지만 아직 오피스나 일상 생활에서 종이는 없어지지 않는다. AI-OCR은 일본 기업의 생산성 향상을 지원하며 새로운 시대의 서비스도 창출하는 기술이 될 것이다.

 -- 끝 --

 

TOP

목차

TOP