- AI-OCR로 90년 분 5만 장의 미해독 고문서를 텍스트화 -- 정확도 70%이지만, 양적으로 대단한 결과
-
- 카테고리AI/ 로봇·드론/ VR
- 기사일자 2024.11.5
- 신문사 Nikkei X-TECH
- 게재면 Online
- 작성자hjtic
- 날짜2025-04-11 16:11:53
- 조회수41
AI-OCR로 90년 분 5만 장의 미해독 고문서를 텍스트화
정확도 70%이지만, 양적으로 대단한 결과
지금은 IT계 매체의 기자이지만, 사실 필자는 대학과 대학원에서 일본사를 연구했었다. 교수로부터 고문서 조사 참여를 권유 받아 고문서의 정보를 기록하는 조서 작성과 고문서 촬영 등의 작업을 도운 적도 있다. 흘림체를 활자로 변환하는 ‘번각’ 작업과 사료집 출판 등의 경험을 통해 텍스트 데이터화가 되지 않은 고문서가 아직 많이 남아있다는 것을 잘 알고 있다.
흘림체로 쓰인 고문서를 해독하는 것은 상당히 어렵다. 활자와 함께 흘림체의 예가 실려 있는 흘림체 사전을 활용하여 글자를 살펴보며 읽어 나가는 것이 정석이다. 히라가나의 ‘응(ん)’과 같은 것이 ‘후(候)’이고, 점 같은 것도 ‘후(候)’라는 것을 기억한다. 자주 등장하는 글자는 외우기 쉽지만, 그 이외의 것은 역시 한자의 편방(偏旁), 문맥으로 미루어 짐작하고, 사전을 보고 비교하며 조사해 나가는 것을 반복해야 한다.
-- AI-OCR로 글자를 해독 --
현대에는 읽을 수 있는 사람이 적은 흘림체를 AI-OCR(인공지능을 활용한 광학식 문자 인식)을 활용해 해독하려는 움직임이 나오고 있다. 그 중 한 곳이 돗판인쇄(TOPPAN)이다. 돗판인쇄는 2015년에 국문학연구자료관과 공동 연구를 시작, 이후에도 다양한 연구 기관 등과 함께 흘림체의 AI-OCR 개발 및 실증을 추진해왔다. 2021년에 고문서 해독과 흘림체 자료의 활용 서비스 ‘후미노하(ふみのは)’ 제공을 개시. 2023년에는 스마트폰 앱 ‘고문서 카메라’ 서비스를 개시해 흘림체를 읽고 싶은 일반 이용자로도 저변을 넓히는 등, IT기술을 활용한 흘림체 해독에 주력해온 기업이라고 할 수 있다.
돗판인쇄와 구마모토(熊本)대학은 올 7월, 구마모토대학이 에이세이문고(永青文庫)로부터 기탁 받은 역사 자료 ‘호소카와케문서(細川家文書)’ 중 약 90년 분 약 5만 장의 번정(藩政) 기록인 고문서의 화상 데이터를 AI-OCR를 사용해 해독했다고 발표했다. 약 1개월 만에 해독해 약 950만 문자의 텍스트 데이터를 만들었다. 또한 흘림체 자료를 해독하는 시스템과 연동된 키워드검색시스템을 구축해 즉시 사료에서 기술(記述)을 찾을 수 있도록 했다.
돗판인쇄 IP비즈니스개발본부의 오자와(大澤) 팀장은 “방대해 전문가가 다 읽지 못했던 것을 AI가 대신하는데 성공했다”라고 성과를 말한다.
-- 추가 학습을 통해 정확도는 약 70%로 향상 --
이번에 해독한 고문서는 ‘호소카와케문서’ 중 호소카와케 봉행소(奉行所)의 집무 기록 ‘봉행소 일장’과 번주(藩主, 번을 다스리던 다이묘) 호소카와타다토시(細川忠利)의 구두 명령을 기록한 ‘봉서’, 참근(參勤, 에도에 상경하여 머무르는 것) 중인 호소카와 번주가 고향의 가로(家老, 무가의 가신들 중 최고 지위에 있던 관직)·봉행중(奉行衆)에게 보낸 서장(書狀)의 비망록 ‘어국어서안문(御国御書案文)’, 오구라(小倉)·구마모토의 소봉행중(㹅 奉行衆, 중앙봉행소)으로부터 각 업무를 담당하는 봉행들에게 보낸 지시서 ‘여러분들에게 보내는 서신’ 등이다.
돗판인쇄 IP비즈니스개발본부 제3부 2 T 소속의 후쿠이(福井) 씨는 이번에 해독한 사료의 특징을 “새롭게 고쳐 쓰여지지 않은 것이라는 점. 당시 막부가 권장하고 있던 서체인 ‘어가류(御家流)’가 아니라는 점이다”라고 설명한다. AI가 학습한 문자와 형태가 다르면 정확도가 떨어진다고 한다.
해독의 정확도는 다음과 같은 방법으로 높였다. 구마모토대학의 전문가에게 기존의 흘림체 AI-OCR로 해독한 결과를 확인 받고, 흘림체의 문자 화상과 번각의 ‘정답의 데이터’ 약 7만 문자 분을 작성. 그 결과를 AI에 추가 학습시켰다. “7만 문자의 번각을 확정하는 것은 힘든 작업으로, 1년이 걸렸다”(오자와 팀장). 추가 학습 전 65%였던 정확도는 학습 후 71%로 향상되었다. 이와 같은 사이클을 반복함으로써 “올해 안에 75%에 달할 수 있을 것이다”라고 오자와 팀장은 자신감을 보인다. 목표 정확도는 80%이다.
“문자가 희미한 곳이나, 종이 두루마리의 노드 부분 등은 해독이 어렵다”(후쿠이 씨)라고 한다. 또한 정확도 향상에는 문맥에서의 판단이나 배경 정보 지식 등이 필요하기 때문에 시간이나 코스트의 문제가 발생한다.
정확도가 70%~80% 정도라고 하면, ‘높지 않다’라고 생각하는 사람도 있을 것이다. 하지만, 지금까지 인력 부족으로 인해 읽지 못했던 사료를 신속하게 텍스트 데이터화하고 검색 시스템과 연동시켜 정보를 꺼내 보기 쉽게 한 것은 큰 성과라고 할 수 있다. 역사학 외 다른 분야의 연구자가 자신의 학술 분야 연구에서 고문서를 활용하고 싶을 때에도 도움이 된다.
실제로 이번에 작성한 텍스트 데이터에 대해 지진, 폭우, 홍수, 벌레, 굶주림 등의 재해와 관련된 키워드로 검색·조사를 실시한 결과, 300건 이상의 기술(記述)을 발견했다고 한다. 그 중에는 알려지지 않은 자연 재해나 역병 유행, 기근 등, 역사학·지역 방재 연구에 있어서 중요한 것도 포함되어 있다고 한다.
오자와 팀장은 흘림체 AI-OCR의 다음 과제를 “언어 모델 보정”이라고 말한다. 고문서는 날짜나 발신인의 이름 등을 적는 위치가 대체로 정해져 있다. 사람의 이름이나 직책, 날짜 등이 쓰여 있는 것이 분명한 부분에서 그것에 적합한 문자를 통해 추측할 수 있는 모델로 보정하는 것이다. 빠른 시일 내에 실현하는 것을 목표로 하고 있다고 한다.
향후 목표에 대해 오자와 팀장은 “(보다 더 현대인에게 읽기 어려운 흘림체로 쓰여진) 쇼야(庄屋)에 남아 있는 문서나 양자 간의 편지 등으로 대상 영역을 넓혀 가고 싶다. 시대도 메이지 이후로 확대해 나가고 싶다”라고 말한다. 또한 개발이 추진되면, 벌레에 의한 손상 등으로 일부 읽을 수 없는 부분이 있어도 앞의 문맥 등을 통해 AI가 추측해 해독해줄 가능성도 있을 것이라고 한다.
‘흘림체 AI-OCR에 의한 텍스트 데이터화를 통해 발견했다’ 등으로 쓰여진 논문이 속출하는 날도 그리 멀지 않았다.
-- 끝 --
Copyright © 2024 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.