지능형 데이터 전문기업 ㈜누리아이디티(대표 배성진)는 9월 4일을 기해 지난 6월 1일 출시한 인공지능 기반의 고문헌 한자 문자인식(OCR) 시스템의 무상 서비스를 대폭 확대한다고 발표했다.
누리IDT가 한문 고문헌 자료의 토털 솔루션으로 개발하고 있는 <고문헌한자시스템>의 대표 서비스로 개발하여 출시한 <고문헌 한자 OCR 서비스>는 우리나라의 고문헌 자료에 특화된 고성능 한자 자동인식 모델이다. 사용법은 화면의 원문 이미지 입력 창에 원문 한 면(JPG, PNG 포맷) 씩을 업로드하면 AI가 이미지 속의 글자를 자동인식하고 곧바로 한자 텍스트로 출력해 준다.

<고문헌 한자 OCR 서비스>의 필사본 의서 <의본(醫本)> 원문 이미지 자동인식과 텍스트 출력
평균 98%의 높은 인식률을 자랑하는 이 고성능 서비스는 누구나 간단한 회원 가입 절차를 거쳐 이용할 수 있는데, 사용자들의 호평과 요청에 부응하여 누리IDT는 9월 4일부로 회원들에 대한 서비스를 대폭 확대, 하루에 원문 이미지 5면을 무상으로 사용할 수 있도록 했다. 1일 5면의 무상 서비스 제공이면 고문헌 활용에 관심 있는 일반인은 물론 관련 분야 연구자들도 전문적인 사용에 큰 불편이 없을 것이란 전망이다.
AI 기반 평균 인식률 98%의 고성능 <고문헌 한자 OCR 서비스>
한편 이 고성능 서비스의 개발 과정을 보면, AI 모델은 형태와 크기가 다양한 고문헌 속 한자를 3,000만 자 이상 학습했다. 그 결과 일반적인 고문헌 형태, 즉 가장 많이 쓰이는 해서체나 행서체 글자에 세로쓰기로 제작된 목판본 자료에 대해서는 95~100%(평균 98%)란 높은 인식률을 구현하고 있다. 또한 손글씨로 작성된 필사본의 경우에도 전문가도 판독하기 어려운 초서 자료가 아니라면 상당한 수준의 인식률을 보이고 있다.
이 서비스는 이러한 한자 자동 텍스트화 기능과 함께 이미지에서 인식하여 텍스트로 출력한 한자 하나하나의 오인식 가능성에 대해 AI가 추천하는 유사 자형을 보여주며, 그 자형에 해당하는 상세한 한자 정보(음/뜻/이체자/유니코드)를 같이 제공한다.
이에 사용자는 한 화면에서 AI가 간혹 잘못 인식한 한자에 대해 AI가 추천한 유사 자형 중 하나를 택해서, 또는 다른 글자를 수정 입력창에 직접 입력해서 수정할 수 있으며, 최종 결과물은 화면상에서 부분을 카피하거나 전체를 텍스트 파일로 다운로드할 수 있다.
예시) 의본(醫本)

고문헌 <의본(醫本)> 원문과 <고문헌 한자 OCR 서비스>의 자동인식 텍스트 출력 및 수정
고문헌 자료는 대부분 한문으로 적혀 있어 일반인은 아예 접근조차 하기 어렵고, 전문가도 고문헌에 담긴 내용의 연구와 활용을 위해서는 원문을 일일이 옮겨 적어야 하는 노력을 기울여야 한다. 그 동안 한문 고문헌 자료의 텍스트화 과정은 낱글자를 일일이 입력하는 수작업으로 이뤄졌다. 즉, 자료 원문의 스캐닝 또는 촬영을 통한 이미지 산출->이미지를 대본으로 한 낱글자 입력->입력된 텍스트 교정의 과정으로 진행됐다.
고문헌 텍스트화에 소요되는 인력, 시간, 비용을 1/10로 절감
이에 반해 누리IDT의 AI 기반 <고문헌 한자 OCR 서비스>를 사용하면 쉽고 신속하게 디지털 텍스트로 자동 변환할 수 있다. 수작업 입력보다 높은 정확도를 유지하면서도 텍스트화 과정에 들어가는 인력과 시간 및 비용을 획기적으로 절감할 수 있다.
특히 한문 고문헌 자료를 다량 보유하고 있는 한국학 연구 기관, 대학과 연구소, 도서관, 문화원 등 각급 기관들의 경우 보유 고문헌의 텍스트화 및 데이터베이스 구축에 투입되는 노력과 비용을 1/10 수준으로 줄일 수 있다.
또한 전문 연구자는 물론이고 일반인들도 개인 자료나 집안 소장 고문헌을 손쉽게 텍스트로 변환하여 읽고 활용할 수 있으며, 대상 자료를 펼쳐 개인 스마트폰으로 사진을 찍고 그 이미지 파일을 OCR 서비스 화면에서 불러오기만 하면 곧바로 텍스트가 출력된다.
누리IDT의 한문 고문헌 토털 솔루션 <고문헌한자시스템>
이 고성능 한자 OCR 서비스를 개발 출시한 ㈜누리IDT는 지능형 데이터 전문기업으로 현재 한국고전번역원이 제공하고 있는 <한문고전 자동번역 서비스>를 2017~2019년 3년간에 걸쳐 개발했으며, 다년간 주요 한국학 연구 기관들의 DB 구축 사업을 수행한 바 있다.
이 같은 업력을 바탕으로 고문헌 토털 솔루션 서비스인 <고문헌한자시스템>을 구축하고 있으며, 이번에 <고문헌 한자 OCR 서비스>와 함께 AI OCR 기술을 응용한 <고문헌 이미지 검색>, <OCR API> 및 <한자 자형 검색> 서비스도 공개했다.

<고문헌한자시스템> 메인 화면 (메인 화면)
<고문헌 이미지 검색>은 고문헌 원문 이미지들에서 찾고자 하는 단어를 검색하는 서비스로 고문헌 원문 이미지에 OCR 기술을 이용하여 텍스트를 추출한 다음 글자 정보 및 위치값을 포함한 DB를 생성하고 그 DB를 검색하여 찾고자 하는 단어가 들어 있는 원문 이미지의 목록과 해당 텍스트를 제공하는 것이다.
고문헌 원문 이미지를 다량 보유하고 있는 기관이라면 적극 활용할 만한 서비스로서 현재 <고문헌한자시스템>에서는 서울대학교 규장각한국학연구원의 과학 문헌을 대상으로 하는 시범 서비스를 제공하고 있다.

OCR 기술을 이용한 고문헌 이미지 검색 서비스: 검색어 ‘北方七宿’(북두칠성)의 검색 결과
<OCR API>는 고문헌 원문 이미지를 서비스하고 있는 기관들의 개별 이미지뷰어에 <고문헌한자시스템>의 OCR API 서비스를 연동하여 원문 이미지에서 OCR로 바로 텍스트를 추출하고 그 이미지와 텍스트를 함께 제공하는 서비스이다.
이 서비스를 통해 사용자는 원문 내용의 정확한 파악과 함께 추출된 텍스트를 복사해 편리하게 활용할 수 있다. 현재 <고문헌한자시스템>에서는 경국대전, 경세유표, 대전회통, 연행록총간증보판, 한국과학기술사자료대계, 향약집성방 등 KRpia의 고문헌 콘텐츠 11종에 대한 OCR API 시범 서비스를 제공하고 있다.
<한자 자형 검색>은 어떤 한자의 음이나 부수, 획수를 알지 못해도 직관적으로 비슷한 모양의 자형을 조합하여 해당 한자의 정보(음/훈/부수/획수/유니코드)를 확인할 수 있는 서비스이다. 누구나 쉽게 몇 번의 자형 클릭만으로 한자를 찾을 수 있다.
한문 고문헌 자료의 OCR -> 자동표점 -> 자동번역 서비스를 목표로
누리IDT의 <고문헌한자시스템>은 고문헌 자료의 글자 인식(OCR)에서 인식된 텍스트의 문장 분절 및 표점, 나아가 한문 텍스트의 한글 번역에 이르는 과정을 AI 기반으로 자동 처리는 한문 고문헌 자료의 토털 솔루션 서비스를 지향하고 있다.
누리IDT의 배성진 대표는 그 첫 단계로 고성능의 <고문헌 한자 OCR 서비스>를 출시하고 사용자 무상 서비스를 확대하며, “최근 ChatGPT 등 초거대 모델 기반의 생성 AI가 각광받고 있지만 정작 콘텐츠의 보고인 고문헌 자료는 여전히 AI 기반의 자동 처리가 미치지 않는 영역으로 남아 있다"고 밝혔다.
배 대표는 또 "300만 점 이상으로 추산되는 국내 고문헌 자료는 약 50% 정도가 디지털 원문 이미지로 구축되어 있을 뿐이고 텍스트 디지털화는 5%를 밑돌고 있는데, <고문헌 한자 OCR 서비스>가 적극 사용되어 원문의 텍스트화가 촉진되기를 바란다"면서 " 당사도 고문헌 처리에 특화된 AI 기반의 한문 자동표점과 자동번역 서비스를 단계적으로 개발해서 <고문헌한자시스템>을 이용해 누구나 쉽게 고문헌 자료를 읽고 데이터와 콘텐츠로서 활용할 수 있도록 하겠다”고 포부를 밝혔다.
<고문헌한자시스템>의 대표 서비스인 <고문헌 한자 OCR 서비스>는 사용자는 간단한 회원 가입 절차를 거쳐 1일 5면의 범위에서 무상으로 사용할 수 있으며, 대량 자료의 텍스트화는 소정의 유료 서비스로 제공된다. <고문헌 한자 OCR 서비스> 외에 <고문헌 이미지 검색>, <OCR API>, <한자 자형 검색> 서비스는 누구나 제한없이 사용할 수 있다.
참고: 누리IDT <고문헌한자시스템> 바로 가기 https://ocr.nuriidt.co.kr/