• 구름많음속초7.0℃
  • 안개1.1℃
  • 흐림철원1.5℃
  • 구름많음동두천3.0℃
  • 구름많음파주2.9℃
  • 흐림대관령0.8℃
  • 구름많음춘천2.0℃
  • 구름많음백령도6.5℃
  • 흐림북강릉5.7℃
  • 구름많음강릉7.0℃
  • 흐림동해7.8℃
  • 구름많음서울5.1℃
  • 안개인천4.5℃
  • 흐림원주3.2℃
  • 흐림울릉도9.7℃
  • 구름많음수원5.0℃
  • 흐림영월2.7℃
  • 흐림충주4.3℃
  • 흐림서산6.2℃
  • 구름많음울진7.1℃
  • 흐림청주7.5℃
  • 구름많음대전6.1℃
  • 흐림추풍령3.5℃
  • 구름많음안동2.5℃
  • 구름많음상주2.4℃
  • 구름많음포항8.1℃
  • 구름많음군산5.6℃
  • 흐림대구5.6℃
  • 비전주7.7℃
  • 흐림울산8.7℃
  • 흐림창원7.5℃
  • 흐림광주7.9℃
  • 흐림부산9.5℃
  • 흐림통영8.4℃
  • 구름많음목포8.6℃
  • 흐림여수8.6℃
  • 구름조금흑산도10.0℃
  • 구름많음완도7.4℃
  • 구름많음고창7.9℃
  • 흐림순천4.9℃
  • 구름많음홍성(예)7.1℃
  • 흐림5.9℃
  • 구름많음제주13.6℃
  • 구름많음고산16.0℃
  • 흐림성산12.6℃
  • 구름많음서귀포13.3℃
  • 구름많음진주5.0℃
  • 구름많음강화3.7℃
  • 구름많음양평3.1℃
  • 흐림이천3.1℃
  • 구름많음인제1.6℃
  • 흐림홍천1.5℃
  • 흐림태백3.5℃
  • 흐림정선군1.2℃
  • 흐림제천2.8℃
  • 흐림보은3.1℃
  • 흐림천안5.4℃
  • 구름많음보령7.5℃
  • 흐림부여4.0℃
  • 흐림금산5.8℃
  • 구름많음6.3℃
  • 구름많음부안7.2℃
  • 구름많음임실6.0℃
  • 구름많음정읍8.3℃
  • 흐림남원6.0℃
  • 흐림장수6.7℃
  • 구름많음고창군8.0℃
  • 구름많음영광군8.0℃
  • 구름많음김해시7.1℃
  • 흐림순창군5.7℃
  • 흐림북창원7.2℃
  • 흐림양산시7.6℃
  • 구름많음보성군6.0℃
  • 흐림강진군6.7℃
  • 흐림장흥6.2℃
  • 구름많음해남7.7℃
  • 구름많음고흥5.9℃
  • 구름많음의령군3.4℃
  • 흐림함양군4.8℃
  • 구름많음광양시8.0℃
  • 구름많음진도군7.0℃
  • 흐림봉화1.4℃
  • 흐림영주2.3℃
  • 구름많음문경2.1℃
  • 흐림청송군1.7℃
  • 구름많음영덕5.5℃
  • 구름많음의성3.2℃
  • 구름많음구미4.0℃
  • 구름많음영천4.0℃
  • 흐림경주시5.0℃
  • 흐림거창3.0℃
  • 흐림합천5.2℃
  • 흐림밀양5.0℃
  • 흐림산청4.4℃
  • 흐림거제7.8℃
  • 구름많음남해7.3℃
  • 구름많음6.9℃
기상청 제공

2025년 12월 17일 (수)

“고문헌 한자를 AI가 읽어준다!”

“고문헌 한자를 AI가 읽어준다!”

누리IDT 인공지능 고문헌 문자인식 무상 서비스 대폭 확대
AI가 이미지 속의 글자를 자동인식해 곧바로 한자 텍스트로 출력

지능형 데이터 전문기업 ㈜누리아이디티(대표 배성진)는 9월 4일을 기해 지난 6월 1일 출시한 인공지능 기반의 고문헌 한자 문자인식(OCR) 시스템의 무상 서비스를 대폭 확대한다고 발표했다. 


누리IDT가 한문 고문헌 자료의 토털 솔루션으로 개발하고 있는 <고문헌한자시스템>의 대표 서비스로 개발하여 출시한 <고문헌 한자 OCR 서비스>는 우리나라의 고문헌 자료에 특화된 고성능 한자 자동인식 모델이다. 사용법은 화면의 원문 이미지 입력 창에 원문 한 면(JPG, PNG 포맷) 씩을 업로드하면 AI가 이미지 속의 글자를 자동인식하고 곧바로 한자 텍스트로 출력해 준다.

고문헌1.png

 

<고문헌 한자 OCR 서비스>의 필사본 의서 <의본(醫本)> 원문 이미지 자동인식과 텍스트 출력

 

평균 98%의 높은 인식률을 자랑하는 이 고성능 서비스는 누구나 간단한 회원 가입 절차를 거쳐 이용할 수 있는데, 사용자들의 호평과 요청에 부응하여 누리IDT는 9월 4일부로 회원들에 대한 서비스를 대폭 확대, 하루에 원문 이미지 5면을 무상으로 사용할 수 있도록 했다. 1일 5면의 무상 서비스 제공이면 고문헌 활용에 관심 있는 일반인은 물론 관련 분야 연구자들도 전문적인 사용에 큰 불편이 없을 것이란 전망이다. 

 

AI 기반 평균 인식률 98%의 고성능 <고문헌 한자 OCR 서비스>

 

한편 이 고성능 서비스의 개발 과정을 보면, AI 모델은 형태와 크기가 다양한 고문헌 속 한자를 3,000만 자 이상 학습했다. 그 결과 일반적인 고문헌 형태, 즉 가장 많이 쓰이는 해서체나 행서체 글자에 세로쓰기로 제작된 목판본 자료에 대해서는 95~100%(평균 98%)란 높은 인식률을 구현하고 있다. 또한 손글씨로 작성된 필사본의 경우에도 전문가도 판독하기 어려운 초서 자료가 아니라면 상당한 수준의 인식률을 보이고 있다.


이 서비스는 이러한 한자 자동 텍스트화 기능과 함께 이미지에서 인식하여 텍스트로 출력한 한자 하나하나의 오인식 가능성에 대해 AI가 추천하는 유사 자형을 보여주며, 그 자형에 해당하는 상세한 한자 정보(음/뜻/이체자/유니코드)를 같이 제공한다.


이에 사용자는 한 화면에서 AI가 간혹 잘못 인식한 한자에 대해 AI가 추천한 유사 자형 중 하나를 택해서, 또는 다른 글자를 수정 입력창에 직접 입력해서 수정할 수 있으며, 최종 결과물은 화면상에서 부분을 카피하거나 전체를 텍스트 파일로 다운로드할 수 있다. 

 

예시) 의본(醫本)

고문헌2.png


 

고문헌 <의본(醫本)> 원문과 <고문헌 한자 OCR 서비스>의 자동인식 텍스트 출력 및 수정

 

고문헌 자료는 대부분 한문으로 적혀 있어 일반인은 아예 접근조차 하기 어렵고, 전문가도 고문헌에 담긴 내용의 연구와 활용을 위해서는 원문을 일일이 옮겨 적어야 하는 노력을 기울여야 한다. 그 동안 한문 고문헌 자료의 텍스트화 과정은 낱글자를 일일이 입력하는 수작업으로 이뤄졌다. 즉, 자료 원문의 스캐닝 또는 촬영을 통한 이미지 산출->이미지를 대본으로 한 낱글자 입력->입력된 텍스트 교정의 과정으로 진행됐다.

 

고문헌 텍스트화에 소요되는 인력, 시간, 비용을 1/10로 절감

 

이에 반해 누리IDT의 AI 기반 <고문헌 한자 OCR 서비스>를 사용하면 쉽고 신속하게 디지털 텍스트로 자동 변환할 수 있다. 수작업 입력보다 높은 정확도를 유지하면서도 텍스트화 과정에 들어가는 인력과 시간 및 비용을 획기적으로 절감할 수 있다.


특히 한문 고문헌 자료를 다량 보유하고 있는 한국학 연구 기관, 대학과 연구소, 도서관, 문화원 등 각급 기관들의 경우 보유 고문헌의 텍스트화 및 데이터베이스 구축에 투입되는 노력과 비용을 1/10 수준으로 줄일 수 있다.


또한 전문 연구자는 물론이고 일반인들도 개인 자료나 집안 소장 고문헌을 손쉽게 텍스트로 변환하여 읽고 활용할 수 있으며, 대상 자료를 펼쳐 개인 스마트폰으로 사진을 찍고 그 이미지 파일을 OCR 서비스 화면에서 불러오기만 하면 곧바로 텍스트가 출력된다.

 

누리IDT의 한문 고문헌 토털 솔루션 <고문헌한자시스템>

 

이 고성능 한자 OCR 서비스를 개발 출시한 ㈜누리IDT는 지능형 데이터 전문기업으로 현재 한국고전번역원이 제공하고 있는 <한문고전 자동번역 서비스>를 2017~2019년 3년간에 걸쳐 개발했으며, 다년간 주요 한국학 연구 기관들의 DB 구축 사업을 수행한 바 있다. 

 

이 같은 업력을 바탕으로 고문헌 토털 솔루션 서비스인 <고문헌한자시스템>을 구축하고 있으며, 이번에 <고문헌 한자 OCR 서비스>와 함께 AI OCR 기술을 응용한 <고문헌 이미지 검색>, <OCR API> 및 <한자 자형 검색> 서비스도 공개했다.


고문헌3.png

<고문헌한자시스템> 메인 화면 (메인 화면)

 

<고문헌 이미지 검색>은 고문헌 원문 이미지들에서 찾고자 하는 단어를 검색하는 서비스로 고문헌 원문 이미지에 OCR 기술을 이용하여 텍스트를 추출한 다음 글자 정보 및 위치값을 포함한 DB를 생성하고 그 DB를 검색하여 찾고자 하는 단어가 들어 있는 원문 이미지의 목록과 해당 텍스트를 제공하는 것이다. 

 

고문헌 원문 이미지를 다량 보유하고 있는 기관이라면 적극 활용할 만한 서비스로서 현재 <고문헌한자시스템>에서는 서울대학교 규장각한국학연구원의 과학 문헌을 대상으로 하는 시범 서비스를 제공하고 있다.


고문헌4.png

OCR 기술을 이용한 고문헌 이미지 검색 서비스: 검색어 ‘北方七宿’(북두칠성)의 검색 결과

 

 

<OCR API>는 고문헌 원문 이미지를 서비스하고 있는 기관들의 개별 이미지뷰어에 <고문헌한자시스템>의 OCR API 서비스를 연동하여 원문 이미지에서 OCR로 바로 텍스트를 추출하고 그 이미지와 텍스트를 함께 제공하는 서비스이다. 


이 서비스를 통해 사용자는 원문 내용의 정확한 파악과 함께 추출된 텍스트를 복사해 편리하게 활용할 수 있다. 현재 <고문헌한자시스템>에서는 경국대전, 경세유표, 대전회통, 연행록총간증보판, 한국과학기술사자료대계, 향약집성방 등 KRpia의 고문헌 콘텐츠 11종에 대한 OCR API 시범 서비스를 제공하고 있다.


<한자 자형 검색>은 어떤 한자의 음이나 부수, 획수를 알지 못해도 직관적으로 비슷한 모양의 자형을 조합하여 해당 한자의 정보(음/훈/부수/획수/유니코드)를 확인할 수 있는 서비스이다. 누구나 쉽게 몇 번의 자형 클릭만으로 한자를 찾을 수 있다.  

 

한문 고문헌 자료의 OCR -> 자동표점 -> 자동번역 서비스를 목표로 

 

누리IDT의 <고문헌한자시스템>은 고문헌 자료의 글자 인식(OCR)에서 인식된 텍스트의 문장 분절 및 표점, 나아가 한문 텍스트의 한글 번역에 이르는 과정을 AI 기반으로 자동 처리는 한문 고문헌 자료의 토털 솔루션 서비스를 지향하고 있다.


누리IDT의 배성진 대표는 그 첫 단계로 고성능의 <고문헌 한자 OCR 서비스>를 출시하고 사용자 무상 서비스를 확대하며, “최근 ChatGPT 등 초거대 모델 기반의 생성 AI가 각광받고 있지만 정작 콘텐츠의 보고인 고문헌 자료는 여전히 AI 기반의 자동 처리가 미치지 않는 영역으로 남아 있다"고 밝혔다. 


배 대표는 또 "300만 점 이상으로 추산되는 국내 고문헌 자료는 약 50% 정도가 디지털 원문 이미지로 구축되어 있을 뿐이고 텍스트 디지털화는 5%를 밑돌고 있는데, <고문헌 한자 OCR 서비스>가 적극 사용되어 원문의 텍스트화가 촉진되기를 바란다"면서 " 당사도 고문헌 처리에 특화된 AI 기반의 한문 자동표점과 자동번역 서비스를 단계적으로 개발해서 <고문헌한자시스템>을 이용해 누구나 쉽게 고문헌 자료를 읽고 데이터와 콘텐츠로서 활용할 수 있도록 하겠다”고 포부를 밝혔다.


<고문헌한자시스템>의 대표 서비스인 <고문헌 한자 OCR 서비스>는 사용자는 간단한 회원 가입 절차를 거쳐 1일 5면의 범위에서 무상으로 사용할 수 있으며, 대량 자료의 텍스트화는 소정의 유료 서비스로 제공된다. <고문헌 한자 OCR 서비스> 외에 <고문헌 이미지 검색>, <OCR API>, <한자 자형 검색> 서비스는 누구나 제한없이 사용할 수 있다. 

참고: 누리IDT <고문헌한자시스템> 바로 가기 https://ocr.nuriidt.co.kr/



 

관련기사

가장 많이 본 뉴스

더보기
  • 오늘 인기기사
  • 주간 인기기사

최신뉴스

더보기

뉴스

더보기