Acrobat에서 한글 OCR 인식이 안될 때 해결 방법 – This page contains renderable text 증상

DEVONthink , Adobe Acrobat, Evernote OCR 성능 비교 의 글 이후 한 회원 분이 다음과 같은 문제를 문의 주셨습니다. 

 

이주상 선생님 – pdf파일임에도 OCR 기능이 안 먹힙니다. 무슨 이유 일까요? 메시지는 다음과 같이 뜹니다. ‘This page contains renderable text’

원본PDF : 2013년 지역아동센터 운영매뉴얼  (511page, 14M)

renderable text가 뭔지를 찾아보니 글자가 모두 캐릭터 속성이 없는 vector 형태로 저장되는 것이었습니다. 결국 이미지가 아닌 형태로 지정되기 때문에 OCR인식을 할 수 없다는 거죠. 

 

이주상 선생님으로부터 OCR인식이 안되는 원본 PDF를 받아서 몇가지 시행착오 끝에 다음과 같이 한글 OCR 문제를 해결하였습니다. 큰 흐름은 “PDF를 이미지 포맷으로 변환(XPS)한 후 이를 다시 PDF로 변환 후 OCR 인식을 하게끔 한다.” 입니다. 

 

  1. PDF를 XPS 포맷으로 변환 
  2. XPS를 PDF로 재변환 
  3. PDF를 OCR 인식 
  4. 결론

 

 

1. PDF를 XPS 포맷으로 변환 

VM/Windows 상에서 renderable text PDF를 XPS 포맷으로 변환합니다.  “Microsoft XPS Document Writer”는 Office 2007 이상 설치하면 자동으로 설치되는 프린터 드라이버입니다. 

  • 결과다운로드 : [1st]2013_manual.pdf  (90M)
  • 변환시간 : 7분 (511page) 
  • 특이사항 :  Mac에서 직접 해보려고 다음과 같은 3가지 방법으로 해보았으나 모두 실패했습니다. 
  1. Acrobat Pro의 PNG export > 단일 PDF 합침 후 PDF OCR 인식이 무슨 이유에서인지 계속 실패했습니다. 
  2. GraphicConverter로 PDF 의 각 페이지를 배치로 PNG로 배치 변환하여 이를 다시 PDF로  합친 후 OCR 인식 하려했으나 GraphicConverter가 에러/강제종료되었습니다.
  3. 대안으로 PDFToolKit+로 마찬가지로 PDF > PNG 변환 후 이를 배치로 다시 PDF로 만들었는데 PNG export 품질이 좋지 않아 선정하지 않았습니다. 
 

Microsoft XPS document writer

 

 

2. XPS를 PDF로 재변환 

ezPDF WorkBoard 2 for Windows 32Bit, 64Bit 통합 설치 를 설치한 후 XPS 를 다시 PDF로 변환 

  • 결과다운로드 : [2nd]2013_manual-via-ezPDFBuilder 2006 (120M)
  • 변환시간 : 10분 (511page) 
  • 특이사항 : 처음에 ezPDF가 아닌 한컴PDF를 통해 XPS>PDF로 변환 후 Acrobat에서 OCR 인식하려하니 PDF/A 포맷이라고 인식이 되지 않았습니다. 결국 “ezPDFBuilder 2006″를 설치해서 하니 깨끗하게 해결되었습니다. (1시간 허비)
ezPDF WorkBoard 2 PDF
 
 
 

3. PDF를 OCR 인식 

Adobe Acrobat Pro에서 이미지PDF를 다시 OCR 인식 해 주었습니다. 
  • 결과다운로드 : [3rd]2013_manual-OCR-via_Acrobat (116M)
  • 변환시간 : 2시간 (511page) 
  • 특이사항 : 인식 시간이 너무 오래 걸렸습니다. Devonthink의 Abby는 한글인식이 안되어 Mac에서는 유일하게 Acrobat이 해결책인데.. ㅜㅜ 
Acrobat Korean OCR
“운영”이라는 검색어로 비교해 보았습니다. 아래 왼쪽이 Origin 파일이구요, 오른쪽이 Acrobat OCR 인식 결과입니다. (총 298페이지나 찾았네요). 거의 이거를 하기 위한 시간이 12시간 정도 걸렸는데, 보람은 있네요. 

Acrobat Korean OCR

 

 

4. 결론

  • This page contains renderable text PDF에 대한 Mac에 대한 맥에서의 솔루션은 너무 복잡합니다. 워크플로우를 만들면 될 듯 한데 최종 OCR 단계에서 알 수 없는 에러를 냈습니다. 제가 가지고 있는 버전이 X/10 버전이라 XI/11 버전은 해결되었을지 모르겠네요. ( PDF > 600DPI PNG > PDF > OCR )
  • 대안으로 위의 3단계 방식대로 VM/Windows 환경에서 PDF > XPS > PDF 변환 과정을 거치시고, PDF 변환기는 필히 (가정용 무료인) ezPDF WorkBoard 2 PDF 를 써서 PDF를 만든 후 Acrobat OCR을 돌리세요. (한컴PDF를 쓰지 마세요)  
  • 시간의 인내가 필요합니다. 500페이지 한글 PDF 인식 하는데 거의 2시간 30분이 걸렸으니.. 

 

 

 참고/출처 : http://www.ideationizing.com/2011/03/ocr-acrobat-pdf-with-renderable-text.html

Peter Kim에 대하여

김태영 PMP 010-9344-7505 프로젝트리서치(주) 대표/설립 peterkim@projectresearch.co.kr http://www.ProjectResearch.co.kr

2개의 답글 to “Acrobat에서 한글 OCR 인식이 안될 때 해결 방법 – This page contains renderable text 증상”

  1. 스캔맡긴 것 받아 확인하는데 문자인식이 거지같아서 검색하다가 들렀습니다.
    링크담아갑니다.

  2. 리뷰 잘 읽었습니다. 저도 업무적으로 OCR 프로그램을 많이 쓰는 일을 하는데, 저는 ABBYY 사 제품이 그래도 사용자 편의성에서는 가장 편리하더군요, 인식율도 좋구요.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중

%d 블로거가 이것을 좋아합니다: