SITE SEARCH

검색

사이트 전체 글을 빠르게 찾을 수 있습니다.

RSS FEED

RSS 구독

RSS 리더에서 Project Research의 새 글을 바로 받아볼 수 있습니다.

EMAIL SUBSCRIBE

이메일 구독

새 글을 이메일로 받아봅니다. RSS는 별도 RSS 아이콘을 눌러 동일한 크기의 패널에서 열 수 있습니다.

이메일로 블로그 구독하기

이 블로그를 구독하고 이메일로 새글의 알림을 받으려면 이메일 주소를 입력하세요







Acrobat에서 한글 OCR 인식이 안될 때 해결 방법 – This page contains renderable text 증상

시리즈

DEVONthink , Adobe Acrobat, Evernote OCR 성능 비교 의 글 이후 한 회원 분이 다음과 같은 문제를 문의 주셨습니다. 

 

이주상 선생님 – pdf파일임에도 OCR 기능이 안 먹힙니다. 무슨 이유 일까요? 메시지는 다음과 같이 뜹니다. ‘This page contains renderable text’

원본PDF : 2013년 지역아동센터 운영매뉴얼  (511page, 14M)

renderable text가 뭔지를 찾아보니 글자가 모두 캐릭터 속성이 없는 vector 형태로 저장되는 것이었습니다. 결국 이미지가 아닌 형태로 지정되기 때문에 OCR인식을 할 수 없다는 거죠. 

 

이주상 선생님으로부터 OCR인식이 안되는 원본 PDF를 받아서 몇가지 시행착오 끝에 다음과 같이 한글 OCR 문제를 해결하였습니다. 큰 흐름은 “PDF를 이미지 포맷으로 변환(XPS)한 후 이를 다시 PDF로 변환 후 OCR 인식을 하게끔 한다.” 입니다. 

 

  1. PDF를 XPS 포맷으로 변환 
  2. XPS를 PDF로 재변환 
  3. PDF를 OCR 인식 
  4. 결론

 

 

1. PDF를 XPS 포맷으로 변환 

VM/Windows 상에서 renderable text PDF를 XPS 포맷으로 변환합니다.  “Microsoft XPS Document Writer”는 Office 2007 이상 설치하면 자동으로 설치되는 프린터 드라이버입니다. 

  • 결과다운로드 : [1st]2013_manual.pdf  (90M)
  • 변환시간 : 7분 (511page) 
  • 특이사항 :  Mac에서 직접 해보려고 다음과 같은 3가지 방법으로 해보았으나 모두 실패했습니다. 
  1. Acrobat Pro의 PNG export > 단일 PDF 합침 후 PDF OCR 인식이 무슨 이유에서인지 계속 실패했습니다. 
  2. GraphicConverter로 PDF 의 각 페이지를 배치로 PNG로 배치 변환하여 이를 다시 PDF로  합친 후 OCR 인식 하려했으나 GraphicConverter가 에러/강제종료되었습니다.
  3. 대안으로 PDFToolKit+로 마찬가지로 PDF > PNG 변환 후 이를 배치로 다시 PDF로 만들었는데 PNG export 품질이 좋지 않아 선정하지 않았습니다. 
 

Microsoft XPS document writer

 

 

2. XPS를 PDF로 재변환 

ezPDF WorkBoard 2 for Windows 32Bit, 64Bit 통합 설치 를 설치한 후 XPS 를 다시 PDF로 변환 

  • 결과다운로드 : [2nd]2013_manual-via-ezPDFBuilder 2006 (120M)
  • 변환시간 : 10분 (511page) 
  • 특이사항 : 처음에 ezPDF가 아닌 한컴PDF를 통해 XPS>PDF로 변환 후 Acrobat에서 OCR 인식하려하니 PDF/A 포맷이라고 인식이 되지 않았습니다. 결국 “ezPDFBuilder 2006″를 설치해서 하니 깨끗하게 해결되었습니다. (1시간 허비)
ezPDF WorkBoard 2 PDF
 
 
 

3. PDF를 OCR 인식 

Adobe Acrobat Pro에서 이미지PDF를 다시 OCR 인식 해 주었습니다. 
  • 결과다운로드 : [3rd]2013_manual-OCR-via_Acrobat (116M)
  • 변환시간 : 2시간 (511page) 
  • 특이사항 : 인식 시간이 너무 오래 걸렸습니다. Devonthink의 Abby는 한글인식이 안되어 Mac에서는 유일하게 Acrobat이 해결책인데.. ㅜㅜ 
Acrobat Korean OCR
“운영”이라는 검색어로 비교해 보았습니다. 아래 왼쪽이 Origin 파일이구요, 오른쪽이 Acrobat OCR 인식 결과입니다. (총 298페이지나 찾았네요). 거의 이거를 하기 위한 시간이 12시간 정도 걸렸는데, 보람은 있네요. 

Acrobat Korean OCR

 

 

4. 결론

  • This page contains renderable text PDF에 대한 Mac에 대한 맥에서의 솔루션은 너무 복잡합니다. 워크플로우를 만들면 될 듯 한데 최종 OCR 단계에서 알 수 없는 에러를 냈습니다. 제가 가지고 있는 버전이 X/10 버전이라 XI/11 버전은 해결되었을지 모르겠네요. ( PDF > 600DPI PNG > PDF > OCR )
  • 대안으로 위의 3단계 방식대로 VM/Windows 환경에서 PDF > XPS > PDF 변환 과정을 거치시고, PDF 변환기는 필히 (가정용 무료인) ezPDF WorkBoard 2 PDF 를 써서 PDF를 만든 후 Acrobat OCR을 돌리세요. (한컴PDF를 쓰지 마세요)  
  • 시간의 인내가 필요합니다. 500페이지 한글 PDF 인식 하는데 거의 2시간 30분이 걸렸으니.. 

 

 

 참고/출처 : http://www.ideationizing.com/2011/03/ocr-acrobat-pdf-with-renderable-text.html

Project Research에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기