DEVONthink , Adobe Acrobat, Evernote OCR 성능 비교 의 글 이후 한 회원 분이 다음과 같은 문제를 문의 주셨습니다.
이주상 선생님 – pdf파일임에도 OCR 기능이 안 먹힙니다. 무슨 이유 일까요? 메시지는 다음과 같이 뜹니다. ‘This page contains renderable text’
원본PDF : 2013년 지역아동센터 운영매뉴얼 (511page, 14M)
renderable text가 뭔지를 찾아보니 글자가 모두 캐릭터 속성이 없는 vector 형태로 저장되는 것이었습니다. 결국 이미지가 아닌 형태로 지정되기 때문에 OCR인식을 할 수 없다는 거죠.
이주상 선생님으로부터 OCR인식이 안되는 원본 PDF를 받아서 몇가지 시행착오 끝에 다음과 같이 한글 OCR 문제를 해결하였습니다. 큰 흐름은 “PDF를 이미지 포맷으로 변환(XPS)한 후 이를 다시 PDF로 변환 후 OCR 인식을 하게끔 한다.” 입니다.
- PDF를 XPS 포맷으로 변환
- XPS를 PDF로 재변환
- PDF를 OCR 인식
- 결론
1. PDF를 XPS 포맷으로 변환
VM/Windows 상에서 renderable text PDF를 XPS 포맷으로 변환합니다. “Microsoft XPS Document Writer”는 Office 2007 이상 설치하면 자동으로 설치되는 프린터 드라이버입니다.
- 결과다운로드 : [1st]2013_manual.pdf (90M)
- 변환시간 : 7분 (511page)
- 특이사항 : Mac에서 직접 해보려고 다음과 같은 3가지 방법으로 해보았으나 모두 실패했습니다.
- Acrobat Pro의 PNG export > 단일 PDF 합침 후 PDF OCR 인식이 무슨 이유에서인지 계속 실패했습니다.
- GraphicConverter로 PDF 의 각 페이지를 배치로 PNG로 배치 변환하여 이를 다시 PDF로 합친 후 OCR 인식 하려했으나 GraphicConverter가 에러/강제종료되었습니다.
- 대안으로 PDFToolKit+로 마찬가지로 PDF > PNG 변환 후 이를 배치로 다시 PDF로 만들었는데 PNG export 품질이 좋지 않아 선정하지 않았습니다.
2. XPS를 PDF로 재변환
ezPDF WorkBoard 2 for Windows 32Bit, 64Bit 통합 설치 를 설치한 후 XPS 를 다시 PDF로 변환
- 결과다운로드 : [2nd]2013_manual-via-ezPDFBuilder 2006 (120M)
- 변환시간 : 10분 (511page)
- 특이사항 : 처음에 ezPDF가 아닌 한컴PDF를 통해 XPS>PDF로 변환 후 Acrobat에서 OCR 인식하려하니 PDF/A 포맷이라고 인식이 되지 않았습니다. 결국 “ezPDFBuilder 2006″를 설치해서 하니 깨끗하게 해결되었습니다. (1시간 허비)

3. PDF를 OCR 인식
- 결과다운로드 : [3rd]2013_manual-OCR-via_Acrobat (116M)
- 변환시간 : 2시간 (511page)
- 특이사항 : 인식 시간이 너무 오래 걸렸습니다. Devonthink의 Abby는 한글인식이 안되어 Mac에서는 유일하게 Acrobat이 해결책인데.. ㅜㅜ

4. 결론
- This page contains renderable text PDF에 대한 Mac에 대한 맥에서의 솔루션은 너무 복잡합니다. 워크플로우를 만들면 될 듯 한데 최종 OCR 단계에서 알 수 없는 에러를 냈습니다. 제가 가지고 있는 버전이 X/10 버전이라 XI/11 버전은 해결되었을지 모르겠네요. ( PDF > 600DPI PNG > PDF > OCR )
- 대안으로 위의 3단계 방식대로 VM/Windows 환경에서 PDF > XPS > PDF 변환 과정을 거치시고, PDF 변환기는 필히 (가정용 무료인) ezPDF WorkBoard 2 PDF 를 써서 PDF를 만든 후 Acrobat OCR을 돌리세요. (한컴PDF를 쓰지 마세요)
- 시간의 인내가 필요합니다. 500페이지 한글 PDF 인식 하는데 거의 2시간 30분이 걸렸으니..
참고/출처 : http://www.ideationizing.com/2011/03/ocr-acrobat-pdf-with-renderable-text.html
스캔맡긴 것 받아 확인하는데 문자인식이 거지같아서 검색하다가 들렀습니다.
링크담아갑니다.
리뷰 잘 읽었습니다. 저도 업무적으로 OCR 프로그램을 많이 쓰는 일을 하는데, 저는 ABBYY 사 제품이 그래도 사용자 편의성에서는 가장 편리하더군요, 인식율도 좋구요.