Facebook 맥매니아에 다음과 같이 OCR 관련 질문이 올라왔고, 노하우가 공유되었습니다.
보통 SCAN한 PDF 파일은 내용을 못 편집하는데, 그 파일을 Text (OCR)로 변환해주는 좋은 프로그램 있을까요? 알려주시면 꼭좀 알려주시길 부탁드립니다. (Joseph Baik)
- 윤종웅 일단 adobe acrobat으로 가능하구요. OCR mac 검색하시면 몇가지 앱 있는데 전 사용해보지 않았습니다. PDF pen에서도 가능하네요. 요즘 업글세일하던데 괜찮습니다.
- 김광래 abbyy 도 괜찮은데 맥에선 한글지원을 않더군요. 영문위주시라면 괜찮으실겁니다.
- 노태우 저는 prizmo를 사용하고 있는데, 한글 인식은 영~ 아니네요. 개인 사용자라 불편함을 꾹 참으며 쓰고 있습니다;;
- 김관우 에버노트도 프리미엄은 OCR이 되는 것으로 알고 있는데, 한글은 어떤지 잘 모르겠네요.
- 김태영 저도 acrobat pdf로 수백권 한글 OCR 돌렸네요. 100% 완벽한건 아니지만 그래도 검색이 가능하게 해준게 어딘지…
- Joseph Baik 네~ 그러게요 그래도 된다는게 감사하죠^^ 근데 영문 devonthink나 evernote premium은 어떤가요? 혹시 사용해 보셨어요?
저 역시도 이에 대한 결과가 궁금하여 직접 Joseph Baik 선생님으로 부터 해당 파일 원본을 받아서 Devonthink Office , Adobe Acrocat Pro 및 Evernote를 통해서 분석해 본 결과를 공유합니다.
1. Devonthink Pro Office
2. Adobe Acrobat Pro
3. Evernote Premium
4. OCR 인식 결과 및 활용
5. 결론
1. Devonthink Pro Office
Devonthink Pro Office의 File > Import > Images (with OCR)에서 논문이미지스캔PDF를 선택 하면 자동으로 인식 흐름도로 넘어옵니다. 모든 페이지의 인식 결과가 종료되면 (3) 화면과 같이 제목/저작/태그 등과 같은 메타 정보를 입력 받고 종료됩니다. 이 후 Devonthink의 검색 흐름을 따르면 됩니다.
인식시간 : 40분 (239page)
파일크기 : 52.8M
2. Adobe Acrobat Pro
Acrobat Pro를 열고 우측 창의 Tools > Reconize Text > In This File 이후에 “Recognize Text” 창에서 영문 / Searchable Image(Exact)/ 600 dpi를 선택 후 OK를 클릭하면 자동 인식이 시작됩니다.
인식시간 : 10분 (239page)
파일크기 : 7.9M
3. Evernote Premium
Evernote Premium 버전은 PDF , 이미지, 손글씨 이미지 등을 인식하는 기능이 있습니다. 위의 원본을 에버노트에 올리고 기다려 보았으나 이미지 검색 엔진이 돌아가지 않았습니다. 아마도 원본 PDF가 텍스트를 포함하는 PDF여서 OCR 인식 엔진이 돌아가지 않은 것 같습니다. 에버노트의 이 부분이 제일 아쉽네요. 원래 pdf 자체가 text가 조금이라도 있으면 이를 OCR 분석한다는게 의미가 없다는게 당연하지만, 수동 옵션이라도 pdf내 이미지 ocr 재인식 후 만들어진 searchable extracted pdf를 다운로드 받을 수 있었으면 하는 바램입니다.
인식시간 : 인식하지 못함
4. OCR 인식 결과 및 활용
4.1 Devonthink 에서 검색
영문 논문 원본, DEVONthink Pro Office 인식 결과 논문, Acrobat Pro 인식 결과 논문 3개를 가지고 몇몇 단어로 검색을 해보았습니다. 몇몇 단어로 검색을 해보았으며 영문 인식의 경우 DEVONthink에서 DEVONthink 결과 논문 및 Acroboat 결과 논문 이 동일한 결과를 내주었습니다. (물론 원본 논문은 이미지라서 검색이 되지 않았습니다.)
4.2 Preview / 미리보기 에서 검색
내용물을 Preview/미리보기 로 보면 결과가 확연히 차이나네요. “Hebrew”로 검색한 경우 원문은 당연히 검색안되고, Acrobat / Devonthink 인식 결과는 동일한 22 페이지 인식 결과를 내 주었습니다.
4.3 Papers에서 논문 메타 검색 인식 결과
논문 인용 / 활용을 위해 Pepers 에서 논문을 인식한 결과입니다. 우측 정보 창을 보면 인용을 위한 메타 정보가 제대로 입력 되었음이 확인 되었습니다.
참고를 위해 위의 이미지 스캔 논문의 OCR 인식 문서도 같이 올려드립니다. 직접 비교해 보세요.
- 논문 이미지 스캔 원본문서 : The doctrine of sanctification with respect to its role in eternal salvation
- DEVONthink Pro Office OCR 인식 후 문서 : 다운로드
- Adobe Acrobat Pro OCR 인식 후 문서 : 다운로드
5. 결론 :
만약 저라면 OCR은 빠른 속도와 다중 배치 인식, 영문/한글 인식을 위해 Adobe Acrobat을 이용하고, 검색/활용은 devonthink, 논문관리는 papers2 로의 workflow로 관리하는 것이 좋을 것 같다는 결론을 내렸습니다.
1. OCR 인식속도 : Acroabt Pro (10분) > Devonthink Pro Office (40분)
2. OCR 인식 후 파일 크기 : Devonthink Pro Office (52.8M) > Acrobat Pro (9.8M)
3. OCR 인식 후 본문 검색 : Devonthink 하에서는 동일, Preview 및 Papers 에서 사용하는데 문제 없음.
4. 영문 상태에서는 Devonthink 만 가지고 있어도 상관 없으나 인식 시간이 너무 오래 걸리는 단점이 있음.
5. 전 세계 언어 OCR 대상으로 가장 빠르고 무난하게는 Adobe Acrobat을 추천 함.
6. 한글 OCR을 하기위해서는 Acrobat 과 Evernote가 유일하나, Evernote는 해당 PDF를 검색가능한 PDF 최종 파일로 Save-As 할 수 없음. (검색만 가능)
* 참고 : 스캔이미지 PDF의 OCR 이 “This page contains renderable text” 에러를 내는 경우 Acrobat에서 한글 OCR 인식이 안될 때 해결 방법 글을 참고하세요.
좋은 팁 감사합니다. 결론은 Acrobat으로 나는군요. 특히 한글 인식이 필요한 경우는 다른 대안이 없겠네요.
항상 좋은 정보 감사합니다. 저도 Acrobat Pro 11을 사용해서 OCR을 하고 있는데, 스캔한 이미지 중 삐뚤어진 페이지를 OCR하면서 약간 잡아주기도 하네요!
에버노트의 경우에는 올려놓은 pdf 를 클라우드에 올려서 서버에서 인식을 하는 방식이어서 자체 PC나 Mac 에서는 OCR 을 진행해주는 것이 눈에 보이지 않습니다. 에버노트에서 재미난것이 Pdf 뿐만 아니라 사진으로 되어 있는 텍스트도 OCR 을 진행해서 검색시 보여준다는 것인데, 저는 그 점에 높은 점수를 주고 싶네요..
에버노트 무료는 노트작성 이후 몇시간 정도 걸리고, 프리미엄의 경우에는 몇분 이후면 검색시 올려놓은 pdf 와 사진 자료의 내용을 OCR 로 모두 분석된 내용을 검색할 수 있도록 해줍니다. 사진의 경우에는 그리 화질이 좋지 않음에도 불구하고 글자를 제대로 찾아주네요.
말씀하신대로 pdf 내에 사진이 있을 때는 사진내의 글자는 잘 못찾는 것 아닌가 싶네요. 좋은 글 감사합니다. 덕분에 다른 어플에서 OCR 프로세스를 알게 되었습니다.
에버노트 프리미엄으로 쭉 써오고 있습니다.. 성민님 말씀처럼, 프리미엄서비스로 evernote 연동 스캐너(S1100,휴대용)을 사용하면, 한글 손글씨도 인식합니다. 그리고, searchable PDF 저장도 가능하구요.
searchable 설정할때 1page / 문서전체 설정도 가능하고, 영문 스캔시엔 PDF변환인 빠른데, 한글로 설정해두면, 1page 검색가능만 켜둬도 PDF저장 시간이 확연히 느리고, 실제로 검색해봐도 잘 안 됩니다.
하지만, evernote 에서 한글 손글씨 인식을 위해 2년전부터 손글씨 프로젝트 하고 있고, 인식률 높이려 애쓰는걸로 알고 있습니다. (근데, 1년반이 지나도록 와 닿을 정도는 아닙니다.^^;)
사진내 글자는 희한하게도 다 찾아냅니다. 한글도 잘 찾아주는 것 같습니다.
러시아의 abby사의 fine reader의 OCR이 현존 최고의 인식율을 보여줍니다. 한글 인식은 거의 90%이상으로서 이 프로그램보다 인식이 잘되는 프로그램은 없습니다.