Devonthink 내에서 한/글 HWP 및 TXT 파일 관리하기 – HWP, TXT 일괄 변환 기능

유저분으로 부터 윈도우에서 작성된 TXT 파일을 Devonthink Import 하는 방법에 대한 질의를 받았습니다. (4만 5천개 정도 있다고 하시네요.) 

devonthink in Korea 

(JEONG SEONG IN님) 안녕하세요. 데본씽크를 사서 이것 저것 테스트하며 적응해가고 있습니다. 한데, 아직 맥 초보라서 그런지 한글 인코딩 문제에서 많이 헤매고 있습니다.

현재 예전 윈도에서 작성된 텍스트파일이 4만 5000개 정도 있습니다. 이걸 데본씽크에 임포트했더니 제목은 문제 없는데 파일 내용이 죄다 깨지네요. 첨부한 사진처럼. 혹시나 싶어 원본 파일도 함께 보냅니다. 이 문제 해결 방법이 없을까요?

 

스크린샷 2013 04 22 오후 1 41 04

(장기범님)  저는 얼마전 DevonThingk pro를 구입했습니다. 그런데 HWP파일들은 검색이 용이하지 않네요. 제겐 HWP파일이 더 많은데요. 해결 방법이 있을까요?

 

우선 두가지를 별개로 작성할까 하가다 한글 관련 문제라 하나로 답변 드립니다. 

1. TXT 임포트 방법 

2. HWP 임포트 방법 

3. 검색 및 활용 방법

 

 

1. TXT 임포트 방법 

  • 문제/원인 : 제목은 문제없는데 본문이 깨지는 경우가 문자코드 때문에 그렇습니다. 윈도우는 기본적으로 EUC-KR 코드 체계를 쓰기때문에,  UTF8 체계를 사용하는 맥에서 불러 읽으면 깨지는 거죠. 
  • 해결책 : 이를 해결하기 위해서는 과거 EUC-KR 체계의 문서 포맷을 모두 다 UTF8 체계로 바꾸어줘야합니다. 소량 파일 정도야 TextWrangler 같은 걸로 해주면 되는데, 4만 5천개 정도나 되는 TXT 파일이 있다면 이는 배치로 처리해야 수분 이내로 처리가능합니다. 
  • 솔루션 : 솔루션으로는 텍스트파일 문자셋 변환 스크립트 의 가이드를 사용하시어 해결하시면 됩니다. 

 

1) 우선 해당 chgchar.py 파일을 TXT 맨 상위 폴더에 복사합니다. 

update 20130422 21:40 다운로드 : https://dl.dropboxusercontent.com/u/75852/MacInKorea/chgchar-1_1.py
기존 안내드린 다운로드  http://www.cocoadev.co.kr/173의 chgchar.zip  말고 위의 파일을 이용하세요. 정성인 선생님의 제보로 원소스에 파일명에 스페이스 들어간걸 처리하는 로직을 추가했습니다. 

 

2) Terminal 모드에서 해당 폴더로 이동한 다음 “$chmod 777 chgchar.py” 명령어를 수행합니다. 

peterkim-mba13:attachments-3 peterkim$ chmod 777 chgchar.py

3)  $./chgchar.py -r -etxt -d./ 명령어를 입력하면 하위 모든 폴더의 txt를 euc-kr에서 utf8로 변경해 줍니다. 

peterkim-mba13:attachments-3 peterkim$ ./chgchar.py -r -etxt -d./
./folder1/folder1-1/4월중창원그린벨트해제.euckr.txt ...Success
./folder1/folder1-2/4월중창원그린벨트해제.euckr.txt ...Success
./folder2/folder2-1/4월중창원그린벨트해제.euckr.txt ...Success
./folder2/folder2-2/4월중창원그린벨트해제.euckr.txt ...Success

 NewImage

4) 이 utf8로 변경된 txt 파일을 Devonthink로 import 한 후 Devonthink의 막강한 연관 검색 기능을 활용합니다. 

 

 

2. HWP 임포트 방법 

  • 문제/원인 :  HWP는 한/국에서만 사용하는 포맷이기 때문에 Devonthink 에서 지원을 하지 않습니다. 
  • 해결책 : 이에 대한 직접적인 해결책은 DevonTechnologies에서 해결해주지 않는 이상은 없습니다. 따라서 우회 방법을 사용해야하는데 바로 HWP를  PDF로  변환하는 거죠. 하지만 여기에는 문제가 있습니다. 몇개의 HWP를 관리하는건 문제가 없는데, 수백-수천건의 HWP를 일괄 PDF로 변환하는 것은 기존 방식대로 안됩니다. 따라서 배치 도구를 이용하셔야 합니다. 
  • 솔루션 : 제가 제시하는 방법은 ePapyrus의 PDF-Pro5 (개인은 무료) 를 이용하는 방법입니다. (이경우 VM/Windows에서 PDF를 배치 변환해주어야 합니다.) 이렇게 되면 수백-수천개의 HWP 파일을 일괄적으로 원하는 폴더/동일 폴더에 PDF로 변환이 가능하기 때문에 상당히 편합니다. (개인은 무료이고, 기업용은 22만원이네요. )

 

1) VM/Windows에서 ePapyris의 PDF-Pro5 Free (개인용무료버전)을 다운로드 설치합니다. 

PDF-Pro5

 

 

2) 윈도우의 검색 기능과 PDF-Pro5 의 배치 콘솔 프로그램으로 HWP를 PDF로 일괄 변환합니다. 

PDF-Pro5 (HWP2PDF)

 

 

3) 변환된 PDF를 Devonthink로 import 한 후 Devonthink의 막강한 연관 검색 기능을 활용합니다. 

 

 

 

3. 검색 및 활용 방법

만들어진 PDF 혹은 TXT를 이제는 Devonthink에 import 한 후 관리하면 됩니다. TXT 파일이야 Devonthink에서 바로 열람 및 수정할 수 있는데, 원본의 HWP를 찾아 편집을 해야한다면 상황이 달라집니다. 이때 원본 HWP를 잘 가지고 있어 이를 편집할때 잘 찾아야합니다. 다행히 Mac은 기본 Spotlight의 성능이 매우 좋고, 아울로 Easy Find (무료) 및 Tembo(유료/15$)의 성능도 좋아서 쉽고 빠르게 원본을 찾아 편집할 수 있습니다. (물론 Devonthink에 HWP 원본을 넣고 필요시 VM/Windows에서 편집해도 되구요) 이를 위해서는 VM/Windows의 모든 문서 파일을 맥 쪽에서 관리를 해주어야 합니다.  관련 활용 방안은 다음 글을 참고하세요. 

  1. Peter의 Mac 에서의 폴더 관리 방법
  2. Devonthink로 생각 정리 방법 (발표자료 원본 키노트 포함)
  3. Acrobat에서 한글 OCR 인식이 안될 때 해결 방법 – This page contains renderable text 증상
  4. DEVONthink , Adobe Acrobat, Evernote OCR 성능 비교

 

 

File search 016 001

 

 공개적으로 HWP2PDF의 버전이 함컴에서 나왔으면 하고(개별적 문서의 HWP2PDF는 맥에서는 Hancom Office Hanward Viewer 에서 PDF로 변환을 하면 개별적으로 되는데, 대량의 파일 변환에 대한 기능), 무엇보다도 HWP for Mac 버전이 출시되었으면 하는 바램이네요. 또한 왠만한 문서들이 UTF8 버전으로 관리되어서 유저가 이러한 캐릭터셑에 대한 고민 없이 원활하게 사용할 수 있는 날이 얼른 왔으면 좋겠습니다.  

 

 

 

update 20130422 21:40

Peter Kim에 대하여

Peter Kim(김태영) PMP, Certified SAFe 5 Scrum Master (SSM), Certified ScrumMaster® (CSM®), Project Research Inc., CEO / Founder, +82-10-9344-7505

8개의 답글 to “Devonthink 내에서 한/글 HWP 및 TXT 파일 관리하기 – HWP, TXT 일괄 변환 기능”

  1. 아, 오전에 멜 보냈는데 벌써 이렇게 친절히 포스팅 해주시고 너무 고맙습니다. 저는 아래한글 일괄 pdf 변환은 ezPDF WorkBoard가 편하더군요. 하여튼 정말 큰 도움이 되는 포스팅입니다. 감사합니다.

  2. 감사합니다. 한데 chgchar.py 요녀석이 파일 명에 스페이스(공백)이 있는 파일을 만나니 진짜 엉망이 돼버리네요. 통째로 백업이 돼있었기에 망정이지 망칠 뻔했습니다. 우선 파일명에 있는 스페이스 없애는 스크립트부터 찾아봐야겠습니다.

    • 이런.. 이 파일로 해보세요. 저희 Dexter/신철호 이사가 해당 소스를 변경해주었습니다.

      https://dl.dropboxusercontent.com/u/75852/MacInKorea/chgchar-1_1.py

      • 에공, 얼마나 어떻게 감사드려야할지 모르겠습니다. automator로도 시도해봤고, 윈도7 환경에서 file renamer turbo로도 해봤는데, 죄다 실패해서, 예전 윈도xp에서 쓰던 일괄변환 프로그램(이름이 기억 안나네요 쩝) 써보려고 xp 깔려던 참이었습니다. 오늘 새삼 드는 생각인데, 한번 쓰던 주력 os를 바꾸는 게 정말 어려운 일이지 싶습니다. 이러니 윈도 환경에 액티브x 환경에서 못벗어나는 것일 수도 있겠다 싶구요. 이렇게 재능 기부를 해 주시니 정말 고맙습니다. 저도 여유가 생기면, 오늘 겪었던 일을 한번 포스팅해보고 싶네요. 그때는 이 블로그 포스팅을 적극 인용해야겠습니다^^

  3. 질문 하나 드려 봅니다.
    저는 모든 문서를 폴더로 따로 관리하기 때문에 데본에서는 인덱스로만 처리합니다.
    이럴경우, 위에 나온 방법으로 텍스트 및 한글파일(이미 데본에는 인덱싱이 되어 있는)을 변환한후 그 다음에 어떻게 해야 변환된 내용이 데본에 반영이 되는지요? 인덱스 업데이트 해주면 되나요?

  4. 감사합니다. 200여개의 파일을 변환중인데 와 VM웨어로 하니 꽤나 느리네요 ㅎㅎ 여튼 좋은방법 소개해주셔서 감사합니다. 데본에서 PDF수정이 안되는 문제는 어크로뱃 프로페셔널을 써보도록하겠습니다. 아직 구매전이라 써봐야 얼마나 효과가있는지 알겠네요.

  5. 안녕하세요.. 좋은 프로그램 감사합니다.
    그런데 파일 변환이 50%는 cannot convert — Fail
    이 나는데.. 원인을 모르겠네요 ..

    특별한 원인을 모르겠습니다 ..
    사이즈도 비슷하고 큰 파일을 분할 한 것들이라 특별히 다르지 않은 것으로 알고있습니다.
    원인을 알 수 있는 log 파일같은 것이 생기나요 ?

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중

This site uses Akismet to reduce spam. Learn how your comment data is processed.

%d 블로거가 이것을 좋아합니다: