SITE SEARCH

검색

사이트 전체 글을 빠르게 찾을 수 있습니다.

RSS FEED

RSS 구독

RSS 리더에서 Project Research의 새 글을 바로 받아볼 수 있습니다.

EMAIL SUBSCRIBE

이메일 구독

새 글을 이메일로 받아봅니다. RSS는 별도 RSS 아이콘을 눌러 동일한 크기의 패널에서 열 수 있습니다.

이메일로 블로그 구독하기

이 블로그를 구독하고 이메일로 새글의 알림을 받으려면 이메일 주소를 입력하세요







Devonthink 내에서 한/글 HWP 및 TXT 파일 관리하기 – HWP, TXT 일괄 변환 기능

시리즈

유저분으로 부터 윈도우에서 작성된 TXT 파일을 Devonthink Import 하는 방법에 대한 질의를 받았습니다. (4만 5천개 정도 있다고 하시네요.) 

devonthink in Korea 

(JEONG SEONG IN님) 안녕하세요. 데본씽크를 사서 이것 저것 테스트하며 적응해가고 있습니다. 한데, 아직 맥 초보라서 그런지 한글 인코딩 문제에서 많이 헤매고 있습니다.

현재 예전 윈도에서 작성된 텍스트파일이 4만 5000개 정도 있습니다. 이걸 데본씽크에 임포트했더니 제목은 문제 없는데 파일 내용이 죄다 깨지네요. 첨부한 사진처럼. 혹시나 싶어 원본 파일도 함께 보냅니다. 이 문제 해결 방법이 없을까요?

 

스크린샷 2013 04 22 오후 1 41 04

(장기범님)  저는 얼마전 DevonThingk pro를 구입했습니다. 그런데 HWP파일들은 검색이 용이하지 않네요. 제겐 HWP파일이 더 많은데요. 해결 방법이 있을까요?

 

우선 두가지를 별개로 작성할까 하가다 한글 관련 문제라 하나로 답변 드립니다. 

1. TXT 임포트 방법 

2. HWP 임포트 방법 

3. 검색 및 활용 방법

 

 

1. TXT 임포트 방법 

  • 문제/원인 : 제목은 문제없는데 본문이 깨지는 경우가 문자코드 때문에 그렇습니다. 윈도우는 기본적으로 EUC-KR 코드 체계를 쓰기때문에,  UTF8 체계를 사용하는 맥에서 불러 읽으면 깨지는 거죠. 
  • 해결책 : 이를 해결하기 위해서는 과거 EUC-KR 체계의 문서 포맷을 모두 다 UTF8 체계로 바꾸어줘야합니다. 소량 파일 정도야 TextWrangler 같은 걸로 해주면 되는데, 4만 5천개 정도나 되는 TXT 파일이 있다면 이는 배치로 처리해야 수분 이내로 처리가능합니다. 
  • 솔루션 : 솔루션으로는 텍스트파일 문자셋 변환 스크립트 의 가이드를 사용하시어 해결하시면 됩니다. 

 

1) 우선 해당 chgchar.py 파일을 TXT 맨 상위 폴더에 복사합니다. 

update 20130422 21:40 다운로드 : https://dl.dropboxusercontent.com/u/75852/MacInKorea/chgchar-1_1.py
기존 안내드린 다운로드  http://www.cocoadev.co.kr/173의 chgchar.zip  말고 위의 파일을 이용하세요. 정성인 선생님의 제보로 원소스에 파일명에 스페이스 들어간걸 처리하는 로직을 추가했습니다. 

 

2) Terminal 모드에서 해당 폴더로 이동한 다음 “$chmod 777 chgchar.py” 명령어를 수행합니다. 

peterkim-mba13:attachments-3 peterkim$ chmod 777 chgchar.py

3)  $./chgchar.py -r -etxt -d./ 명령어를 입력하면 하위 모든 폴더의 txt를 euc-kr에서 utf8로 변경해 줍니다. 

peterkim-mba13:attachments-3 peterkim$ ./chgchar.py -r -etxt -d./

./folder1/folder1-1/4월중창원그린벨트해제.euckr.txt ...Success

./folder1/folder1-2/4월중창원그린벨트해제.euckr.txt ...Success

./folder2/folder2-1/4월중창원그린벨트해제.euckr.txt ...Success

./folder2/folder2-2/4월중창원그린벨트해제.euckr.txt ...Success

 NewImage

4) 이 utf8로 변경된 txt 파일을 Devonthink로 import 한 후 Devonthink의 막강한 연관 검색 기능을 활용합니다. 

 

 

2. HWP 임포트 방법 

  • 문제/원인 :  HWP는 한/국에서만 사용하는 포맷이기 때문에 Devonthink 에서 지원을 하지 않습니다. 
  • 해결책 : 이에 대한 직접적인 해결책은 DevonTechnologies에서 해결해주지 않는 이상은 없습니다. 따라서 우회 방법을 사용해야하는데 바로 HWP를  PDF로  변환하는 거죠. 하지만 여기에는 문제가 있습니다. 몇개의 HWP를 관리하는건 문제가 없는데, 수백-수천건의 HWP를 일괄 PDF로 변환하는 것은 기존 방식대로 안됩니다. 따라서 배치 도구를 이용하셔야 합니다. 
  • 솔루션 : 제가 제시하는 방법은 ePapyrus의 PDF-Pro5 (개인은 무료) 를 이용하는 방법입니다. (이경우 VM/Windows에서 PDF를 배치 변환해주어야 합니다.) 이렇게 되면 수백-수천개의 HWP 파일을 일괄적으로 원하는 폴더/동일 폴더에 PDF로 변환이 가능하기 때문에 상당히 편합니다. (개인은 무료이고, 기업용은 22만원이네요. )

 

1) VM/Windows에서 ePapyris의 PDF-Pro5 Free (개인용무료버전)을 다운로드 설치합니다. 

PDF-Pro5

 

 

2) 윈도우의 검색 기능과 PDF-Pro5 의 배치 콘솔 프로그램으로 HWP를 PDF로 일괄 변환합니다. 

PDF-Pro5 (HWP2PDF)

 

 

3) 변환된 PDF를 Devonthink로 import 한 후 Devonthink의 막강한 연관 검색 기능을 활용합니다. 

 

 

 

3. 검색 및 활용 방법

만들어진 PDF 혹은 TXT를 이제는 Devonthink에 import 한 후 관리하면 됩니다. TXT 파일이야 Devonthink에서 바로 열람 및 수정할 수 있는데, 원본의 HWP를 찾아 편집을 해야한다면 상황이 달라집니다. 이때 원본 HWP를 잘 가지고 있어 이를 편집할때 잘 찾아야합니다. 다행히 Mac은 기본 Spotlight의 성능이 매우 좋고, 아울로 Easy Find (무료) 및 Tembo(유료/15$)의 성능도 좋아서 쉽고 빠르게 원본을 찾아 편집할 수 있습니다. (물론 Devonthink에 HWP 원본을 넣고 필요시 VM/Windows에서 편집해도 되구요) 이를 위해서는 VM/Windows의 모든 문서 파일을 맥 쪽에서 관리를 해주어야 합니다.  관련 활용 방안은 다음 글을 참고하세요. 

  1. Peter의 Mac 에서의 폴더 관리 방법
  2. Devonthink로 생각 정리 방법 (발표자료 원본 키노트 포함)
  3. Acrobat에서 한글 OCR 인식이 안될 때 해결 방법 – This page contains renderable text 증상
  4. DEVONthink , Adobe Acrobat, Evernote OCR 성능 비교

 

 

File search 016 001

 

 공개적으로 HWP2PDF의 버전이 함컴에서 나왔으면 하고(개별적 문서의 HWP2PDF는 맥에서는 Hancom Office Hanward Viewer 에서 PDF로 변환을 하면 개별적으로 되는데, 대량의 파일 변환에 대한 기능), 무엇보다도 HWP for Mac 버전이 출시되었으면 하는 바램이네요. 또한 왠만한 문서들이 UTF8 버전으로 관리되어서 유저가 이러한 캐릭터셑에 대한 고민 없이 원활하게 사용할 수 있는 날이 얼른 왔으면 좋겠습니다.  

 

 

 

update 20130422 21:40

Project Research에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기