티스토리 뷰

728x90

우리가 구글이나 네이버 검색창에  단어나 문장을 입력하여 검색하면 각 포털의 검색 엔진은 입력한 텍스트를 포함하고 있는 자료들을 뒤져서 입력한 문장에 가장 근접한 자료들을 결과로 내놓습니다. 그렇지만, 검색이란 기본적으로는 텍스트를 찾는 것이기 때문에 이미지 속에 있는 글자를 검색하기에는 한계가 있습니다(일부에서 OCR 기술을 이용해서 검색에 활용하는 기술이 적용되고는 있습니다). 또한, 파일이 프로그램 제작사의 입맛에 따라 별도의 형식으로 저장되어 순수 텍스트 형태가 아닌 이진 파일 형태라면 검색은 더욱 어려워 집니다.


포털 검색을 사례로 든것은 검색이라는 것이 텍스트 기반이라는 전제를 설명하기 위한 것이고, 텍스트 검색 과정에서 텍스트 중간 중간에 특수 문자가 끼어 있는 이진 파일(PDF문서등) 문제와 텍스트 검색이 가능하더라도 인코딩 문제 때문에 단순 텍스트 검색으로는 어떤 문서에 필요한 내용이 있는지 확인하기가 어려운 것이 현실 입니다.


아래 그림은 단순 PDF파일을 정상적으로 열어본 그림과  동일한 파일을 텍스트 편집기로 열어본 결과로 파일 내용이 나름의 형태를 가지다 보니 사람이 알아 볼 수 없는 특수 문자가 삽입되어 있음을 확인 할 수 있습니다.



그래서, 이렇게 이진 파일을 포함한 특별한 검색이 필요할 때는 dnGREP을 사용하면 편리 합니다.

- "윈도우에서 텍스트 검색 및 치환 도구 grep 이용하기(dnGREP)" 참조


dnGREP에는 PDF 형식의 파일, MS의 Doc 형식, 압축 파일들도 분석해서 검색하는 플러그인을 제공하고 있으므로 

내부 자료들을 일괄 검색할 때 요긴하게 사용 할 수 있습니다.



위의 검색 예는 "Paths that match"에 *.pdf, *.doc, *.zip으로 입력해서 3가지 이진 파일들 만을 대상으로 필터링하여 검색한 것입니다.  이진 파일 검색시에는 "Include binary files"를 체크해주고 하위의 모든 폴더를 검색할 때는 "Include subfolders"도 체크 합니다.


위의 검색 예에서 검색 결과에 검색 문장이 포함된 곳을 보여주기 때문에 찾아 보려는 자료인지 바로 확인후 해당 자료를 더블 클릭해서 조회해 볼 수 있습니다.


dnGrep의 또 다른 특수 검색 기능으로 인코딩을 감안한 검색을 들 수 있는데, Encoding이 기본적으로는 Auto detect로 되어 파일의 인코딩에 따라 내용을 검색하지만 한글과 관련된 UTF-8, EUC-KR등 별도의 인코딩을 지정해서 검색 할 수도 있습니다. 


필자는 코드를 받아서 기능을 추가해 보자는 생각이 스멀스멀 일어 납니다.




728x90
댓글
최근에 올라온 글
최근에 달린 댓글
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함