티스토리 뷰

728x90


"표절"과 관련한 뉴스가 심심치 않게 들려오고, 구인구직 현장에서도 입시 현장에서도 "표절"은 주요 이슈 중의 하나입니다. 내 생각, 내 창작물이 아닌 다른이의 것을 베끼는 "표절"은 범죄 행위임에 틀림없습니다. 특히 다른이의 글을 통으로 복사해 놓고 앞뒤 문단을 이어주는 글만 살짝 바꾸어 사용하는 짜깁기 표절은 악성 표절임에 틀림없습니다. 정식으로 인용 또는 참조 표시를 하기만 해도 될텐데, 다른이의 글을 가져다 쓰면서 자신의 글인양 포장하는 행위는 그 어떤 변명으로도 정당화되지 못할 것입니다.

정보 기술의 발전과 함께 표절을 찾아내는 방법도 지속적으로 발전해 와서 표절 검사로 비즈니스를 하는 회사도 한둘이 아닙니다. 표절을 찾아내는 방법은 검사 주체에 따라 크게 두가지로 나눌 수 있습니다. 한가지는 표절을 찾아내고 싶지만 비교할 원본 정보를 가지고 있지 않은 경우로 이런 경우는 데이터베이스를 가지고 있는 전문 검사 조직에 의뢰하거나 검사 서비스를 하는 웹사이트를 이용하거나 포털의 데이터베이스를 활용하는 방법입니다. 많은 경우 유료 서비스를 통해 서비스를 받을 수 있습니다. 두번째 방법은 표절 검사를 원하는 조직에서 표절 검사를 위한 원본 데이터베이스를 확보해서 직접 검사를 수행하는 방법입니다. 예를 들어 대학에서 리포트나 자기소개서, 학위 논문의 표절을 검증하고 싶을 때 오랜 기간 축적된 선배들의 리포트나 자기소개서를 원본으로 해서 재학생이나 신입생의 제출 자료를 검사하는 방식입니다. 전문 분야의 경우 주요 교과서나 저서, 논문, 학회지등의 텍스트를 확보해 놓고 제출한 논문의 표절 여부를 검사할 수도 있습니다. 이러한 자체 표절 검사가 가능한 배경에는 스캔 이미지를 컴퓨터 텍스트로 변환하는 OCR 기술의 발전과 함께 수많은 인터넷 공개 자료의 존재가 있습니다. 이미 국내 주요 석사, 박사 논문들은 이미 컴퓨터 텍스트로 전환이 완료된 상태로 공개되고 있을 뿐만아니라 https://openlibrary.org/ 등에서 무료로 다운로드 가능한 도서가 한둘이 아닙니다. 

이번 포스팅은 http://plagiarism.bloomfieldmedia.com/z-wordpress/software/wcopyfind/ 에서 무료로 배포하고 있는 Wcopyfind 4.1.4를 한국어를 감안하여 동작하도록 1차 보완한 WCopyfind_ko를 배포하면서 간단한 사용법을 나눌까 합니다.


WCopyfind_ko.zip


■ 설치 방법

표절 검사 프로그램의 설치 요령은 위에서 첨부한 파일을 다운로드 받아 특정 폴더에 압축을 해제하는 것이 전부입니다.


압축을 위에 Wcopyfind_ko.zip 링크를 클릭해서 다운로드받아 압축을 해제하면 위의 그림과 같이 DLL파일 하나와 실행 파일 하나가 나오는데 표절 검사 프로그램을 실행하기에 앞서 표절 검사 보고서 작업을 위한 폴더(위의 그림에서 report)와 원본 및 비교 대상 자료를 보관할 폴더를 구분하는 것이 이후 작업을 편리하게 하는 방법일 수 있습니다.


■ 사용법


작업은 화면의 위에서 아래로 원본 파일 선택>점검 대상 파일 선택>비교 규칙 확인>보고서 폴더 확인>[실행]의 순서로 진행합니다.

원본 및 점검 대상 파일은 위 그림처럼 각 영역에서 우측 마우스 버튼을 클릭해서 나오는 컨텍스트 메뉴>문서찾기 메뉴로 파일을 선택할수 있습니다. 좀더 편리하게는 탐색기에서 원하는 파일을 일괄 선택하여 각 영역에 끌어다 놓기(Drag & Drop) 하는 방식도 사용할 수 있습니다. 파일이 많고 자주 작업을 하는 경우에는 컨텍스트 메뉴>목록 파일 저장 및 로드로 목록을 통해서 파일 선택 과정을 생략할 수도 있습니다. 지원하는 파일 형태는 WCopyfind 원본의 경우에는 *.txt, *.doc, *.docx, *.pdf, *.htm, *.html, 웹 URL등 다양하지만 비교 내용중에 한글이 섞여 있다면 *.txt, *.docx, *.html만 사용하기를 권장합니다. 한글의 경우 인코딩 문제가 있기 때문에 *.docx 처럼 선명하게 UTF-8 인코딩이라면 문제를 단순하게 해결할 수 있지만 *.txt의 경우 BOM으로 UTF-8(0xEFBBBF)표시가 있는 경우에는 UTF-8 인코딩을 감안하지만 그 이외의 *.txt파일은 EUC-KR 인코딩으로 간주해서 비교합니다. HTML 파일의 경우에는 기본적으로 UTF-8로 간주하고 코드 내용중에 charset=이 있는 경우에는 "utf-8"로 명시한 경우에만 UTF-8 인코딩으로 처리하고 나머지는 EUC-KR 인코딩으로 감안해서 비교합니다. 비교 결과는 UTF-8 인코딩으로 처리된 웹 페이지로 출력합니다.

비교 규칙은 WCopyfind가 영문 쪽에 특화 되어 있었던터라 내용이 한글인 문서를 비교하는 경우에는 대부분의 옵션을 언체크 상태로 해서 비교를 진행해야 합니다. 아래의 내용은 비교 규칙 개별 항목에 대한 설명입니다.

  • 표절 문장의 최소단어수 - 표절(복사) 했다고 판정하는 문장의 최소 단위. 예를 들어 기준이 5단어였다면 3단어를 연속 복사한 것은 표절로 판정하지 않습니다.

  • 표절 보고 기준 - 지정 단어이상의 문장만 보고함

  • 허용 오차 - 일치하는 문장을 검사하는데 0-9 단어로 불일치 단어가 포함되는 것을 허용 합니다. 0은 불일치 단어를 허용하지 않는 것입니다. 값이 크면 검증 속도가 느려지고 사후 검증도 어려워지므로 주의해야 합니다.

  • 허용 오차 비율 - 일치하는 문장을 검사하는데 0-100 비율로 허용 오차를 지정합니다. 100은 불일치 단어를 허용하지 않는 것입니다. 값이 크면 검증 속도가 느려지고 사후 검증도 어려워지므로 주의해야 합니다.

  • 단어내 모든 구두점 무시(공백,알파벳,숫자를 제외한 인쇄가능한 모든 문자) - 구두점을 무시하고 비교하므로 일치율을 높아지는 것이 사실(현재 한글 지원 안함).

  • 단어의 외부 구두점 무시 - 단어 시작, 끝부분의 구두점만 무시(현재 한글 지원 안함).

  • 숫자 무시 - 숫자는 비교에서 제외

  • 대소문자 동등 비교 - 대문자 소문자를 동일하게 간주해서 비교

  • 단어가 아닌것 무시 - 길이가 1 미만, 시작/끝이 영숫자가 아닌것, 단어내에 영숫자/-/'이 아닌 문자가 있는것 등등(현재 한글 지원 안함).

  • 너무긴 단어 무시 - 단어의 길이가 지정 글자 이상인것 비교에서 무시

  • 워드 문서(*.doc)에서 기본 문자가 아니면 무시 - 기본 영숫자등이 아닌 한글등의 문자를 무시하는 것으로 현재 한글 지원 안함

비교 규칙의 마지막으로 내용물의 언어를 선택합니다. 영문 문서를 비교하는 경우에는 "English"를 한국어는 "Korean"을 선택합니다. "보고서 파일을 저장할 폴더"에 비교 작업 과정의 로그와 결과 보고서 작성등이 이루어 지므로 해당 폴더를 사전에 반드시 확인해야 합니다. "요약보고서"를 선택하면 비교 결과에 일치하는 부분만을 표시하고 그 이외의 내용은 담지 않도록 합니다. [실행]을 누르면 비교 결과에 표절로 검사된 목록이 나오는 동시에 아래의 그림처럼 웹페이지를 통해서 결과를 확인할 수 있도록 해줍니다.


통상 표절 문장의 최소 단어수와 표절 보고 기준은 6단어로 하는 것이 불필요한 노력을 낭비하지 않는 방법입니다. 비교 결과가 추출되었다고 모두 표절이라고 판정하기에는 무리가 있고 추출된 파일을 "두 파일 보기"를 통해서 상호 비교하면서 분명한 복사나 문맥 표절등을 판정하는 방법이 적절한 접근법입니다. "Side-by-Side" 링크를 클릭하면 아래와 같은 상호 비교 화면을 확인할 수 있습니다.


좌측이 검사 대상이고 우측이 원본 파일입니다. 일치 부분은 링크로 양쪽 파일이 연결되어 있는데 검사 대상 팡리의 링크를 클릭하면 원본의 해당 위치로 이동하고 원본의 링크를 클릭하면 검사 대상 파일의 해당 위치로 자동 이동합니다. 링크간의 이동은 [TAB],[Shift+TAB]키를 활용하시면 간편하게 이동할 수 있습니다.

한글의 경우 EUC-KR, UTF-8 인코딩의 혼란이 있고 *.Doc 파일과 *pdf 읽기에 한계가 있지만 나름의 데이터베이스가 있는 경우에는 WCopyfind_ko가 나름의 효과가 있을 것으로 보입니다. *.txt로 데이터베이스를 확보하시는 경우 텍스트 파일의 인코딩에 주의하셔야 하고 인코딩 조정을 원하시면 회사에서도 쓸수있는 텍스트 편집기 jEdit를 참조하세요. 시간이 나면 *.doc, *.pdf 파일에서 한글 읽기도 시도해 보아야 겠습니다.

728x90
댓글
최근에 올라온 글
최근에 달린 댓글
«   2024/03   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함