DataON 연구데이터 관리·활용 가이드라인



- 연구데이터 보존 가이드 라인 -doi http://doi.org/10.22711/3


    가이드라인
      【 개 요 】
    • □ 내구성 있는 형식을 선택하고, 파일을 로컬 아카이빙하고, 데이터 파일을 데이터 리포지터리에 제출하여 데이터 파일을 장기간 보존하는 절차를 따르는 것
    • 【 의 미 】
    • □ 데이터 보존의 의미
      • ◯ 연구 데이터의 장기적 생존성(long—term viability)과 지속적인 접근성을 보장하기 위해 취하는 일련의 관리 활동
      • ◯ 장기는 저장 매체의 손상, 기술 변경, 이전 및 새로운 매체 및 데이터 형식 지원, 사용자 커뮤니티 변경 등 리포지터리에 보관된 디지털 정보의 무결성 상실에 대해 걱정할 만큼 충분히 긴 시간을 일컫음
    • 【 필요성 】
    • □ 데이터 보존의 필요성
      • ◯ 디지털 데이터 보존은 모든 연구 프로젝트의 핵심 측면이어야 함. 일부 연구 데이터는 고유하여 파괴 또는 손실될 경우 대체될 수 없음. 그러나 검증 가능한 데이터를 참조하는 것만으로도 연구가 건전하다고 판단할 수 있음
      • ◯ 데이터의 효과적인 문서화
      • ◯ 저장 매체의 성능이 저하되거나 자료가 손실될 수 있음
      • ◯ 향후 소프트웨어 파일 포맷이 변경될 경우 데이터를 읽을 수 없음
      • ◯ 데이터 파일을 위한 도큐멘테이션이 남아있지 않으면 데이터를 이해하기 어려울 수 있음
      • ◯ 새로운 소프트웨어로 데이터 파일을 열었을 때 연구를 지속할 수 없을 만큼 이해할 수 없거나 신뢰할 수 없도록 변경될 수 있음
    • 【 목 표 】
    • □ 데이터 보존의 목표
      • ◯ 데이터 관리(Data management): 불가피한 변경을 통해 디지털 레코드가 관리될 수 있도록 보장
      • ◯ 접근성(Accessibility): 데이터를 쉽게 찾을 수 있고 접근 가능하도록 보장
      • ◯ 이용가능성(Availability): 이용자가 필요한 방식으로 데이터 작업 수행 가능
      • ◯ 데이터 도큐멘테이션(Data documentation): 해당 데이터가 어떤 데이터이고 무엇에 관한 데이터인지 이용자의 이해를 도움
      • ◯ 무결성(Integrity): 데이터 라이프 사이클 동안 데이터의 신뢰성 보장
    • 【파일 정리 및 기술 】
    • □ 데이터 보존은 연구 데이터의 장기적 생존성(long—term viability)과 지속적인 접근성을 보장하기 위해 취하는 일련의 관리 활동이므로 데이터 파일 정리와 데이터 기술을 포함하는 활동임
    • □ 메타데이터와 도큐멘테이션을 이용하여 보존할 연구데이터를 기술하여야 함
    • □ 연구 데이터의 지속적인 액세스와 잠재적인 재사용을 고려하여 데이터 파일의 형식(format)은 가능한 범위에서 독점적이지 않고 공개된 표준을 따라야 함
    • 【네이밍 규칙】
    • □ 연구 데이터의 이름 지정 방식에 일정한 규칙을 적용하면 이름 중복, 정체성 혼란, 향후 이름 변경 및 정렬 작업 등의 문제를 방지할 수 있음
    • □ 연구데이터의 이름 지정 방식 시 다음과 같은 규칙을 적용할 것을 권장함
      • ◯ 파일과 폴더의 이름은 의미 있고 가능한 한 명료해야 함
      • ◯ 파일과 폴더의 이름은 의미 있고 가능한 한 명료해야 함
      • ◯ 파일과 폴더는 일관되게 정렬되어야 함
      • ◯ 마지막 수정자의 이름이 파일명에 나타날 수 있음
      • ◯ 데이터/샘플의 이름은 해당 데이터/샘플의 내용을 반영하고, 고유하며 설명적(descriptive)이어야 함
      • ◯ 약어를 사용하여, 가능한 이름을 짧게 유지함
      • ◯ 약어 목록 및 약서 설명은 read me 파일에 작성
      • ◯ 파일 유형(file type), 파일 버전 정보, 소프트웨어 정보 또는 데이터 수집 위치와 같은 모든 파일과 관련된 반복되는 메타데이터 등 기타 관련 정보를 read me 파일에 작성
      • ◯ 날짜 입력 시 ISO 표준 YYYYMMDD 또는 YYMMDD/YYMM 사용
      • ◯ 파일 이름에 관한 표준 어휘 선택
      • ◯ 구두점을 사용할 시 같은 구두점 기호, 대문자, 하이픈 및 공백을 사용하여야 함
      • ◯ 숫자를 사용할 시 파일이 숫자로 나열되도록 사용할 자릿수 지정
    • 【데이터 버전 관리】
    • □ 정보자원의 구조, 내용 또는 상태의 변화가 발생할 때 새로운 버전이 생성되며, 연구 데이터의 경우, 기존 연구 데이터의 가공, 수정 또는 데이터 추가 시 새로운 버전의 데이터셋이 생성될 수 있음
    • □ 연구자는 연구 재현성과 신뢰도를 위해 연구 결과를 뒷받침하는 데이터셋 버전을 정확하게 인용하여야 함
    • □ 데이터 버전 관리는 특정성(specificity)과 검증가능성(verifiability)을 지원하고 특정 데이터셋 버전을 고유하게 참조할 수 있도록 함
    • 【버전 넘버링 체계】
    • □ 일관된 버전 넘버링 체계(version numbering scheme)를 통해 새 버전의 존재와 해당 데이터의 변경 여부를 추적할 수 있으며, 이전에 사용한 버전과 현재 작업 중인 버전을 명확하게 정할 수 있음
    • □ 버전 넘버링 체계는 다음의 방법을 활용하여 사용할 수 있음
    • 항목 내용
      넘버링 시스템 1 □ 데이터 버저닝을 위해 Major.Miner (예:V2.1)의 두 부분으로 된 넘버링 규칙을 적용함
      □ Major 부분은 범위, 상황 또는 사용 목적의 변화를 일으킬 수 있는 데이터셋의 내용 또는 형태의 변경을 나타내며 다음과 같이 개정될 경우 Major 부분의 번호를 갱신함

      ■ 컬렉션에 상당한 양의 새로운 데이터 항목이 추가되거나 삭제됨

      ■ 시간 또는 공간 기준선(spatial baseline)이 변경되어 데이터 값이 변경됨

      ■ 추가적인 데이터 속성(data attributes)이 도입됨

      ■ 데이터 생성 모델(data generation model)의 변경

      ■ 데이터 항목 포맷이 변경됨

      □ Minor 부분은 기존 데이터 항목보다 품질이 향상된 것을 나타내며, 초기 컬렉션의 사용 목적 또는 범위에 영향을 미치지 않고 다음과 같이 개정될 경우 Minor 부분의 번호를 갱신함.(Minor 부분의 번호는 0부터 시작함)

      ■ 데이터 속성의 이름 변경

      ■ 기존 데이터의 에러 수정

      ■ 일부 매개 변수 조정하여 데이터 생성 모델 재실행

      넘버링 시스템 2 □ 개정 수준 레벨에 따른 Major, minor (예: V2.1)의 두 부분으로 된 넘버링 규칙을 적용함
      □ 개정 레벨 1과 개정 레벨 2는 Minor 부분의 번호를 갱신함
      □ 개정 레벨 3부터 개정 레벨 4까지 Major 부분의 번호를 갱신하며, 이전 버전 데이터에 접근 가능함
      □ 개정 레벨 5는 이전 데이터의 삭제가 요구됨

      ■ 개정 레벨 1 : 데이터 자체 변경 없음. 메타 데이터, 데이터 파일 유형, 데이터 접근 웹 사이트 변경, 잘못된 파일 및 오타 수정 및 업데이트 (예: 새 키워드 추가)

      ■ 개정 레벨 2 : 데이터 사용에 큰 영향이 없는 데이터 셋 변경 (예: 누락된 5개 데이터 값 추가)

      ■ 개정 레벨 3 : 새로운 기간, 장소에서 수집한 추가 데이터 삽입(예: 데이터 공개 이후 1년 간의 데이터 추가)

      ■ 개정 레벨 4 : 데이터 구조 수정, 값 및 속성명 변경

      ■ 개정 레벨 5 : 이전 버전 데이터의 삭제가 필요할 정도의 데이터 변경 (예: 숫자, 계산에 사용되는 알고리즘에 오류가 발견된 경우)

      넘버링 시스템 3 단순한 하나의 숫자를 적용하여 데이터의 개정 및 버전을 나타냄 (예: V1, V2)

      【장기보존의 필요성】
    • □ 데이터 스토리지의 비용이 많이 소요하지 않더라도 모든 데이터를 저장하지 않고 장기 보존 데이터를 선택해야 하는 이유는 다음과 같음
      • ◯ 디지털 콘텐츠의 급격한 증가로 인해 모든 것을 저장하는 비용은 적지 않음
      • ◯ 백업과 미러링은 비용을 증가시킨다. 적절한 미러링과 백업 시스템 없이는 디지털 보존 방식을 유지할 수 없으며 백업과 미러링은 비용을 증가시킴. 즉, 이는 즉시 스토리지 비용을 적어도 2배 이상 증가시킴
      • ◯ 모든 데이터를 저장한다면 어떤 데이터가 검색의 대상인지 확인하기 위해 추가적인 노력이 필요할 수 있으며 데이터를 선별하여 저장하면 이러한 과정을 줄일 수 있음
      • ◯ 많은 관리 및 보존 비용이 소요됨으로 보존 메타데이터를 생성하고 관리하는 비용과 보존해야 할 데이터에 대한 보존 비용을 고려해야 함
    • 【기술 및 절차 안정성 보존 전략 】
    • □ 마이그레이션(Migration)
      • ◯ 비교적 일반적이지 않는 파일 혹은 더 이상 사용되지 않는 파일 포맷에서 현행 파일 포맷으로의 파일 포맷 변환
    • □ 에뮬레이션(Emulation)
      • ◯ 구형 또는 더 이상 사용되지 않는 컴퓨터의 기능을 모방하는 것으로 에뮬레이션을 사용하면 컴퓨터에서 이전 파일 형식을 읽은 다음 현재 파일 형식(에뮬레이션과 마이그레이션을 결합)으로 저장하거나 향후 오래되고 더 이상 사용되지 않는 파일을 읽고 사용하기 위한 기술
    • □ 정규화(Normalization)
      • ◯ 보존을 위해 데이터 포맷을 일반적인 포맷 형식(예: 텍스트 파일을 개방형 문서 포맷 또는 Word 포맷으로 제한)으로 제한하거나 소프트웨어 종속 파일 포맷을 변환한 소프트웨어 종속 파일 포맷(예: SPSS 시스템 파일) 또는 소프트웨어 독립 파일 포맷(예: ASCII 또는 XML 기반 포맷)으로 변환
    • 【연구데이터 백업】
    • □ 연구데이터의 손실 및 손상을 방지하고 보호하기 위하여, 연구자는 데이터가 여러 위치에 정기적이고 자동으로 백업하여야 할 책임이 있음
    • □ 연구데이터가 자동으로 백업되는 리포지터리의 경우 마스터 복사본에 권장됨. 동시에, 다른 곳에 데이터의 백업을 저장하고 관리하여야 함. 이러한 백업은 효율성과 무결성을 보장하기 위해 정기적으로 확인하여야 함
    • □ 데이터를 수동으로 백업할 때 '3-2-1-규칙'(‘3-2-1-rule’)을 활용할 수 있음
      • ◯ 중요한 파일의 사본을 총 3개 보관함
      • ◯ 2개의 다른 미디어에서 저장됨
      • ◯ 1개의 사본이 다른 위치에 저장됨
    • □ 비디지털 연구데이터: 디지털이 아닌 아날로그 데이터(텍스트, 오디오 및 시청각 테이프 녹음, 사진 인쇄물 및 현미경 슬라이드와 같은 항목)는 장기간 보존 및 공유를 용이하게 하기 위해 디지털화되어야 함. 연구데이터가 디지털화할 수 없는 물리적 개체로 구성된 경우, 요청 시 액세스가 허용될 수 있도록 안전하게 저장해야 함