본문 바로가기
IT License/정처기필기-3과목

2024 #정보처리기사 필기요약 #3-5. 데이터 전환

by 시뮝 2024. 7. 5.
728x90

참고1. 노랑마킹은 시험에 나온 중요한 부분입니다.

참고2. 주황강조는 약어 혹은 중요한 내용입니다.

참고3. 회색마킹은 예시입니다. 


제 3과목 데이터베이스 구축 > 데이터 전환 기술


데이터 전환

  • 원천의 데이터베이스로부터 목적 데이터베이스를 만드는 활동이다.
  • 목적 시스템의 데이터 모델에 적합하게 ETL 활동을 거친다.
  • 목적 데이터베이스에 데이터 적재 후 그 결과를 검증한다.

 

초기 데이터 구축

초기 데이터 구축 전략

초기 데이터 구축 / 데이터 복구 방안 마련 / DB 구축 지침 제시

초기 데이터 구축 절차

구축 전략수립 → 대상파악 → 범위 확정 → 고려사항 도출

 

 

ETL(Extraction, Transformation, Loading)

  • ETL은 원천 시스템에서 데이터를 추출(Extraction)하여 변환(Transfor-mation) 작업을 거쳐 목적 시스템으로 적재(Load)하는 프로세스이다.
  • 조직 내/외부의 여러 소스들로부터 분석을 위한 저장소로 데이터를 이동시키는 일련의 프로세스이다.

ETL 프로세스

  • 때때로 시간 절약을 위한 3가지 ETL 단계를 동시에 수행한다.
  • 일반적으로 발생하는 데이터 변환에는 필터링, 정렬, 집계, 중복 제거, 유효성, 검증 등의 작업이 포함된다.
  • ETL의 변환 작업은 특수한 엔진에서 진행되며, 종종 변환 중인 데이터가 준비 테이블에서 임시로 보유되었다가 대상에 로드된다.

ETL 프로세스 추출 방법

JDBC 기술 이용 / ODBC 기술 이용 / Flat File 생성

 

 

파일 처리 기술

파일 처리 기술의 유형

순차 파일(Sequential File) / 색인 순차 파일(Indexed Sequential File) / 직접 파일(Direct File)

색인 순차 파일(Indexed Sequential File)

  • 레코드의 삽입, 삭제, 갱신이 모두 용이하다.
  • 순차처리와 랜덤처리가 모두 가능하다.
  • 레코드들을 키 값 순으로 정렬시켜 기록한다.

데이터 전환 수행

데이터 전환 절차

  • 현행(AS-IS) 시스템에서 목표(TO-BE) 시스템으로 전환을 위한 단계를 구분한다.
  • 각 단계별 작업 내용과 사용되는 도구를 별도로 기록한다.
  • 원천 데이터베이스의 데이터는 백업하여 스테이징(Staging) 데이터베이스로 복구한 후 정비 및 변환 작업을 수행한다.
  • 데이터 전환이 완료된 후 검증 단계에서는 스테이징 데이터베이스가 아닌 원천 데이터베이스와 비교하여 데이터 오류를 확인해야 한다.

데이터 전환 수행 단계

  1. 요구사항 분석 단계(전환 계획 및 요건정의)
  2. 설계 단계(전환 설계)
  3. 구현 단계(전환 개발)
  4. 테스트 단계(전환 테스트 및 검증)
  5. 데이터 전환 단계

체크리스트(Checklist)

체크리스트는 전환 프로그램의 에러, 시간제약, 비즈니스 로직 변경, 긴급 상황 및 위험요인 대응을 위한 측정 가능한 목록이다.

체크리스트 작성 내용

  • 수행 작업의 상세항목
  • 작업내역
  • 예정 시작/종료 시간
  • 작업자

데이터 정제

데이터 정제 요청서 작성 항목

정제 아이디(ID) / 정제 제목 / 관련 테이블 / 예상 처리건수

데이터 정제 보고서 작성 원칙

정제 아이디(ID) / 정제 건수 / 전환 결과 / 미처리 사유 / 대응 방안

 

데이터 품질 분석

원천데이터의 품질을 검증함으로써 전환의 정확성을 보장할 수 있다.

데이터 품질 요소

데이터 값(Value) / 데이터 구조(Data Hierarchy) / 관리 프로세스(Data Management Process)

원천 데이터 품질 분석

  • 필수 항목의 데이터가 모두 존재하는가?
  • 데이터의 유형이 정확하게 관리되고 있는가?
  • 날짜의 경우 날짜로서 유효한 형태를 가지고 있는가?
  • 금액의 경우 유효한 값의 범위인가?
  • 모든 일자의 시점이 업무 규칙에 위배되지 않고 정확하게 설정되어 있는가?
  • 업무 규칙에 위배되는 잘못된 정보가 존재하는가?
  • 잔액의 총합이 회계 정보와 동일한가?
  • 보고서 값과 실제 데이터 값이 일치하는가?

목적 데이터 품질 분석

  • 특정 기준으로 분류된 데이터가 일치하는가?
  • 보고서 항목 또는 통계 수치는 정확한가?
  • 샘플링 한 목적데이터의 대상 항목이 모두 일치하는가?
  • 특수한 관계가 있는 고객의 추출 데이터는 정확한가?

 

오류 데이터 측정

  • 데이터 품질 기준에 따라 정상 데이터와 오류 데이터를 분리한다.
  • 정량적 측정을 통해 나온 결과를 토대로 오류 관리 목록에 기재한다.

오류 원인 파악 / 정제 여부 결정

구분 지표 설명
심각도 상(High) 데이터 이행을 진행할 수 없게 만드는 오류
중(Middle) 데이터 이행 전반에 영향을 미치는 오류
하(Low) 데이터 이행의 영향을 미치지 않는 오류
상태 열린(Open) 오류가 보고되었지만 아직 분석되지 않은 상태
할당된(Assigned) 수정을 위해 오류를 개발자에게 할당한 상태
수정된(Fixed) 개발자가 오류를 수정한 상태
종료된(Closed) 재 테스트 시 오류가 발견되지 않은 상태
수정된 오류 미 충족 시 오류 상테 'Open'으로 변경
연기된(Deferred) 낮은 우선순위로 오류 순위를 연기한 상태
분류된(Classified) 프로젝트 내 오류가 아니라고 판단된 상태

 


 

 

 

728x90

댓글