728x90
참고1. 노랑마킹은 시험에 나온 중요한 부분입니다.
참고2. 주황강조는 약어 혹은 중요한 내용입니다.
참고3. 회색마킹은 예시입니다.
제 3과목 데이터베이스 구축 > 데이터 전환 기술
데이터 전환
- 원천의 데이터베이스로부터 목적 데이터베이스를 만드는 활동이다.
- 목적 시스템의 데이터 모델에 적합하게 ETL 활동을 거친다.
- 목적 데이터베이스에 데이터 적재 후 그 결과를 검증한다.
초기 데이터 구축
초기 데이터 구축 전략
초기 데이터 구축 / 데이터 복구 방안 마련 / DB 구축 지침 제시
초기 데이터 구축 절차
구축 전략수립 → 대상파악 → 범위 확정 → 고려사항 도출
ETL(Extraction, Transformation, Loading)
- ETL은 원천 시스템에서 데이터를 추출(Extraction)하여 변환(Transfor-mation) 작업을 거쳐 목적 시스템으로 적재(Load)하는 프로세스이다.
- 조직 내/외부의 여러 소스들로부터 분석을 위한 저장소로 데이터를 이동시키는 일련의 프로세스이다.
ETL 프로세스
- 때때로 시간 절약을 위한 3가지 ETL 단계를 동시에 수행한다.
- 일반적으로 발생하는 데이터 변환에는 필터링, 정렬, 집계, 중복 제거, 유효성, 검증 등의 작업이 포함된다.
- ETL의 변환 작업은 특수한 엔진에서 진행되며, 종종 변환 중인 데이터가 준비 테이블에서 임시로 보유되었다가 대상에 로드된다.
ETL 프로세스 추출 방법
JDBC 기술 이용 / ODBC 기술 이용 / Flat File 생성
파일 처리 기술
파일 처리 기술의 유형
순차 파일(Sequential File) / 색인 순차 파일(Indexed Sequential File) / 직접 파일(Direct File)
색인 순차 파일(Indexed Sequential File)
- 레코드의 삽입, 삭제, 갱신이 모두 용이하다.
- 순차처리와 랜덤처리가 모두 가능하다.
- 레코드들을 키 값 순으로 정렬시켜 기록한다.
데이터 전환 수행
데이터 전환 절차
- 현행(AS-IS) 시스템에서 목표(TO-BE) 시스템으로 전환을 위한 단계를 구분한다.
- 각 단계별 작업 내용과 사용되는 도구를 별도로 기록한다.
- 원천 데이터베이스의 데이터는 백업하여 스테이징(Staging) 데이터베이스로 복구한 후 정비 및 변환 작업을 수행한다.
- 데이터 전환이 완료된 후 검증 단계에서는 스테이징 데이터베이스가 아닌 원천 데이터베이스와 비교하여 데이터 오류를 확인해야 한다.
데이터 전환 수행 단계
- 요구사항 분석 단계(전환 계획 및 요건정의)
- 설계 단계(전환 설계)
- 구현 단계(전환 개발)
- 테스트 단계(전환 테스트 및 검증)
- 데이터 전환 단계
체크리스트(Checklist)
체크리스트는 전환 프로그램의 에러, 시간제약, 비즈니스 로직 변경, 긴급 상황 및 위험요인 대응을 위한 측정 가능한 목록이다.
체크리스트 작성 내용
- 수행 작업의 상세항목
- 작업내역
- 예정 시작/종료 시간
- 작업자
데이터 정제
데이터 정제 요청서 작성 항목
정제 아이디(ID) / 정제 제목 / 관련 테이블 / 예상 처리건수
데이터 정제 보고서 작성 원칙
정제 아이디(ID) / 정제 건수 / 전환 결과 / 미처리 사유 / 대응 방안
데이터 품질 분석
원천데이터의 품질을 검증함으로써 전환의 정확성을 보장할 수 있다.
데이터 품질 요소
데이터 값(Value) / 데이터 구조(Data Hierarchy) / 관리 프로세스(Data Management Process)
원천 데이터 품질 분석
- 필수 항목의 데이터가 모두 존재하는가?
- 데이터의 유형이 정확하게 관리되고 있는가?
- 날짜의 경우 날짜로서 유효한 형태를 가지고 있는가?
- 금액의 경우 유효한 값의 범위인가?
- 모든 일자의 시점이 업무 규칙에 위배되지 않고 정확하게 설정되어 있는가?
- 업무 규칙에 위배되는 잘못된 정보가 존재하는가?
- 잔액의 총합이 회계 정보와 동일한가?
- 보고서 값과 실제 데이터 값이 일치하는가?
목적 데이터 품질 분석
- 특정 기준으로 분류된 데이터가 일치하는가?
- 보고서 항목 또는 통계 수치는 정확한가?
- 샘플링 한 목적데이터의 대상 항목이 모두 일치하는가?
- 특수한 관계가 있는 고객의 추출 데이터는 정확한가?
오류 데이터 측정
- 데이터 품질 기준에 따라 정상 데이터와 오류 데이터를 분리한다.
- 정량적 측정을 통해 나온 결과를 토대로 오류 관리 목록에 기재한다.
오류 원인 파악 / 정제 여부 결정
구분 | 지표 | 설명 |
심각도 | 상(High) | 데이터 이행을 진행할 수 없게 만드는 오류 |
중(Middle) | 데이터 이행 전반에 영향을 미치는 오류 | |
하(Low) | 데이터 이행의 영향을 미치지 않는 오류 | |
상태 | 열린(Open) | 오류가 보고되었지만 아직 분석되지 않은 상태 |
할당된(Assigned) | 수정을 위해 오류를 개발자에게 할당한 상태 | |
수정된(Fixed) | 개발자가 오류를 수정한 상태 | |
종료된(Closed) | 재 테스트 시 오류가 발견되지 않은 상태 수정된 오류 미 충족 시 오류 상테 'Open'으로 변경 |
|
연기된(Deferred) | 낮은 우선순위로 오류 순위를 연기한 상태 | |
분류된(Classified) | 프로젝트 내 오류가 아니라고 판단된 상태 |
728x90
'IT License > 정처기필기-3과목' 카테고리의 다른 글
2024 #정보처리기사 필기요약 #3-4. 물리 데이터베이스 설계 (1) | 2024.07.05 |
---|---|
2024 #정보처리기사 필기요약 #3-3. 논리 데이터베이스 설계 (1) | 2024.07.05 |
2024 #정보처리기사 필기요약 #3-1. SQL 응용, #3-2. SQL 활용 (1) | 2024.07.05 |
댓글