본문 바로가기
자격증/ADsP

[ADsP 2과목] 데이터 분석 기획의 이해 정리 part 2 - 분석 방법론(폭포수, 애자일, 나선형 모델/ KDD, CRISP-DM, 빅데이터 분석 방법론)

by Gina Sim 2021. 8. 11.
차례

1. 분석 방법론 생성과정

2. 분석 방법론의 모델
2.1. 폭포수 모델
2.2. 애자일(Agile) 모델
2.3. 프로토타입 모델
2.4. 나선형 모델

3. 방법론의 구성
3.1. 계층적 프로세스 모델

4. 분석 방법론
4.1. KDD
4.2. CRISP-DM
4.3. 빅데이터 분석 방법론
4.4. 방법론 비교

1. 분석 방법론 생성과정

출처 https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=yjhead&logNo=222059021396

구분 의미 특징 상호작용
암묵지 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식 김치 담그기,
자전거 타기
사회적으로 중요하지만 다른 사람에게 공유되기 어려움 내면화, 공통화
형식지 문서나 매뉴얼처럼 형상화된 지식 교과서, 비디오, DB 전달과 공유가 용이함 표출화, 연결화

2. 분석 방법론의 모델

2.1. 폭포수 모델

출처 https://congruentagile.com/2019/10/28/agile-practices/

  • 단계를 순차적으로 진행하는 방법
  • 이전 단계가 완료되어야 다음 단계로 진행될 수 있음
  • 문제점이나 개선사항이 발견될 시 이전 단계로 돌아가는 피드백(feedback) 과정이 수행됨

 

2.2. 애자일(Agile) 모델

출처 https://m.post.naver.com/viewer/postView.nhn?volumeNo=27695616&memberNo=45977335

  • 폭포수 모델과 반대되는 개념으로 탄생
  • 끊임없이 개발하고 수정하는 일을 반복하면서 꾸준히 고객의 반응을 반영
  • 고객이 가장 만족할 수 있는 방향으로 소프트웨어를 개발하는 방법론
  • 주기적으로 제작 프로토타입을 시험해보는 철저한 관리를 통한 개발 방법론

 

2.3. 프로토타입 모델

  • 폭포수 모델의 단점을 보완하기 위해 점진적으로 시스템을 개발해 나가는 접근방식
  • 고객의 요구를 이해하기 위해 일부분을 우선 개발하여 사용자에게 제공
  • 사용자의 요구를 분석한 후 정당성 점검, 성능 평가를 거쳐 개선 작업 시행
  • "정보시스템의 미완성 버전 또는 중요한 기능들이 포함되어 있는 시스템의 초기 모델"

 

2.4. 나선형 모델

출처 https://atoz-develop.tistory.com/entry/%EC%86%8C%ED%94%84%ED%8A%B8%EC%9B%A8%EC%96%B4-%EA%B0%9C%EB%B0%9C-%ED%94%84%EB%A1%9C%EC%84%B8%EC%8A%A4-%EB%82%98%EC%84%A0%ED%98%95-%EB%AA%A8%EB%8D%B8%EA%B3%BC-V-%EB%AA%A8%EB%8D%B8

  • 여러 번의 개발과정을 거쳐 점증적으로 개발
  • 처음 시도하는 프로젝트에 적용 용이
  • 반복에 대한 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 높아져 프로젝트 진행이 어려워 짐

3. 방법론의 구성

3.1. 계층적 프로세스 모델

  • 데이터 분석을 효과적으로 기업에 정착하기 위해서는 체계화하는 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수적임
  • 일반적으로 방법론은 계층적 프로세스 모델의 형태로 구성

출처 https://blog.naver.com/jdhpuppy/221343689820

(1) 단계(Phase)

  • 최상위 계층
  • 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성된다
  • 각 단계는 기준선으로 설정되어 관리되어야 하며, 버전 관리 등을 통하여 통제된다

(2) 태스크(Task)

  • 단계를 구성하는 단위 활동
  • 물리적 또는 논리적 단위로 품질 검토의 항목이 된다

(3) 스탭(Step)

  • 입력자료(Input), 처리 및 도구(Process&Tool), 출력자료(Output)로 구성된 단위 프로세스

 

 

 

4. 분석 방법론

4.1. KDD 분석

  • 데이터 마이닝 프로세스
  • 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조 가짐

 

출처 https://m.blog.naver.com/yjhead/222097700747

(1) 데이터셋 선택(selection)

  • 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정 필수
  • 데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터를 선택
  • 필요한 경우 추가적으로 데이터셋 생성 가능
  • 데이터 마이닝에 필요한 목표 데이터(target data)를 구성하여 분석에 활용

(2) 데이터 전처리(preprocessing)

  • 추출된 분석 대상용 데이터셋에 포함되어 있는 잡음(Noise)과 이상치(Outlier), 결측치(Missing Value)를 식별
  • 필요시 제거하거나 의미 있는 데이터로 재처리하여 데이터셋을 정제

(3) 데이터 변환(Transformation)

  • 분석 목적에 맞게 변수를 생성 및 선택
  • 데이터의 차원을 축소
  • 효율적으로 데이터 마이닝을 할 수 있도록 데이터셋을 변경하는 단계
  • 학습용 데이터(training data)와 검증용 데이터(test data)로 데이터를 분리하는 단계

(4) 데이터 마이닝(Data Mining)

  • 학습용 데이터를 이용하여 분석 목적에 맞는 데이터 마이닝 기법 선택
  • 적절한 알고리즘을 적용하여 데이터 마이닝 작업을 실행 (데이터의 패턴을 찾거나 데이터를 분류 또는 예측 등)
  • 필요에 따라 데이터 전처리와 데이터 변환 프로세스를 추가로 실행하여 최적의 결과를 산출

(5) 데이터 마이닝 결과 평가(Interpretation/ Evaluation)

  • 데이터 마이닝 결과에 대한 해석과 평가
  • 분석 목적과의 일치성 확인
  • 데이터 마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련 단계

 

4.2. CRISP-DM 프로세스

  • 6단계로 구성
  • 단계 간 피드백을 통해 단계별 완성도를 높임 (폭포수 모델처럼 단방향 X)

출처 https://www.2e.co.kr/news/articleView.html?idxno=301010

(1) 업무 이해(Business understanding)

  • 비스니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계
  • 도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립
  • 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립

(2) 데이터 이해(Data understanding)

  • 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계
  • 데이터 품질에 대한 문제점을 식별하고 숨겨진 인사이트를 발견
  • 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인

(3) 데이터 준비(Data preparation)

  • 분석을 위하여 수집된 데이터에서 분석기법에 적합한 데이터셋을 편성하는 단계
  • 많은 시간이 소요될 수 있음
  • 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅

(4) 모델링(Modeling)

  • 다양한 모델링 기법과 알고리즘을 선택
  • 모델링 과정에서 사용되는 파라미터를 최적화해 나감
  • 데이터 셋이 추가로 필요할 경우 데이터 준비단계를 반복 수행 가능
  • 모델링 결과를 테스트용 데이터 셋으로 평가하여 모델의 과적합(Overfitting) 문제 확인하고 대응 방안 마련
  • 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가

+) 파라미터: 프로그램을 실행할 대 명령의 세부적인 동작을 구체적으로 지정하는 숫자나 문자

+) 모델 과적합: 기계학습에서 학습 시 사용하는 데이터 집합을 훈련 데이터 집합으로 학습 데이터를 과하게 학습하는 것

 

(5) 평가(Evaluation)

  • 모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계
  • 데이터 마이닝 결과를 최종적으로 수용할 것인지 판단
  • 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가

(6) 전개(Deployment)

  • 완성된 모델을 실 업무에 적용하기 위한 계획 수립 단계
  • 모니터링과 모델의 유지보수 계획 마련
  • 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰

 

4.3. 빅데이터 분석 방법론

출처 https://post.naver.com/viewer/postView.nhn?volumeNo=27714302&memberNo=22344892

(1) 분석 기획(Planning)

  • 비스니스 도메인과 문제점을 인식
  • 분석 계획 및 프로젝트 수행 계획 수립
  • 프로젝트 위험 계획 수립
  • 빅데이터 분석 프로젝트의 범위를 확정하는 단계

(2) 데이터 준비(Praparing)

  • 비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터 정의 및 준비
  • 프로젝트별로 필요로 하는 데이터를 정의
  • 전사 차원의 데이터 스토어를 준비
  • 데이터 수집 및 정합성 점검

(3) 데이터 분석(Analyzing)

  • 수립된 프로젝트 목표를 달성하기 위해 데이터 분석 프로세스 진행
  • 원천 데이터를 분석용 데이터 셋으로 편성하고 다양한 분석 기법과 알고리즘을 이용하여 데이터를 분석하는 단계
  • 분석 단계를 수행하는 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비 단계로 피드백하여 두 단계를 반복하여 진행한다
  • 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증, 모델 적용 및 운영방안 수립

(4) 시스템 구현(Developing)

  • 분석 기획에 맞는 모델을 도출하고 이를 운영 중인 가동 시스템에 적용
  • 시스템 개발을 위한 사전 검증으로 프로토타입 시스템을 구현한다
  • 설계 및 구현, 시스템 테스트 및 운영

(5) 평가 및 전개(Deploying)

  • 프로젝트의 성과를 평가하고 정리
  • 모델의 발전계획을 수립하여 차기 분석 기획으로 전달
  • 프로젝트 수행 중에서 발생된 모든 중간 산출물을 정하고 프로젝트 종료 보고서를 작성
  • 모델 발전계획 수립, 프로젝트 평가 및 보고

 

4.4. 방법론 비교

분석 방법론 KDD CRISP-DM 빅데이터 분석 방법론
절차/ 프로세스 데이터셋 선택 업무 이해 분석 기획
데이터의 이해 데이터 준비
데이터 전처리 데이터 준비
데이터 변환 모델링 데이터 분석
데이터 마이닝 평가 시스템 구현
데이터 마이닝 결과 평가 전개 평가 및 전개
단계 5단계 6단계 5단계
특징 데이터 마이닝 업무 이해 먼저, 모델링 분석 기획 먼저, 시스템 구현

 

 

 

 

 

반응형

댓글