본문 바로가기
취미/자격증

[데이터분석 전문가/준전문가] 과목 3 - 1 장 - 데이터 분석 기획의 이해

by UltraLowTemp-Physics 2020. 11. 18.
728x90

개인적으로 한국데이터산업진흥원에서 출판한 데이터 분석 전문가 가이드를 읽으면서 정리한 내용입니다


제 1절 분석 기획 방향성 도출


분석 기획이란? 
• 실제 분석을 수행하기 앞서 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업 
• 어떠한 목표(what)를 달성하기 위하여 (why) 어떠한 데이터를 가지고 어떤 방식으로 (How) 수행할 지에 대한 일련의 계획을 수립하는 작업 

1. 분석 기획의 특징

• 빅데이터 분석의 주의점: 데이터를 다루는 특성 때문에, IT 기술 및 분석 기법에 치우치는 경향 
분석을 할 때 필요한 3가지 영역에 대한 고른 시각과 역량 
     (1) 수학/통계학적 지식, (Math $ Statistics)

     (2) 해킹 기술 (IT 기술), (Information Technology)
     (3) 해당 비지니스에 대한 이해와 전문성, (Domain Knowledge)
분석을 기획하는 것:
해당 문제 영역에 대한 전문성 역량 및 수학/통계학적 지식을 활용한 분석역량과 분석의 도구인 데이터 프로그래밍 기술 역량에 대한 균형잡힌 시각을 가지고 방향성 및 계획을 수립해야 함. 

• 분석의 주제 유형 

  분석의 대상이 알려진 경우 분석의 대상을 모르는 경우
분석 방법을 아는 경우 Optimization Insight
분석 방법을 모르는 경우 Solution Discovery 


• 과제 중심적인 접근 방식 vs 장기적인 마스터 플랜 

  당면한 분석 주제의 해결 
(과제 단위)
지속적 분석 문화 내제화 
(마스터 플랜 단위)
1차 목표 Speed & Test Accuracy & Deploy
과제의 유형 Quick-Win Long Term View
접근 방식 Problem Solving Problem Definition

- 문제 해결 (Problem Solving)을 위한 단기적인 접근 방식과 분석 과제 정의 (Problem Definition)을 위한 중장기적인 마스터 플랜 접근 방식은 융합적으로 적용하는 것이 분석기획에서 중요 
- 분석 수행시 분석가에게 요구되는 영역: 
    (1) 분석기술, IT 및 프로그래밍 
    (2) 분석 주제에 대한 도메인 전문성 (Business)
    (3) 의사소통 (Communication) 
    (4) 프로젝트 관리 역량 (Project Management) 

    (5) 리더쉽 역량 (Leadership)

2. 분석 기획 시 고려 사항 

• 분석 기획 시 고려 사항: 가용한 데이터 ,적절한 유스케이스, 분석 과제 수행을 위한 장애요소  

고려사항  설명
데이터에 대한 고려 • 분석을 위한 데이터의 확보가 필수적 
• 데이터의 유형에 따라 적용가능한 솔류선 및 분석 기법이 다르므로, 데이터의 유형에 대한 분석이 선행적으로 이루어져야 함. 
ex) 정형데이터, 비정형데이터*, 반정형데이터** 의 존재 유무 및 유형 파악
유스케이스 탐색 • 분석을 통해 가치가 창출될 수 있는 적절한 활용방안과 활용가능한 유스케이스의 탐색 필요 
- 기존에 잘 구현되어서 활용되고 있는 유사 분석 시나리오 및 솔류선을 최대한 활용 
분석 과제 수행을
위한 장애요소
• 비용 상승에 대한 고려
• 분석가만 이해할 수 있는 형태가 아닌, 사용자가 쉽게 이해할 수 있는 형태로 결과가 사용될 수 있는 방안을 수립 
• 실제 환경에서 발생할 수 있는 문제에 대해 고려 
• 조직의 내제화를 위한 충분하고 지속적인 교육 및 활용방안등을 고려 
  

* 비정형 데이터: e-mail, 보고서, 소셜 미디어 데이터
** 반정형 데이터: 센서를 중심으로 스트리밍 되는 머신 데이터


 

제 2절 분석 방법론


1. 분석 방법론 개요 

 

2. KDD (Knowledge Discovery in Database) 분석 방법론 

• 활용 예제: 데이터 마이닝, 기계 학습, 인공 지능, 패턴 인식, 데이터 시각화 
• KDD에서 데이터에서 패턴을 찾는 9개의 프로세스 

프로세스 순서 설명
데이터셋 선택
(Selection)
•  분석 대상 비지니스 도메인의 이해와 프로젝트의 목표를 설정 
•  분석 대상 데이터 셋 선택과 생성  
데이터 전처리
(Preprocessing)
•  데이터에 포함되어있는 노이즈와 이상값 등을 제거하는 정제작업이나 선처리 
데이터 변환 
(Transformation)
•  분석 목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하는 데이터 변경
•  분석 목적에 맞는 데이터 마이닝 기법 선택
•  분석 목적에 맞는 데이터 마이닝 알고리즘 선택
•  데이터 마이닝 실행
데이터 마이닝 결과 평가
(Interpretation/Evaluation)
•  데이터 마이닝 결과에 대한 해석 
•  데이터 마이닝에서 발견된 지식 활용

 

3. CRISP-DM 분석 방법론 

1) CRISP-DM 의 계층적 프로세스 모델 (4 레벨) 

레벨 설명
1. Phase • 최상위 레벨은 여러 개의 단계(Phases)로 구성 
• 각 Phase는 일반화 테스크 (Generic Task)를 포함
2. Generic Tasks • 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위
3. Specialized Tasks • 일반화 테스크를 구체적으로 수행하는 레벨
ex) 데이터 정제의 일반화 테스크에 포함된 구체화된 세분화 테스크
: 범주형 데이터 정제, 연속형 데이터 정제
4. Process Instance • 데이터 마이닝을 위한 구체적인 실행

2) CRISP-DM의 6단계 프로세스: 각 단계는 폭포수 모델처럼 일방향으로 구성되지 않으며 각 단계 간 피드백을 통해 완성도를 높임

프로세스 설명
1. 업무 이해
(Business Understanding)
• 비지니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계 
• 도메인 지식을 데이터 분석을 위한 문제 정의로 변경 
• 초기 프로젝트 계획을 수립하는 단계 
- 업무 목적 파악 
- 상황 파악 
- 데이터 마이닝 목표 설정 
- 프로젝트 계획 수립 
2. 데이터 이해
(Data Understanding)
• 데이터 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 과정 
• 데이터 품질에 대한 문제점 식별하고 숨겨진 인사이트를 발견하는 단계 
- 초기 데이터 수집
- 데이터 기술 분석
- 데이터 탐색
- 데이터 품질 확인
3. 데이터 준비
(Data Preparation)
• 분석을 위하여 수집된 데이터에서 분석 기법에 적합한 데이터셋을 편성하는 단계
• 많은 시간이 소요될 수 있음
- 분석용 데이터셋 선택
- 데이터 정제
- 분석용 데이터셋 편성
- 데이터 통합
- 데이터 포멧팅
4. 모델링 
(Modeling)
• 다양한 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해나가는 단계
• 테스트용 프로세스와 데이터셋으로 평가하여 모델 과적합 등의 문제를 발견하고 대응방안 마련
- 모델링 기법 선택
- 모델 테스트 계획 설계
- 모델 작성
- 모델 평가
5. 평가
(Evaluation)
• 모델링 단계에서 얻은 모델이 프로젝트의 목적에 부합하는지를 평가
• 데이터 마이닝 결과를 수용할 것인지를 최종적으로 판단하는 과정 
- 분석결과평가
- 모델링 과정 평가
- 모델 적용성 평가
6. 전개
(Development)
• 실업무에 적용하기 위한 계획을 수립하고 모니터링과 모델의 유지보수 계획을 마련 
• 프로젝트 종료 관련 프로세스를 수행하여 프로젝트를 완료
- 전개 계획 수립
- 모니터링과 유지보수 계획 수립
- 프로젝트 종료보고서 작성
- 프로젝트 리뷰

 

4. 빅데이터 분석 방법론

 


제 3절 분석 과제 발굴


  분석의 대상을 알고 있는 경우 분석의 대상을 모르는 경우
분석 방식을 아는 경우 Optimization Insight
분석 방식을 모르는경우 Solution Discovery
과제 도출 방식 ■ Top-Down Approach
- Problem Solving
- 문제가 주어지고 이에 대한 해법을 찾기 위해 각 과정이 체계적으로 단계화되어 수행하는 방식
■ Bottom-Up Approach
- Problem Creation
- 문제의 정의자체가 어려운 경우, 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 방식 

1. 하향식 접근법 (Top Down Approach)

• 하향식 접근법의 데이터 분석 기획 단계

1) Problem Discovery 2) Problem Definition 3) Solution Search 4) Feasibility Study
  •  비지니스 모델 기반 문제 탐색 
  •  외부 사례 기반 문제 탐색
  •  데이터 분석 문제 변환   •  수행 옵션 도출   •  타당성 평가 
  •  과제 선정

1) 문제 탐색 단계 (Problem Discovery) 
- 전체적인 관점의 기준 모델을 활용하여 빠짐없이 문제를 도출하고 식별하는 것이 중요
- 전체적인 관점의 기준의 모델: 비지니스 모델과 외부 참조 모델 

■ 비지니스 모델 기반 문제 탐색
• 기업 내/외부 환경을 포괄하는 비지니스 모델이라는 틀을 활용하여 가치가 창출될 문제를 누락없이 도출할 수 있다. 
• 해당 기업의 사업 모델을 도식화한 비지니스 모델 캔버스의 9가지 블록을 단순화하여 업무 (Operation), 제품 (Product), 고객 (Customer) 단위로 문제를 발굴하고, 이를 관리하는 두 가지의 영역인 규제와 감사 (Adult & Regulation) 영역지원 인프라 (IT & Human resources) 영역에 대한 기회를 추가로 도출하는 작업을 수행 

과제 발굴 설명
업무 - 제품 및 서비스를 생산하기 위해서 운영하는 내부 프로세스 및 주요 자원 관련 주제 도출
제품 - 생산 및 제공하는 제품/서비스를 개선하기 위한 관련 주제 도출
고객 - 제품/서비스를 제공받는 사용자 및 고객
- 이를 제공하는 채널의 관점에서 관련 주제 도출
규제와 감사 - 제품 생산 및 전달과정 프로세스 중에서 발생하는 규제 및 보안의 관점에서 주제 도출
지원 인프라 - 분석을 수행하는 시스템 영역 및 이를 운영/관리하는 인력의 관점에서 주제 도출

• 분석 기회 발굴의 범위 확장 

범위 확장 설명
거시적 관점의 요인 STEEP로 요약되는 사회 (Social), 기술 (Technology), 경제 (Economic), 환경 (Environment), 정치 (Political) 영역으로 나누어 폭넓게 기회를 탐색 
경쟁자 확대 관점 사업 영역의 직접 경쟁사 및 제품/서비스 뿐만 아니라 대체제와 신규 진입자 등으로 관점을 확대하여 위협이 될 수 있는 상황에 대한 분석 기회 발굴의 폭을 넓혀서 탐색
시장 니즈 탐색 현재 수행하고 있는 사업에서의 직접 고객 뿐만 아니라 고객과 접촉하는 역활을 수행하는 채널 및 고객의 구매와 의사결정에 영향을 미치는 영향자들에 대한 폭넓은 관점을 바탕으로 분석 기회를 탐색
역량의 재해석 현재 해당 조직 및 기업이 보유한 역량 뿐만 아니라 해당 조직의 비지니스에 영향을 끼치는 파트너 네트워크를 포함한 활용 가능한 역량을 토대로 폭넓은 분석 기회를 탐색  

 

■ 외부 참조 모델 기반 문제 탐색
• 유사/동종의 환경에서 기존에 수행한 분석과제를 살펴보는 것 
• 유사/동종 사례 벤치마킹을 통한 분석 기회 발굴은 제공되는 산업별. 업무 서비스별 분석 테마 후보 그룹을 통해 "Quick & Easy" 방식으로 필요한 분석 기회가 무엇인지에 대한 아이디어를 얻고 기업에 적용할 분석테마 후보목록을 워크숍 형태의 브레인스토밍을 통해 빠르게 도출하는 방법 
• 데이터 분석을 통한 Insight를 도출하고 업무에 활용하는사례들을 발굴하여 자사의 업종 및 업무 서비스에 적용

■ 분석 유스 케이스 (Analytics Use case) 정의
현재의 비지니스 모델 및 유사/도종사례를 통해서 빠짐없이 도출한 분석 기회들을 구체적인 과제로 만들기에 앞서 분석 유즈 케이스로 표기하는 것이 필요.

2) 문제 정의 단계 (Problem Definition) 
• 문제 해결을 달성하기 위해서 필요한 데이터 및 기법 (How)를 정의하기 위한 데이터 분석의 문제로의 변환을 수행 
ex) 비지니스 문제 '고객 이탈의 증대' → 데이터 문제 '고객의 이탈에 영향을 미치는 요인을 식별하고 이탈 가능성을 예측'
• 데이터 분석 문제의 정의 및 요구사항은 분석을 수행하는 당자자와 해당 문제가 해결되었을 때 효용을 얻는 최종 사용자의 관점에서 이루어져야 함.

3) 해결방안 탐색 (Solution Search)
• 정의된 데이터 분석 문제를 해결하기 위한 다양한 방안 모색 
• 어떤 데이터 또는 어떤 분석 시스템을 사용할 것인지에 따라서 소요되는 예산 및 활용가능한 도구들이 달라지므로 다각도로 고려해야 함
• 해결 방안 탐색 영역 

  분석 역량 확보 분석 역량 미확보
분석 기법 및 시스템: 기존 시스템 기존 시스템 개선 활용 교육 및 채용을 통한 역량 확보
분석 기법 및 시스템: 신규 시스템 시스템 고도화 전문 업체 Sourcing

4) 타당성 검토 단계 (Feasibility Study)

타당성 설명
경제적 타당성 • 비용 대비 편인 분석 관점의 접근 
• 비용 항목: 데이터, 시스템, 인력, 유지보수 
• 편익으로는 분석결과를 적용함으로써 추정되는 실질적 비용 절감, 추가적인 매출 및 수익 등과 같은 경제적 가치로 산출 
데이터 및 기술적 타당성 • 데이터 존재 여부, 분석 시스템 환경, 분석 역량 필요 
• 분석 역량: 실제 프로젝트 수행 시 걸림돌이 되는 경우가 많으므로, 타당성 분석 시 역량 확보 방안을 사전에 수립 
• 비지니스 분석가, 데이터 분석가, 시스템 엔지니어 등과의 협업이 수반 

 

2. 상향식 접근법 (Bottom Up Approach)

상향식 접근법:
   - 경험적인 과거 데이터를 무작정 결합하여 상향식으로 정보 혹은 지식을 얻고자 하는 새로운 분석 패러다임 
   - 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 상향식 접근 방법

■ 기존 하향식 접근법의 한계를 극복하기 위한 분석 방법론
 1) 하향식 접근법의 한계점 
   - 문제의 구조가 분명하고 문제를 해결하고 해결책을 도출하기 위한 데이터가 분석가 및 의사결정자에게 주어져 있음을 가정하고 있기 때문에 솔류션 도출에는 유효하지만, 새로운 문제의 탐색에는 한계가 있음. 
   - 통상적인 관점에서는 분석적으로 사물을 인식하려는 "why"를 강조하지만, 답을 미리 내는 것이 아닌 사물을 그대로 인식하는 "what" 관점에서 보아야 함.
   - 상향식 접근 방식의 데이터 분석: 비지도 학습 (Unsupervised Learning) vs 지도 학습(Supervised Learning)

비지도 학습 지도 학습
• 데이터 분석의 목적이 명확히 정의된 형태의 특정 필드의 값을 구하는 것이 아니라 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터 상태를 표현 
• 목표 값을 사전에 정의하지 않고 데이터 자체만을 가지고 그룹을 도출
•데이터 마이닝 기법: 장바구니 분석, 군집 분석, 기술 통계 및 프로파일링 
ex) 군집화 (Clustering)
• 분류, 추측, 예측, 최적화를 통해 사용자의 주도 하에 분석을 실시하고 지식을 도출하는 것이 목적
• 결과로 도출되는 값에 대해서 사전에 인지하고 어떠한 데이터를 넣을 때 어떠한 결과가 나올지를 예측하는 것
•ex) 분류 (Classification)

  - 인과관계로부터 상관관계로의 이동이 빅데이터 분석에서의 주요 변화 

■ 시행착오를 통한 문제해결
프로토타이핑 접근방법 (Prototyping)
사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해 보고 그 결과를 확인해 가면서 반복적으로 개선해 나가는 방법 
- 비록 완전하지는 못해도 신속하게 해결책이나 모형을 제시함으로써, 이를 바탕으로 문제를 좀 더 명확하게 인식하고 필요한 데이터를 식별하여 구체화 할 수 있는 유용한 상향식 접근 방식 
프로토타이핑의 접근법의 기본적인 프로세스: 가설의 생성, 디자인에 대한 실험, 실제환경에서의 테스트, 테스트 결과에서의 통찰 도출 및 가설 확인 
• 프로토타이핑의 필요성

프로토타이핑의 필요성 설명
문제에 대한 인식 수준 •  문제의 정의가 불명확하거나 이전에 접하지 못하는 문제 
- 프로토타입을 이용하여 문제를 이해하고 이를 바탕으로 문제를 구체화
필요 데이터 존재 여부의 불확실성 •  문제 해결을 위해 필요한 데이터의 집합이 모두 존재하지 않을 때
- 해당 데이터를 어떻게 수집할 것인지, 그 데이터를 다른 데이터로 대체할 것인지에 대한 논의
데이터의 사용 목적의 가변성 •  데이터의 가치는 불변이 아니라 그 가치가 시간에 따라 변함 
- 조직에서 보유한 데이터라도 기존의 데이터 정의를 재검토하여 데이터의 사용 목적과 범위를 확대

 


제 4절 분석 프로젝트 관리 방안


■ 분석 과제의 주요 5가지 특성 주요 관리 영역: Data size, Data Complexity, Speed, Accuracy & Precision, Analytic Complexity

5가지 특성 설명
Data Size • 분석하고자하는 데이터의 양을 고려한 관리 방안 수립이 필요
Data Complexity • 비정형데이터 및 다양한 시스템에 산재되어있는 원천 데이터들을 통합해서 분석 프로젝트를 진행할 때에는, 초기 데이터의 확보와 통합 뿐만 아니라 해당 데이터에 잘 적용될 수 있는 분석 모델의 선정 등에 대한 사전 고려가 필요 
Speed • 분석 결과가 도출되었을 때, 이를 활용하는 시나리오 측면에서의 속도를 고려
Analytic Complexity • 분석 모델이 복잡해질수록 정확도는 올라가지만 해석이 어려워진다는 단점 존재 
• 해석이 가능하면서도 정확도를 올릴 수 있는 최적 모델을 찾는 방안을 사전에 모색 
Accuracy & Precision • Accuracy: 모델과 실제 값 사이의 차이가 적다는 정확도
• Precision: 모델을 지속적으로 반복했을 때의 편차수준으로써 일관적으로 동일한 결과를 제시하는 것을 의미
• 분석의 활용도 측면에서는 Accuracy가, 안정성 측면에서는 Precision이 중요 

1. 분석 프로젝트의 특성

분석가의 역활: 데이터 영역과 비지니스 영역 사이의 조정자 역활  
   -  데이터의 원천을 다루는 데이터 영역과 결과를 활용하는 비지니스 영역의 중간에서 분석 모델을 통한 조율을 수행하는 조정자의 역활이 핵심이 될 것. 
   - 조정자로서의 분석가가 해당 프로젝트의 관리자까지 겸임하는 경우가 대부분이므로, 프로젝트 관리방안에 대한 이해와 주요관리포인트를 사전에 숙지하는 것이 필수적 
• 프로토타이핑 방식의 어자일 (Agile) 프로젝트 관리방식에 대한 고려 필요
   - 데이터 분석의 지속적인 반복 및 개선을 통해 의도했던 결과에 더욱 가까워지는 형태로 프로젝트가 진행되도록 관리 방안 수립 

따라서, 분석과제 정의서를 기반으로 프로젝트를 시작하되 지속적인 개선 및 변경을 염두에 두고 기간 내에 가능한 최선의 결과를 도출할 수 있도록 프로젝트 구성원들과 협업하는 것 

2. 분석 프로젝트 관리 방안

프로젝트 관리지침 내의 프로젝트 관리 체계:
통합 (Integration), 이해관계자 (Stakeholder), 범위 (Scope), 자원 (Resource), 시간 (Time), 원가 (Cost), 리스크 (Risk), 품질 (Quality), 조달 (Procurement), 의사소통 (Communication) 
• 분석 프로젝트 영역별 주요 관리 항목 

관리 영역 분석 프로젝트의 특성 및 주요 관리 항목
범위
(Scope)
• 분석 기획 단계의 프로젝트 범위가 분석을 진행하면서 데이터의 형태와 양 또는 적용되는 모델의 알고리즘에 따라 범위가 빈번하게 변경됨 
• 분석의 최종 결과물이 분석 보고서 형태인지 시스템인지에 따라서 투입되는 자원 및 범위가 크게 변경되므로 사전에 충분한 고려가 필요
시간
(Time)
•  데이터 분석 프로젝트는 초기에 의도했던 결과가 나오기 쉽지 않기 때문에 지속적으로 반복되어 많은 시간이 소요될 수 있음 
•  분석 결과에 대한 품질이 보장된다는 전제로 Time Boxing 기법으로 일정 관리를 진행하는 것이 필요 
원가
(Cost)
•  외부 데이터를 활용한 데이터 분석인 경우, 고가의 비요이 소요될 수 있으므로 사전에 충분한 조사 필요
•  오픈 소스 이외에 프로젝트 수행 시 결과를 달성하기 위해 상용 버전의 도구가 필요할 수 있음
품질
(Quality)
• 결과에 대한 품질 목료를 사전에 수립하여 확정해야 함 
• 프로젝트의 품질은 품질 통제와 품질 보증으로 나누어 수행함 
통합
(Integration)
• 프로젝트 관리 프로세스들이 통합적으로 운영될 수 있도록 관리
조달
(Procurement)
• 프로젝트 목적성에 맞는 외부 소싱을 적절하게 운영할 필요 
• PoC (Proof of Concept) 형태의 프로젝트는 인프라 구매가 아닌 클라우드 등으로 다양한 방안을 검토할 필요 있음 
자원
(Resource)
• 고급 분석 및 빅데이터 아키텍처링을 수행할 수 있는 인력의 공급이 부족하므로 프로젝트 수행 전 전문가 확보 검토 필요
의사소통
(Communication)
• 전문성이 요구되는 데이터 분석의 결과를 모든 프로젝트 이해관계자가 동유할 수 있도록 함 
• 프로젝트의 원활한 진행을 위한 다양한 의사소통체계 마련 필요
이해관계자
(Stakeholder)
• 데이터 분석 프로젝트는 데이터 전문가, 비지니스 전문가, 분석 전문가, 시스템 전문가 등 다양한 전문가가 참여하므로 이해관계자의 식별과 관리가 필요함 
리스크
(Risk)
•  분석에 필요한 데이터 미확보로 분석 프로젝트 진행이 어려울 수 있어 관련 위험을 식별하고 대응방안을 사전에 수립해야 함 
•  데이터 및 분석 알고리즘의 한계로 품질목표를 달성하기 어려울 수 있어 대응 방안을 수립할 필요

 

728x90

댓글