본문 바로가기
취미/자격증

[데이터분석 전문가/준전문가] 과목 4 - 2장 - 통계 분석 1

by UltraLowTemp-Physics 2020. 11. 21.
728x90

제 1절 통계학 개론


1. 통계 분석 개요

■ 통계학의 정의 
자료로부터 유용한 정보*를 이끌어 내는 학문 
* 유용한 정보를 이끌어 내는 작업에는 자료의 수집과 정리, 그리고 이를 해석하는 방법 등을 모두 포함

■ 모집단과 표본 
1) 모집단: 우리가 알고자 하는 전체를 의미
   - 모집단은 유한 모집단과 무한 모집단으로 나뉨 
   - 유한 모집단: 유한 개의 개체로 이루어진 모집단 
   - 무한 모집단: 무한 개의 개체로 이루어진 보통 개념적으로 상정된 모집단 
2) 추출단위/원소: 모집단을 구성하는 개체 
3) 표본: 조사하는 모집단의 일부분
4) 모수(parameter): 모집단에 대해 알고자 하는 값 
5) 통계량 (statistic): 모수를 추론하기 위해 구하는 표본의 값
6) 모집단에 조사하는 방법: 총조사(census)와 표본조사

  총조사 표본조사
설명 모집단의 개체 모두를 조사하는 방법 
많은 시간과 비용이 소요
인구주택총조사 등을 제외하곤 실시되지 않음
• 일부만 조사하여 모집단을 추론

■ 표본 추출의 방법 
• 총조사가 아닌 표본조사를 바탕으로 분석한 결과를 사용하거나 이해할 때는 모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 명확하게 밝히거나 확인해야 한다. 
• 표본조사에서 가장 중요한 점: 모집단을 대표할 수 있는 표본 추출 
• 표본 추출을 하는 방법:

표본 추출하는 방법 설명
단순랜덤추출법 • 모집단의 각 개체가 표본으로 선택될 확률이 동일하게 추출되는 경우
계통추출법 • 모집단의 개체에 1,2,3,...,N이라는 일련번호를 부여한 후, 첫 번째 표본을 임의로 선택하고, 일정 간격으로 다음 표본을 선택
집락추출법 • 모집단의 성격에 따라 몇 개의 집단 또는 층으로 나누고, 각 집단 내에서 원하는 크기의 표본을 무작위로 추출  
층화추출법 •  모집단을 특성에 따라 여러 개의 집단으로 나눈다. 이들 집단 중에서 몇 개를 선택한 후, 선택된 집단 내에서 필요한 만큼의 표본을 임의 추출한다. 

• 실험: 특정 목적 하에서 실험 대상에서 처리를 가한 후에 그 결과를 관측해 자료를 수집하는 방법 
• 표본조사와 실험의 차이점: 표본조사는 대상 집단의 일부를 추출해 어떤 현상 또는 조사해 자료를 수집하는 방법 

■ 자료의 종류
• 측정: 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것 
• 측정 방법: 명목 척도, 순서 척도, 구간 척도, 비율 척도

  측정 방법 설명
질적 자료
(Qualitative data)
명목 척도
(nominal scale)
• 측정 대상이 어느 집단에 속하는지 분류할 때 사용하는 척도
• ex) 성별 구분, 출생지 구분
순서 척도
(ordinal scale)
• 측정 대상의 특성이 가지는 서열관계를 관측하는 척도
• 선택사항이 일정한 순서로 되어있음 
• ex) 특정 서비스의 선호도 (아주 좋아한다, 좋아한다, 그저 그렇다, 싫어한다, 아주 싫어한다) 

양적 자료
(Quantitative data)
구간 척도
(interval scale)
• 측정 대상이 갖고 있는 속성의 양을 측정하는 것
• 측정 결과가 숫자로 표현되나 해당 속성이 전혀 없는 상태인 절대적인 원점이 없음
• ex) 온도, 지수

비율 척도
(ratio ratio)
• 절대적 기준인 0 값이 존재하고 모든 사칙연산이 가능하며 제일 많은 정보를 가지고 있는 척도
• ex) 나이, 무게, 연간 소득, 제품 가격

3. 확률 및 확률분포

• 확률 분포: 이산형 확률 분포/연속형 확률 분포 
 1) 이산형 확률분포: 베르누이 확률분포, 이항분포, 기하분포, 다항분포, 포아송분포
 2) 연속형 확률분포: 정규분포, 균일분포, 지수분포, t분포, xhi-square 분포, F-분포

4. 추정과 가설 검정

■ 가설 검정 
•가설검정이란?
   - 모집단에 대한 어떤 가설을 설정한 뒤에 표본 관찰을 통해 그 가설의 채택여부를 결정하는 분석방법 
   - 가설 검정에서 기본적인 사항: 검정하고자 하는 모집단의 모수에 대한 가설 설정 
   - 표본관찰 또는 실험을 통해 귀무 가설과 대립가설 중에 하나를 선택하는 과정 
• 가설: 귀무가설 (Null hypothesis) + 대립가설 (alternative hypothesis) 
   - 가설은 항상 귀무가설과 대립가설로 나뉨 
   - 대립가설: 
    (1) 확실하게 증명하고 싶은 가설 
    (2) 뚜렷한 증거가 있어야 채택할 수 있는 가설 
   - 귀무가설: 대립가설과 반대의 증거를 찾기 위해 정한 가설 
•검정에 사용되는 통계량: 검정통계량(test statistic, T(X)) 
   - 가설 검정은 귀무가설이 옳다는 전제하에서 관측된 검정통계량의 값보다 더 대립가설을 지지하는 값이 나타날 확률을 구하여 귀무가설의 채택여부를 결정함 
   - p-값 (p-value):
    (1) 귀무가설이 사실일 때의 검정통계량의 값보다 더 대립가설을 지지하는 검정통계량이 나올확률
    (2) 기준값인 유의수준 (significance level)보다 작으면, 귀무가설이 나올 가능성이 적다고 판단하여 귀무가설을 기각 
    (3) 유의수준은 일반적으로 0.01, 0.05, 0.1 중 하나의 값을 사용 
• 두가지 오류: 제 1종 오류, 제 2종 오류 

  가설 검정 결과
귀무가설이 사실이라고 판정
가설 검정 결과
귀무 가설이 사실이 아니라고 판정
정확한 사실
귀무가설이 사실
옳은 결정 제 1 종 오류
정확한 사실 
귀무가설이 사실이 아님 
제 2 종 오류 옳은 결정


  

5. 비모수 검정

모집단의 모수에 대한 검정 설명
모수적 방법 
(Parametric method)
• 검정하고자 하는 모집단의 분포에 대한 가정을 함 
• 해당 가정하에서 검정 통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법 
비모수적 방법 • 자료가 추출된 모집단의 분포에 대해 아무런 제약을 가하지 않고 검정을 실시하는 방법 
• 관측된 자료가 특정한 분포를 따른다고 가정할 수 없는 경우 사용 

• 모수적방법과 비모수적 방법의 차이점

차이점 모수적방법 비모수적방법
가설의 설정 가정된 분포의 모수(모평균, 모비율, 모분산,...)에 대한 가설을 설정 • 가정된 분포가 없으므로, 단지, "분포의 형태가 동일하다" 혹은 "분포의 형태가 동일하지 않다"와 같이 분포의 형태에 대해 설정
검정 방법 • 관측된 자료를 이용해 구한 표본 평균, 표본 분산 등을 이용해 검정을 실시 • 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측값 차이의 부호 등을 이용해 검정

•  대표적인 비모수 검정 방법: 
   - 쌍으로 관측된 표본에 대한 부호 검정 (Sign Test)
   - 윌 콕슨의 순위합 검정 (Rank Sum Test)
   - 윌 콕슨의 부호 순위 합 검정 (Signed rank test)
   - 만-휘트니의 U 검정 
   - 런 검정 
   - 스피어만의 순위 상관 계수


제 2 절 기초 통계 분석 


2. 회귀 분석 (Regression Analysis) 

■ 단순회귀분석과 중회귀분석의 개념
• 일반적으로 회귀계수의 추정량을 계산할 때에는 최소제곱추정량(LSE)를 사용함
회귀분석에서 체크를 해야할 사항들

체크할 사항 설명
모형이 통계적으로 유의미한가? F 통계량을 확인
• 유의수준 5%하에서 F 통계량의 p-값이 0.05보다 작으면, 추정된 회귀식은 통계적으로 유의함
회귀계수들이 유의미한가? 해당 계수의 t통계량과 p-값 또는 이들의 신뢰구간을 확인
모형이 얼마나 설명력을 가지는가? 결정계수를 확인
• 결정계수는 0~1 사이의 값을 가지며, 높을 수록 추정된 회귀식의 설명력이 높다. 
모형이 데이터에 잘 적합한가? 잔차를 그래프로 그리고 회귀진단을 함
데이터가 아래의 모형 가정을 만족시키는가? 가정 
(1) 선형성 (독립변수의 변화에 따라 종속 변수도 일정크기로 변화)
(2) 독립성 (잔차와 독립변수의 값이 관련되어있지 않음)
(3) 등분산성 (독립분셔의 모든 값에 대해 오차들의 분산이 일정) 
(4) 비상관성 (관측치들의 잔차들끼리 상관이 없어야 함)
(5) 정상성 (잔차항이 정규분포를 이루어야 함)


■ 최적회귀방정식의 선택: 설명변수의 선택 
 변수를 선택해 회귀모형을 설정해 주는데의 두 가지 원칙 
(1) y에 영향을 미칠 수 있는 모든 설명 변수 x들은 y의 값을 예측하는데 참여 
(2) 데이터에 설명변수 x들의 수가 많아지면 관리하는데 많은 노력이 요구되므로, 가능한 범위 내에서 적은 수의 설명변수를 포함시켜야 함 
• 설명 변수를 선택하는 방식 

방식 설명
모든 가능한 조합의 회귀 분석 • 모든 가능한 독립변수들의 조합에 대한 회귀모형을 고려해 AIC의 기준으로 가장 적합한 회귀 모형을 선택함 
단계적 변수 선택 • 전진선택법 (Forward selection)
: 절편만 있는 상수모형으로부터 시작해, 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
• 후진제거법 (Backward elimination)
: 독립변수 후보 모두를 포함한 모형에서 출발해 제곱합의 기준으로 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 유의하지 않는 변수가 없을 때까지 설명변수들을 제거 
• 단계별방법 (Stepwise method)
: 전진 선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수가 그 중요도가 약화되면 해당변수를 제거하는 방식으로 단계별로 추가 또는 제거되는 변수들을 고려

 


제 3절 다변햘 분석


1. 상관 분석

•상관분석:
  - 데이터 안의 두 변수 간의 관계를 알아 보는 것
  - 두 변수 간의 상관관계를 확인하기 위해서, 상관 계수를 사용함 
• 피어슨 상관계수 (Pearson Correlation)
  - 등간척도 이상으로 측정되는 두 변수들 간의 상관관계를 측정함
  - 두 변수 간의 선형관계의 크기를 측정하는 값으로써, 비선형적인 관계는 나타내지 못함 
  - 피어슨 상관계수 공식 

그림 1. 피어슨 상관계수 공식

    - 피어슨 상관계수는 항상 -1< r < 1 사이이며, X와 Y가 독립이면 0이다.  
스피어만 상관계수 (Spearman Correlation)
  - 서열 척도인 두 변수들의 상관관계를 측정하는데 사용함  
  - 두 변수 간 비선형적인 관계도 나타낼 수 있음 
  - 두 변수를 모두 순위로 변환시킨 후, 두 순위 사이의 피어슨 상관계수로 정의함 

2. 다차원 척도법 

• 다차원 척도법 (MDS): 여러 대상 간의 거리가 주어져있을 때, 대상들을 동일한 상대적 거리를 가진 실수 공간의 점들로 배치하는 것 
    - 관측치들 간의 전반적인 관계에 대한 직관적인 이해를 도와줌 
    - R에서의 함수: cmdscale()

3. 주성분 분석

• 주성분 분석 (PCA):
  - 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환시키는 방법
  - 자료의 차원을 축약시키는데 주로 사용
  - 주성분들의 차원을 줄요 예측 모델을 만들 때 사용함. 
• R에서의 주요 함수: princomp()

728x90

댓글