본문 바로가기
자격증/ADsP

[ADsP 3과목] 통계 분석 정리 part 1 -모집답과 표본, 측정방법(명목척도/ 순서척도/ 구간척도/ 비율척도), 확률분포(이산형 확률변수/ 연속형 확률변수), 추정과 가설검정(귀무가설/ 대립가설)

by Gina Sim 2021. 8. 30.
차례

1. 통계자료 획득 방법
1.1. 전수조사와 표본조사
1.2. 모집단과 표본

1.3. 표본 추출 방법
1.4. 측정

2. 확률
2.1. 정의 및 성질
2.2. 조건부 확률
2.3. 독립사건

3. 확률변수
3.1. 이산형 확률변수
3.2. 연속형 확률변수
3.3. 이산 확률분포 vs 연속 확률분포


4. 통계적 추론
4.1. 확률표본
4.2. 추정(점추정, 구간추정)
4.4. 가설검정 (귀무가설과 대립가설)

5. 모수적 검정과 비모수적 검정
5.1. 모수적 검정
5.2. 비모수적 검정

1. 통계자료 획득 방법

1.1. 전수조사와 표본조사

전수조사 표본조사
  • 집단 전체를 빠짐없이 조사하는 것
  • 많은 비용과 시간이 소요되므로 특별한 경우를 제외하고 사용되지 않는다
  • 집단의 일부만 추출해 조사하는 것
  • 모집단에서 샘플을 추출하여 진행하는 조사
  • 정보를 분석하여 모집단의 성질을 추츨하는데 목적을 둠

 

1.2. 모집단과 표본

출처 https://cruddbdbdeep.github.io/ds/2020/02/04/SNU-statistics1-1.html
출처 https://www.takjakim.kr/24ed963a-83d3-4c33-9cfe-a65bac35a8e0

 

모집단

  • 모집단(population): 조사하고자 하는 대상 집단 전체
  • 모집단의 크기: 모집단에 포함되어 있는 자료의 개수
  • 원소(element): 모집단을 구성하는 개체
  • 모집단의 확률분포: 모집단에서 조사의 대상이 되는 특성을 나타내는 확률변수 X의 확률분포
  • 모평균, 모분산, 모표준편차: 확률변수 X의 평균(m), 분산(σ²), 표준편차(σ)
  • 모수(parameter): 표본 관측에 의해 구하고자 하는 모집단의 특성을 나타내는 값 (평균, 분산, 표준편차, 백분위수 등)

 

표본

  • 표본(sample): 모집단에서 조사하기 위해 추출한 일부 원소
  • 표본의 크기: 표본에 포함된 자료의 개수
  • 표본 평균, 표본 분산, 표본 표준편차: 모집단에서 크기가 n인 표본 X₁, X₂, X₃,..., Xn을 임의 추출할 때, 이들의 평균, 분산, 표준편차를 각각 표본 평균(X바), 표본 분산(S²), 표본 표준편차(S)라 함


1.3. 표본 추출 방법

  • 추출: 표본을 뽑는 것
  • 모집단의 특징이 잘 반영되도록 표본을 추출해야 함
  • 추출되는 표본이 모집단의 한 부분에 편중(biased) 되지 않고 같은 확률로 추출되어야 함

출처 https://databonanza.tistory.com/72

① 단순랜덤 추출법 (simple random sampling)

  • N개의 원소로 구성된 모집단의 각 원소에 번호를 부여한다
  • n개의 번호를 임의로 선택하여 표본으로 추출한다

② 계통추출법 (systematic sampling)

  • 모집단의 각 원소에 번호를 부여하고 나열한다
  • K개씩 n개의 구간으로 나눈다
  • 첫 구간에서 임의의 원소를 하나 선택한다
  • 선택한 원소로부터 K개씩 띄워 표본을 추출한다
  • 즉, 임의의 위치에서 매 k번째 항목을 추출하는 방법이다. 

③ 집락추출법 (cluster random sampling)

  • 모집단이 몇 개의 집락(군집)이 결합된 형태로 구성되어 있고 각 원소들에 번호를 부여할 수 있을 때 이용
  • 모집단의 군집을 구분한다
  • 일부 군집을 랜덤으로 선택한다
  • 선택된 군집 별로 단순랜덤 추출법을 이용해 표본을 추출한다

④ 층화추출법 (stratified random sampling)

  • 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있는 표본을 추출
  • 이질적인 모집단의 원소들을 유사한 것끼리 묶어 몇 개의 층(startum)으로 나눔
  • 각 층에서 계층을 대표할 수 있는 표본을 랜덤 추출

 

1.4. 측정

  • 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻은 것을 말함
  • 질적척도: 범주형 자료, 숫자들의 크기 차이가 계산되지 않는 척도
  • 양적척도: 수치형자료, 숫자들의 크기 차이를 계산할 수 있는 척도
질적척도 명목척도 ㆍ측정 대상이 어느 집단에 속하는지 분류할 때 사용
예) 성별, 출생지 구분
순서척도 ㆍ순서척도=서열척도=순위척도
ㆍ측정 대상의 서열관계를 관측하는 척도
예) 만족도, 선호도, 학년, 신용등급
양적척도 구간척도 ㆍ구간척도=등간척도
ㆍ측정 대상이 가지고 있는 속성의 양을 측정
ㆍ구간이나 구간 사이의 간격이 의미있는 자료
ㆍ측정 결과가 숫자로 표현되며 절대적인 원점이 없음
예) 온도, 지수
비율척도 ㆍ간격(차이)에 대한 비율이 의미를 가지는 자료
절대적 기준인 0값이 존재
사칙연산이 가능
예) 무게, 나이, 시간, 거리 등 숫자로 관측되는 일반적인 자료의 특성

 

 

2. 확률

2.1. 정의 및 성질

용어 정리

  • 시행: 같은 조건 아래에서 반복할 수 있고, 그 결과가 우연에 의하여 결정되는 실험이나 관찰
  • 표본 공간(sample space, Ω): 어떤 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합
  • 사건(event): 표본 공간의 부분집합
  • 원소(element): 나타날 수 있는 개별의 결과들
  • 근원사건: 사건 중 단 한 개의 원소로만 이루어진 사건 (예. 주사위의 각 숫자가 나올 확률)
  • 확률변수(random variable): 특정값이 나타날 가능성이 확률적으로 주어지는 변수

정의

  • 표본 공간(Ω)의 각 근원사건이 일어날 가능성이 같을 때 사건 E가 일어날 확률 P(E)라고 할 때

P(E) = n(E) / n(Ω)

= (사건 E가 일어날 경우의 수) / (일어날 수 있는 모든 경우의 수)

성질

  • 0 ≤ P(E) ≤ 1 : 모든 사건 E의 확률 값은 0과 1 사이에 있음
  • P(Ω) = 1 : 전체 집합의 확률은 1 임 (전체 확률의 합이 1)


2.2. 조건부 확률

  • 확률이 0이 아닌 사건 A에 대하여 사건 A가 일어났다고 가정할 때, 사건 B가 일어날 확률 = 사건 A가 일어났을 때의 사건 B의 조건부 확률 = P(B|A)
  • P(B|A) : A라는 조건하에서 B의 확률; A안에서 B의 비율; A안에서 A∩B의 비율

P(B|A) = P(A∩B) / P(A)

(단, P(A) > 0)


2.3. 독립 사건

  • 두 사건 A, B가 P(A∩B) = P(A)P(B)가 성립하면 서로 독립이라고 함
  • 두 사건 A, B가 독립이라면, P(B|A) = P(B|A여집합) = P(B)
  • 두 사건 A, B에 대하여 사건 A가 일어났는지 여부와 상관없이 사건 B가 일어날 확률에 영향을 주지 않을 때 독립이라고 함

3. 확률변수

  • 특정값이 나타날 가능성이 확률적으로 주어지는 변수
  • 정의역(domain)= 표본 공간, 치역(range)= 실수 값(0 <y <1)인 함수

3.1. 이산형 확률변수

  • 확률질량함수
  • 유한이거나 셀 수 있는 경우
  • 확률이 0보다 큰 값을 갖는 경우
  • 변수가 취할 수 있는 값을 헤아려 열거할 수 있는 경우
베르누이 확률분포
(Bernoulli distribution)
ㆍ결과가 2개만 나오는 경우
예) 동전 던지기, 시험의 합격/ 불합격
예) 야구 선수가 안타를 칠 확률
이항분포
(Binomial distribution)
ㆍ베르누이 시행을 n번 반복 시행했을 때, k번 성공할 확률
ㆍ성공할 확률 p가 0이나 1에 가깝지 않고 n이 충분히 크면 정규분포에 가까워짐
ㆍ성공할 확률 p가 1/2에 가까우면 종모양이 된다
예) 야구 선수가 오늘 경기에서 5번 타석에 들어와 3번 안타를 칠 확률
기하분포
(Geometric distribution)
ㆍ성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률
예) 야구 선수가 오늘 경기에서 5번 타석에 들어와서 3번째 타석에서 안타를 칠 확률
다항분포
(Multinomial distribution)
ㆍ이항분포를 확장한 것
ㆍ세가지 이상의 결과를 가지는 반복시행에서 발생하는 확률분포
포아송분포
(Poisson distribution)
ㆍ시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포
예) 책에 오타가 2page 당 10개씩 나온다고 할 때, 한 페이지에 오타가 3개 나올 확률
예) 야구 선수가 최근 5경기에서 10개의 홈런을 쳤다고 할 때, 오늘 경기에서 홈런을 못 칠 확률

 

3.2. 연속형 확률변수

  • 확률밀도함수
  • 확률변수 x가 특정 범위 안에 있는 모든 실수 값을 취할 때, x를 연속 확률변수라고 함
  • 주어진 실수 구간 내에 속하는 어떠한 실수도 취할 수 있는 경우
균일분포
(Uniform distribution)
ㆍ모든 확률변수 X가 균일한 확률을 가지는 확률분포
정규분포
(Normal distribution)
ㆍ평균이 μ이고 표준편차가 σ인 x의 확률밀도함수
ㆍ표준편차가 클 경우 퍼져보이는 그래프가 나타남
지수분포
(Exponential distribution)
ㆍ어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포
ㆍ사건이 서로 독립적일 때, 다음 사건이 일어날 때까지의 대기시간
예) 전자레인지의 수명시간, 콜센터에 전화가 걸려올 때까지의 시간, 은행에 고객이 내방하는데 걸리는 시간, 정류소에서 버스가 올 때까지의 시간
t-분포
(t-distribution)
두 집단의 평균이 동일한지 알고자 할 때 활용하는 검정통계량
ㆍ표준정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포를 따른다
ㆍ표본이 커져서(30개 이상) 자유도가 증가하면 표준정규분포와 거의 같은 분포가 된다
ㆍ데이터가 연속형일 경우 활용
x²-분포
(chi-square distribution)
ㆍ모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포
두 집단 간의 동질성 검정에 활용된다
예) 범주형 자료에 대해 얻어진 관측값과 기대값의 차이를 보는 적합성 검정에 활용
F-분포
(F-distribution)
두 집단 간 분산의 동일성 검정에 사용되는 검정 통계량 분포
ㆍ확률변수는 항상 양의 값만을 가지고 x²분포와 달리 자유도를 2개 가지고 있음
ㆍ자유도가 커질수록 정규분포에 가까워진다

 

3.3. 이산 확률분포 vs 연속 확률분포

  이산형 확률변수 연속형 확률변수
기대값
E(X)
xf(x) xf(x)dx
k차 적률 (k-th moment)
E(X^k)
x^kf(x) x^kf(x)dx
k차 중심적률 (k-th central moment)
E[(χ - μ)^k]
(x-μ)^kf(x) (x-μ)^kf(x)dx

 

 

4. 통계적 추론

  • 수집된 자료를 바탕으로 모집단에 대하여 추측하거나 판단하여 결론을 이끌어 내는 과정
  • 추정과 가설검정으로 나뉨
  • 통계적 추론을 통해 알고자 하는 대상: 모집단의 확률분포
  • 확률분포의 대상: 평균, 분산, 표준편차 등의 모수(parameter)

출처 https://deverstory.tistory.com/31

4.1. 확률 표본(random sample)

  • 확률분포는 분포를 결정하는 평균, 분산 등의 모수(parameter)를 가지고 있다
  • 특정한 확률분포로부터 독립적으로 반복해 표본을 추출하는 것
  • 각 관찰 값들은 서로 독립적이며 동일한 분포를 갖는다

 

4.2. 추정

  • 표본으로부터 미지의 모수를 추측하는 것
  • 모집단에서 추출한 표본에서 얻은 결과를 이용하여 모집단의 평균, 표준편차 등을 추측

점추정(point estimation)

  • '모수가 특정한 값일 것'이라고 추정
  • 하나의 특정한 값을 택하는 것
  • 그 값을 직접 추정
  • 추정이 얼마나 정확한가를 판단하는 것이 불가능함
  • 표본의 평균, 중위수, 최빈값 등을 사용
  • 예) 표본 평균, 표본 분산
  • 점추정의 조건
불편성(unbiasedness) 모든 가능한 표본에서 얻은 추정량의 기댓값이 모수의 값와 같아야 함
효율성(efficiency) 추정량의 분산이 작을수록 좋다
일치성(consistency) 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아진다
충족성(sufficient) 추정량은 모수에 대하여 모든 정보를 제공한다

구간추정(interval estimation)

  • 점추정의 정확성을 보완하기 위한 방법
  • 일정한 크기의 신뢰 수준으로 모수가 특정한 구간에 있을 것이라고 선언한 것
  • 그 값이 포함되어 있을 범위를 추정하는 것
  • 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰 수준)가 주어져야 함
  • 90%, 95%, 99% 확률을 이용하는 경우가 많음

출처 https://m.blog.naver.com/sky1144/221708434657

 

  • 신뢰도: 표본 평균의 분포로부터 모평균이 포함될 범위를 얻을 때, 그 범위에 모평균이 포함될 확률
  • 신뢰구간: 모평균 m이 존재할 것으로 추정되는 범위
  • 모평균의 신뢰구간: 표본 평균의 분포를 이용하여 모평균 m이 포함될 범위를 추정
  • 예) 모평균 m에 대한 신뢰도 95%의 신뢰구간 => 크기가 n인 표본을 여러 번 추출하여 신뢰구간을 만들 때, 이 신뢰구간 중 95%가 모평균 m을 포함할 것으로 기대된다는 뜻. 즉, 100개의 표본을 추출하여 신뢰구간을 만들 때 그중에서 95개 정도는 모평균 m을 포함한다는 뜻

 

4.3. 가설검정

  • 모집단에 대한 어떤 가설을 설정한 뒤 표본 관찰을 통해 그 가설의 채택 여부를 결정하는 분석방법
  • 가설검정에서는 검정하고자 하는 모집단의 모수에 대한 가설 설정을 가장 기본적인 사항으로 봄
  • 표본 관찰 또는 실험을 통해 귀무가설(H0)과 대립 가설(H1) 중에서 하나를 선택하는 과정
  • 귀무가설이 옳다는 전제 하에 검정 통계량 값을 구한 후, 이 값이 나타날 가능성의 크기에 의해 귀무가설의 채택 여부를 결정한다. 

귀무가설과 대립 가설

귀무가설
(null hypothesis, H0)
대립가설
(alternative hypothesis, H₁)
직점 검정 대상이 되는 가설로, 기각이 목표 귀무가설에 대립되는 가설로, 채택이 목표
  • '비교하는 값과 차이가 없다, 동일하다'를 기본 개념으로 하는 가설
  • 대립 가설과 반대의 증거를 발견하기 위함
  • 귀무가설은 옳다는 가정하에 시작한다
  • True 가능성이 적어 버릴 것이 예상되는 가설
  • 연구자가 입증하려는 주장을 담은 가설
  • 정확하게 증명하고 싶은 가설
  • 뚜렷한 증거가 있을 때 채택할 수 있는 가설
  • 귀무가설이 기각될 때 받아들여지는 가설

검정 통계량, p-value, 유의 수준

검정통계량
(test statistic)
  • 통계적 가설을 검정할 목적으로 사용되는 통계량
  • 관찰된 표본으로부터 구하는 통계량
  • 분포가 가설에서 주어지는 모수에 의존함
  • 검정 시 가설의 진위를 판단하는 수단이 됨
p-value
  • 실제 표본을 기반으로 귀무가설이 참일 확률을 구하는 것
  • α>P 이면 귀무가설 기각으로 대립가설이 채택됨
  • α<P 이면 귀무가설 기각 불가이므로 대립가설이 통계적으로 근거가 없는 것이 됨
유의수준
(significance level, α)
  • 귀무가설(H0)이 옳은데 이를 기각하는 확률의 크기
  • 대게 95%의 신뢰구간에서 α=0.05로 잡음

기각역과 채택역

기각역
  • 검정통계량의 분포에서 유의수준 α의 크기에 해당하는 영역
  • 계산된 검정통계량의 유의성을 판단하는 기준이 됨
  • 귀무가설 기각, 대립가설 채택
채택역
  • 기각역의 여집합

유의성 검정과 유의 확률

  • 유의성 검정은 대립 가설과 귀무가설 중 어느 쪽이 참인지를 판단하기 위해 진행하는 검증 과정
  • p-value가 0.05(유의 수준) 이하이면 귀무가설이 옳지 않은 것으로 봄(귀무가설 기각)
  • 해당 통계치를 95%의 확률(신뢰구간)로 대립 가설이 참이 될 가능성이 더 높다고 할 수 있음

제1종 오류와 제2종 오류

  • 제1종 오류: 귀무가설(H0)이 옳은데도 귀무가설(H0)을 기각하는 오류
  • 제2종 오류: 귀무가설(H0)이 옳지 않은데도 귀무가설(H0)을 채택하는 오류

 

 

반응형

댓글