표본이 정규분포(정규성)인지 여부를 어떻게 알 수 있는가?

반응형

표본의 정규분포를 확인하는 방법은 다양하다. 히스토그램과 같은 도표를 보고 추정할 수도 있고, 왜도와 첨도, 또는 정규성 검정을 통해 확인할 수도 있다.


정규성 검정은 표본의 크기에 따라 두 가지로 나뉜다.
첫째, n≥50이면, Kolmogorov-Smirnov(콜모고로프-스미르노프) 검정(ks test)을 통해 확인한다.
둘째, n<50이면, Shapiro-Wilk(샤피로-윌크) 검정을 통해 확인할 수 있다.
검정 결과 p>.05이면, 정규성을 가정한다. 다만 이 두 검정은 매우 엄밀한 검정으로 정규성을 가정하는 경우를 확보하는 것이 쉽지 않다. 


이에 조금 더 유연한 방법이 왜도와 첨도를 확인하는 방법이다. 이와 관련해서는 Kline(클라인)의 책  "Principles and Practice of Structural Equation Modeling(2016)". 4판, 76-77페이지를 살펴보자.


그는 정규성을 확인함에 있어 왜도와 첨도의 절댓값의 해석을 대안으로 제시한다. 하지만 이와 관련하여 명확한 표준이 없으며, Nevitt & Hancock(2000)을 인용하면서 계산을 기반으로 일부의 지침이 제공될 수 있다고 하였다. , 왜도의 절대값이 3보다 크면(|SI| > 3.0) 심각하게 기울어져 있음을 말하고, 첨도에 대해서는 합의가 아직 덜 이루어졌지만 그 절댓값이 8.0~20.0 사이(8.0 < |KI| < 20.0)면 심각한 첨도를 나타낸다고 보았다. 그리고 |왜도|3.0 이고, |첨도|10.0 이면, 그 분포가 심각하게 정규성을 훼손하는 것은 아니다고 결론내린다.

따라서 우리는 |왜도|3.0 이고, |첨도|8.0 이면, 정규분포라고 가정하고 분석을 진행해도 괜찮을 듯하다.

 

한편 West 등(1995)의 논문 "Structural Equation Models With Nonnormal Variables: Problems and Remedies(1995)", 74페이지를 보면, 정규분포를 따르지 않아 다른 분석방법을 사용해야하는 기준의 예로 200개 미만의 소표본인 경우 skewness(왜도) = 2 ; kurtosis(첨도) = 7을 언급하고 있다. 이를 근거로 기준값보다 적으면 정규성을 가정해도 좋다고 해석한다.

 

마지막으로 왜도(SI, Skew Index)와 첨도(KI, Kutosis Index)를 표준오차(s=σ/√n)와의 곱을 통해 상한/하한값을 구하고 그 값이 0을 포함하면 정규성을 가정한다고 보는 방법이다.

왜도와 첨도의 신뢰구간을 통한 정규성 가정

 

왜도 첨도를 활용한 정규성 검정.xlsx
0.34MB

 


데이터분석을 실시하기에 앞서 표본의 정규성을 먼저 확인하는 것이 전제되어야 모수통계 검정을 실시할지 비모수통계 검정을 실시할지를 결정하게 된다.


한편 중심극한정리(central limit theorem, CLT)를 예로 들어 표본의 수(n)가 30 이상이면 정규성을 가정한다는 주장이 있는데, 이는 틀린 표현이다. 중심극한정리는 ‘표본집단’의 수가 증가함에 따라 모집단의 분포가 정규분포에 근접해 가는 현상을 말한다. 즉 표본집단의 수가 판단의 기준이다. 표본의 수를 말하는 것이 아닌데, 이를 오해해 잘못 전하는 경우가 있어 주의가 필요하다. 

 

n≥30이라고, 정규성을 가정하는 것은 아니다.

반응형