9. 이제 유의수준, 유의확률, 신뢰수준, 신뢰구간을 비교해보자.

반응형

데이터분석을 공부하다보면 용어가 비슷한 것이 너무 많다. 유의수준(significance level)과 유의확률(significance probability)이 그렇고 신뢰수준(confidence level)과 신뢰구간(confidence interval)이 그렇다. 분명 이 용어들은 각각 다른 의미를 갖는다. 하지만 굳이 그것들을 구분할 필요가 있나 싶기도 하다.

컴퓨터 통계 프로그램이 계산해주는 것은 유의확률(p)이다. 그리고 이 유의확률은 영가설이 옳다는 가정 하에 검정통계량이 계산될 확률이다. 즉 영가설이 채택될 확률이다.
그리고 유의확률(p)이 유의수준(α)보다 낮을 때 영가설을 기각한다. 즉, 유의확률(p)은 영가설을 기각할 수 있는 최소한의 유의수준(α)이다. 그리고 일반적인 경우 우리는 이 유의수준(α)을 0.05로 설정하고 있다. 즉 p<α이면 영가설을 기각한다/p<.05이면 영가설을 기각한다.


· 유의수준(α): 영가설 기각을 위해 정해놓은 설정값(비교기준)
· 유의확률(p): 데이터분석을 통해 표본으로부터 구해진 값
· 신뢰수준 = 1-α


한편 신뢰수준은 모집단에서에서 취해진 확률표본을 사용하여 계산된 구간에 모수가 포함될 확률이다. 95% 신뢰수준이라는 말은 표본조사를 100번하면 95번은 같은 결과를 얻게된다는 말이다. 즉 표본집단이 얼마나 믿을만한지에 대한 설명이다.
그리고 결국 유의수준과 신뢰수준을 합하면 1이 된다. 다만 일반적으로 유의수준은 소숫점으로, 신뢰수준은 백분율(%)로 표현한다.

신뢰구간(confidence interval, CI)은 모수가 포함될 것으로 예측되는 범위로, Z점수(Z score, 표준점수) Z점수는 표준점수라고도 하는데, 원수치인 x가 평균에서 얼마나 떨어져 있는지를 나타낸다. 음수이면 평균이하, 양수이면 평균이상이다.

를 이용하여 계산한다. 표본평균(X)과 표본표준편차(s), 표본의 수(n)를 이용해 계산하는 공식은 아래와 같다.

신뢰구간(CI)를 구하는 공식

이때 Z점수는 95% 신뢰수준일 때 1.96, 99% 신뢰수준일 때 2.58로 정해져있다. 그리고 를 오차한계(margin of error)라 하고, 하한값을 LL(lower limit), 상한값을 UL(upper limit)로 표시한다. 신뢰구간(CI)는 LL과 UL사이의 구간을 말한다. 그리고 검정값이 신뢰구간의 범위 안에 있으면 영가설을 채택한다. 즉 검정값은 참이 된다.

신뢰구간의 범위 안에 검정값이 있으면 이는 참이다.



반응형

8. 엄정한 실험설계를 위한 연구자의 노력

반응형

연구를 하는 과정에서 오류가 발생할 가능성은 아주 많다. 극단적인 예로 연구자가 양심을 저버린 채 데이터를 조작한다면, 통계 프로그램은 그 사실을 밝혀낼 수 없다. 굳이 그렇지 않더라도 연구자가 너무 피곤한 나머지 오타를 만들었다면 그 또한 찾아내기가 쉽지 않다. 물론 연구자는 이를 처리하는 방법들을 만들어 내어지만, 근본적으로는 이러한 오류가 생기지 않도록 원천적으로 실험설계를 꼼꼼히 하는 것이 무엇보다 중요하다할 것이다.
연구과정에서 발생할 수 있는 여러 오류들 중 측정의 과정에서 참값과 측정값 간의 차이를 오차(error)라하고 이런 오차에는 다음과 같은 것들이 있을 수 있다.

오차(error)의 구분



반응형

7. 제1종 오류는 왜 일어나는가? 해결방법은?

반응형

제1종 오류: 영가설을 기각하여 발생하는 오류

이런 오류가 발생하는 이유는 여러 가지가 있을 수 있다. 양치기 소년이 일부러 거짓말을 한 것이 아니라면, 늑대와 비슷한 여우나 개를 보고 늑대라고 착각했을 수도 있을 것이다(잘못 조사). 아니면 여기에 늑대는 없는데, 누군가 동물원에 보내기 위해 우리에 가둬 싣고가는 모습을 우연히 보게되었고 이를 늑대가 나타났다고 외치게 되었을 수도 있다.
이런 문제들은 조사를 다시해보면 쉽게 확인할 수 있다. 우리의 연구결과가 유의미하기 위해서는 재현이 가능해야한다. 만일 조사가 잘못되었다거나 우연히 일어난 일이라면 반복되는 실험에서는 다른 결과가 나타날 것이기 때문이다. 또는 표본의 수를 더 크게 하는 것도 방법이 될 수 있다. 우연이 개입될 확률은 그다지 높지 않다. 만일 표본의 수를 충분히 늘린다면, 이런 우연이 개입되어 나타난 결과가 미치는 영향력의 크기가 어느 정도 상쇄될 수도 있을 것이다. 

제1종오류와 제2종오류를 해결하는 방법은 표본의 수를 늘리는 것이다.

다만 이런 실험의 반복이나 표본의 크기를 크게 하는 것은 시간과 비용의 문제 때문에 제한적일 수밖에 없다. 따라서 연구자가 연구설계를 보다 엄정하게 하기 위해 노력해야할 것이다.

반응형

6. 영가설 기각의 의미

반응형

앞서 언급했지만, 다소 익숙치 않은 영가설 기각에 대해 좀더 살펴보자. 일반적으로 가설 채택과 기각이라는 표현을 사용한다. 표현 그대로 가설을 채택한다는 말은 내가 주장하고자 하는 가설이 사실로 입증되었다는 말이며, 가설을 기각한다는 말은 해당 사실을 조사결과를 통해 입증할 수 없었다는 말이다. 이를 가설 검정(檢正, test)이라고 한다.
영가설이 ‘차이가 없다’는 가설이라고 하였다. 따라서 영가설이 기각된다는 말은 ‘차이가 있다’는 결론을 말한다.

p value와 영가설 기각

이때 영가설을 기각할 수 없다는 말이 영가설을 채택한다는 뜻이 아님을 주의해야한다. 때문에 영가설을 기각할 수 없다는 표현을 사용하였다.
한걸음만 더 나아가보자. 영가설이 기각되면, 차이가 있다는 대립가설이 ‘통계적으로 유의미’하다는 결론을 도출하게 된다. 이는 확률적으로 보았을 때 해당결과가 단순한 우연으로 발생되었을 가능성이 희박하다는 뜻이기도 하다.

한편 여러 가지 이유로 우리는 영가설이 참임에도 이를 기각하는 오류를 범하는 경우가 있다. 이를 제1종 오류(Type 1 error)라고 한다. 거짓(僞)양성 또는 알파(α)오류라고도 부른다.
반대로 대립가설이 참인데, 영가설을 채택하는 오류를 제2종 오류(Type 2 error) 또는 베타(β)오류라 부른다.

제1종 오류, 제2종 오류

이를 영가설의 개념으로 다시 구성해보면 다음과 같다.

제1종 오류, 제2종 오류

조금더 쉽게는 『양치기소년』이라는 이솝우화를 들어 설명해 볼 수 있다. 양치기 소년은 늑대가 없음에도 늑대가 나타났다(있다)고 소리쳤다. 즉 실제 상황은 영가설이 참(늑대가 없음)인데, 이를 기각함으로써 오류가 발생했다. 이를 제1종 오류라고 부른다.
통계에서는 가설검정시 이런 제1종 오류를 5% 이내로 설정하는데, 이를 유의수준(significance level, α)이라한다.
혹자는 제1종 오류와 제2종 오류를 비교하면서 어떤 것의 위험성이 더 큰가를 설명하기도 한다. 그리고 의약품 개발을 예를 들어 제1종 오류가 더 위험성이 크다고 주장한다. 하지만 이는 상대적인 것으로 꼭 그리 말할 수 있는 것은 아니다. 또한 제1종 오류를 범할 확률(유의수준, α)을 줄이면 제2종 오류를 범할 확률(β)이 올라가게 된다.

따라서 가설검정을 수행할 때에는 어떤 유형의 오류가 더 심각한 결과를 초래할지 비교·반영하여 유의수준과 검정력을 결정하여야 할 것이다.

반응형

5. 가설의 검정과 유의확률

반응형

앞선 예에서 우리는 “성별(A)에 따른 TV 시청 시간(B)에 평균의 차이가 없다.”는 영가설을 세웠다. 그리고 이 영가설을 검정하기 위해 통계기법을 활용해 데이터를 분석할 것이다. 그러면 그 결과로 ‘통계량’과 ‘유의확률(p)’을 얻게 될 텐데, 우리가 할 일은 이 유의확률로부터 영가설을 기각할 수 있을지 없을지를 결론내리는 일이다.
유의확률은 p 값(p value)라고도 하며, 0∼1 사이의 숫자로 p=.137과 같이 소숫점 셋째 자리까지 표시한다. 
p<.05는 ‘유의확률이 0.05보다 작다’로 읽는다. 풀어 설명해보자면, 성별에 따른 TV 시청시간에는 평균의 차이가 없다(영가설)가 사실이라고 가정할 때, 해당 결과가 나타날 확률이 5%보다 작다는 뜻이다. 바꿔 얘기하면, 차이가 있다는 결과를 얻을 확률이 95%보다 크다가 된다. 

p<.05이면, 영가설을 기각한다.

따라서 영가설은 기각되고, 대립가설이 채택(지지)된다. 즉, TV 시청 시간과 시력 간의 평균 비교에 있어 유의미한 차이가 있다고 결론내리게 된다.
한편, p>.05라면 어떻게 될까? 이때에는 ‘영가설을 기각할 근거가 충분하지 않다’고 말한다. 이때 이것이 영가설을 채택한다고 말하는 것은 아니다. 또한 통계적으로 유의미하지 않았다(nonsignificant)는 것이 무의미하다(insignificant)는 뜻은 아니다. 따라서 표현에 주의해야한다.

반응형