통계 공부하기

[RCT 통계,집단별 비교,t-test,Mann Whitney U test, Wilcoxon rank-sum test, 카이제곱] 동질집단 사이의 비교

승목이 2016. 7. 3. 22:55

동일한 두 집단 (무작위로 배정된) 에서 비교를 할 때 쓰는 통계는 3가지이다. 


두 집단을 나누는 것은 독립변수! 

이 독립변수 이외에 영향을 미칠 수 있는 다른 변수들 

대표적으로 age, sex, laterality 같은 것들은 교란변수 (confounding variable) 로 

이런 것들이 집단간에 별 차이가 없다는 것, 즉 p>0.05 라는 것을 

t-test 삼총사로 보여준 다움에 

우리가 보려는 독립변수를 t-test 삼총사로 분석해서 P<0.05 임을 보여주면 된다. 


이 삼총사 통계는 t-test 를 기준으로 확장해 나갈 수 있다. 





1) t-test 


Independent t-test

Student's t-test

Independent t-test 



종속변수가 정규분포를 따르는 연속변수이여만 한다 

하려면 정규분포 검사를 하라! n>30 이라고 제외되는 건 아니다. 



2) Mann-Whitney U-test 

Wilcoxon rank-sum test 


종속변수가 연속변수이긴 하지만 정규분포를 따르지 않거나 

(평균이 그 집단을 대표하지 못하는 비모수 통계! 중앙값median 으로 표현하는 경우 많아) 

종속변수가 서열변수인 경우에 쓰인다. 


두 집단이 정규분포를 따르지 않기 때문에 일단 두 집단을 한개의 집단으로 합쳐서 종속변수를 이용해 서열을 매긴다. 

그 다음에 얘네들을 다시 두 집단으로 나눈 다음에 분석하는 방법이다. 이렇게 하면 서열들이 정규분포를 이루나보지? 


score 5개 중에 고르는 것처럼.. WOMAC-PF 한 항목당... 


통계서적에서 대부분 통계학 관련자들은 빅데이터 다루다보니 이런 비모수 검정을 책에서 뒤로 빼서 설명하는 경우가 많아 



3) Chi-square test 

Pearson test : 대표적 

Yates : 이름만 알자 

Fisher's exact  test : 중요! Cochran 법칙에 따라. 기대빈도가 5 미만인 셀이 20% 이상인 경우 피어슨이 아닌 이걸로 해야함 


종속변수가 명목변수인 경우에 쓰인다. 

발생 또는 미발생 등. 


2x2 table 쓰는 경우 많아. 세로축에 독립변수. 가로축에 종속변수 


 

OA + 

OA- 

 prior op +

 a

 b

 prior op -

 c

 d



ad/bc = Odds ratio 오즈비/승산비 

1이면 통계적으로 의미가 없고 1보다 매우 크면 그만큼 독립변수와 종속변수의 관련성이 깊다는 것!