통계 공부하기

[통계/샘플수,G-power,실제로 적용해보는 논문쓰기]G-power 이용한 연구대상자 수 산출방법

승목이 2016. 8. 24. 22:25

몇명 논문들을 보면 statistics 에서 sample size 를 구한 것을 볼 수 있습니다. 


깔끔하게 그 숫자 언저리에서 필요한 환자 숫자를 제시해서 


그 환자들에 대한 데이터를 보여주고 끝냅니다. 




Limitation 에서 구구절절 sample size 가 적었다느니 하는 말을 할 필요도 없고... 


쓸데없는 밭같이를 근거없이 끊임없이 할 필요도 없습니다. 




30명 정도 되면 대충 정규성을 가질거야 라고 생각하고 (근거는 없는 이야기라고 하네요) 


50명 정도 되면 논문 쓸만하고 


100명 정도 되면 많이 모았네 라고 생각하는게 보통이겠죠? (물론 어떤 논문은 1000명 단위 넘어가죠) 



가끔씩 교수님들이 논문을 주시는데 데이터를 언제까지 모아야 할 지 몇 명까지 모아야 할 지 막막할 때가 있습니다. 


이럴 때 sample 수를 구할 수 있다면 


교수님... 이 정도 숫자를 제시하면 검정력이 이 정도 되니까 이 정도에서 결과 제시해보면 될 것 같습니다. 라고 이야기하기 좋고 


논문 submission 후 revision 할 때도 좋겠지요.... 



통계실에 상담해 본 결과. 너무 많은 데이터를 모으는 것도 데이터의 질을 떨어뜨릴 수 있다는 점에서 단점이라고 하네요. 



어쨌든! 샘플 수 산정은 중요합니다. 



-임상 연구의 설계 단계에서 고려되어야 하는 중요한 사항 하나는 연구대상자 수를 결정하는 것이다. 하지만 사전에 연구대상자 수를 고려하지 않아 연구결과에서 기대하였던 차이를 보이지 못하거나, 임상적으로 의미 있는 차이가 있음에도 검정력이 떨어져 통계적 유의성을 찾아내지 못하는 경우가 많아 이에 대한 고려가 요구된다.- 




<배경 기초 지식>


연구자가 주장하는 바가 어느 한 쪽으로 이루어진다면 단측 검정 (one sided test)

신약의 효과가 더 좋거나 아니면 기존의 약의 효과가 더 좋다 와 같은 주장이라면 양측 검정(two sided test) 


제 1종 오류 type I error, alpha

차이가 없음에도 관측된 값에서 치료효과의 차이가 우연히 나타나면. 

이러한 오류가 일어날 확률의 최대 허용치를 유의수준 (significance level, alpha) 


제 2종 오류 type II error, beta

차이가 있음에도 관측된 차이가 우연히 매우 작은 값이 되어 귀무가설을 기각하지 않는 오류를 범하게 되면. 

검정력 (1-beta)은 귀무가설이 사실이 아닐 때 기각하게 되는 확률로서 연구를 통하여 치료 효과 차이를 입증하는 연구의 능력을 나타내는 값. 


유의수준은 작게. 검정력은 크게 

많은 연구에서 유의수준을 0.05, 0.025, 또는 0.01로 설정 

검정력은 0.8에서 0.95 사이의 값으로 설정 


연구에서 보이고자 하는 특정 수준 또는 최소한의 차이를 정하여 연구대상자 수를 산출 


연속형의 경우 평균과 표준편차, 범주형인 경우 비교하는 각 그룹에서의 비율값을 이용 --> 공식이 있는데 어려워요 굳이 알 필요 없음 


두 그룹간 평균 차이가 클수록, 퍼짐의 정도가 작을수록 그룹간 차이를 판단하기가 어렵지 않다. 

검정력은 평균차이가 클수록, 퍼짐이 작을수록, 표본크기가 클수록 높아진다. 



샘플 수를 구하기 위해 우리가 알아야 할 것은?
 


1)설계방법과 주평가변수가 동일하거나 유사한 다른 연구 결과를 찾아본다. 


2)pilot study 수행하여 미리 통계값을 구해본다. 


3)G-power 를 돌려본다. 


4) G-power 에서 정해진 n 수보다 좀 더 많게 연구설정한다 


5) 내가 시행한 n 수가 보여주는 검정력을 언급해준다! 



저는 회귀분석만 돌려봤네요 나머지 분석은 거기에 맞게 찾아 돌리시면 될 것 같습니다. 


G-power 설명해주는 pdf 도 있더라구요 




G-power 는 무료에요... 다운 받으시면 됩니다. 

이외에도 G-power, PS, R 가능하다고 하고요 

PASS,SAS 도 가능하다고 합니다. 



아래 표는 


회귀분석 pearson 돌렸을때입니다. 


이전 연구에서 r=0.84 로 된거 찾았고 


z-test  -  correlations : Two independent Pearson's test 

A priori : Compute required sample size - given alpha, power, effect size 

Tails : two 양측 검정 


Effect size  에 이전 연구에서 나온 r 값을 넣어줍니다. 

alpha 0.05 

1-beta 0.8 

보통 이렇게 넣어줍니다. 


total sample size 는 52개니까 


각각 26개 data 가 있으면 되겠지요! 


밑에 사진은 effect size 만 다르게 넣었습니다 ㅎㅎ