통계 공부하기

[재현성 검사] ICC(연속), Cohen's kappa(명목,2명), Fleiss kappa(명목, 여러검사자), Weighted kappa, Kendall W (서열)

승목이 2017. 4. 23. 22:37

재현성 검사  ICC(연속), Cohen's kappa(명목,2명), Fleiss kappa(명목, 여러검사자), Weighted kappa, Kendall W (서열)





재현성 검사

Analyze-Scale-Reliability Analysis

ICC(intraclass correlation coefficient; 급간 상관계수)

관찰자내(intra-rater), 관찰자간(inter-rater) 재현성 검사(reliability)

연속변수인 경우

관찰자내 동일한 사람이 다시 검사

관찰자간 한 사람이 검사하고, 다른 사람이 검사한다면

상관분석은 직선인가. ICC y=x 인가를 물어보는 것

SPSS –reliability –

2 way mixed(검사자 k 명이서 무작위로 선택된 환자나 연구집단을 대상으로 연구하는것),

consistency(일관성)

è  위의 두개 선택

Absolute agreement(절대합치도)

Single measures (intra-rater, 관찰자내)

Average measures (inter-rater, 관찰자간) –single 보다는 항상 크다

 

ICC 해석

0.4 이하 – porr

0.4-0.75 – fair to good

0.75 이상시 excellent

 

Cohen’s kappa

재현성 검사에서 명목변수인 경우

혈액형을 두 명이 검사한다거나 척추측만증 5가지 유형을 두 사람의 의사가 분류한다거나

얼마나 일치하는지.. 그게 바로 kappa

Landis and Koch kappa 값 분류

0 : poor

0.01-0.2 : slight

0.21-0.40 : fair

0.41-0.60 : moderate

0.61-0.80 : substantial

0.81-1 : almost perfect

- Landis 1977 Biometrics The measurement of observer agreement for categorical data.

 

샘플 자체가 어느 정도 골고루 분포된 경우를 두고 검사를 해서 kappa 값을 구해야함

아니면 expected 값 자체가 워낙 크게 나오기 때문에 어떻게 해도 kappa값이 커지지 않게 됨

이런 재현성 검사를 시행하는 것도 모두 샘플 사이즈를 계산하고, 양성과 음성이 골고루 배치된 조작된? 샘플을 가지고 검사하는 것이 더 마땅하나, 실제로는 그렇게 하기가 쉽지는 않아.

Comparison of two dependent within subject coefficients of variation to evaluate the reproducibility of measurement devices

 

Department.obg.cuhk.edu.hk/researchsupport/Kappa.asp

엑셀에서 자료를 변환해주어야 합니다. A를 준 검사자가 3, B를 준 검사자가 1, C를 준 검사자가 0 명이면 3,1,0 으로 입력해줘야

 

Cohen’s kappa 의 경우에는 두 검사자의 경우에만 (SPSS?)

Fleiss kappa 의 경우에는 여러 검사자에서 가능 (dBSTAT?)

 

기본적으로 kappa는 혈액형이라든지 병이 있다/없다 등의 명목변수를 다루는 것

간혹 서열변수에 kappa를 사용한 논문이 많이 발견되는데 그것은 조금 문제의 소지가 있음

한 단계를 틀린 것과 두단계를 틀린 것은 다르기 때문

이를 위해 weighted kappa 를 사용해야 된다. 또 다른 서열변수의 재현성을 다룰 수 있는 하나가 Kendall’s W (Nonparametric tests- K related samples-Kendall’s W – 여러 명의 검사자에서도 가능)

Weighted kappa SPSSdBSTAT 에는 안 나오지만 MedCalc에는 나옴. Kappa는 세 프로그램 모두에서 잘 된다

Weighted kappaMedCalc 에서  두 명의 검사자만 비교가 가능

Altman, 1991

0.01-0.2 : poor

0.21-0.40 : fair

0.41-0.60 : moderate

0.61-0.80 : good

0.81-1 : very good

 

è  공통적으로 동일한 환자에 대해서 동일한 검사법을 사용하는 것. 검사의 단위도 동일