통계 공부하기

[생존분석]Kaplan Meier, Censored data, Log-rank test

승목이 2017. 3. 21. 07:35

이것은 생존이라는 종속변수를 대상으로 하는 카이제곱 분석입니다. 생존율에서 중간 과정은 무시하고 마지막에 누적된 생존을 분석하기 때문에 누적생존율에 대한 분석이라 할 수 있고 이를 통계적으로 생존분석이라고 하지는 않습니다. 


요약하자면 카이제곱 분석이 누적 생존율에 관심을 가지고 있지만 생존분석은 그 과정 중의 생존 곡선에 관심을 갖고 있다는 듯입니다. 


failure 라는 사건이 언제 생긴 것인지까지를 구분하여 분석하려는 것이 바로 생존분석입니다 


샌존분석에서는 사건이 발생한 시간을 중요하게 다루고, 또 중도탈락한 경우도 그 추적 관찰된 시점까지의 시간을 의미있게 반영합니다 (TKRA 에서는 failure 발생 후 종료, 중도탈락한 경우는 최근 외래 f.u 까지하는지. Lee.... were considered to be censored at the time of the latest visit)

그렇기 때문에 생존분석에서는 중도탈락을 잘 체크해야 합니다 


중도탈락자료(censored data)

-추적이 불가능(이사, 연락처 소실)

-중도탈락(환자 거부)

-연구의 종결(failure 발생 전 연구 종결)

-타 원인에 인한 사망 



TKRA 환자에서 노인을 대상으로 하다보니 censored data가 50% 넘는 경우가 자주 있어. 자연사 등의 중도탈락과 내원하지 않아서 탈락된 경우도 동일하게 중도탈락으로 처리되기 때문에 분석에 한계가 있습니다. 그런 경우는 생존 곡선을 그려보면 아무리 해도 기구의 생존율이 좋게 보일 수가 없습니다. 그래서 중도탈락 자료들을 모두 제거하고 추적관찰이 되는 환자만을 대상으로 평가하다보니, 생존률이 90%가 훨씬 넘으면서, 중도탈락표시 (그래프에 +표시)가 없는 보기 힘든 특이한 생존곡선이 나오기도 합니다. 노인환자를 대상으로 event 의 확률이 드문 연구에 대해 장기간의 생존분석을 해야하는 상황에서 생기는 독특한 연구환경이라고 생각이 듭니다. 통계적 의미에서는 생존분석이라고 이름 붙이기가 미안합니다 



Failure 유무 (0,1) + 시간변수 + 독립변수 


카이제곱이나 로지스틱 회귀분석했던 연구를 잘만 조사하면 생존분석까지 겸하여 할 수도 있습니다 

그러기 위한 전제조건! event 뿐 아니라 censored data 에 대한 시점을 항상 잘 체크해야 합니다 


생존곡선을 그리는 방법 - Kaplan Meier 법 , 누적생존률을 추정하는 방법이지 생존분석의 방법은 아님, 두 군이 다르다 이야기는 할 수 없다 


임상 연구자는 Kaplan-Meier method 만 알고 있으면 됩니다. 생명표법은 보험회사처럼 일정 간격의 시간대별로 잘 정리되어 축적된 대규모 자료를 다룰 때 주로 쓰이는 방법입니다 

(Lee 에서 Life table 쓴 이유는? 1100명 분석이라 그런가) 




<생존곡선의 비교>

여러 개 군의 생존 곡선을 각각 그렸다고 할 때, 과연 그 생존 곡선이 다른가 같은가를 검정하는 통계법을 발전


Kaplan Meier 로 그렸다면 서로 다른지 검토하기 위해 사용하는 방법은 로그 순위 검정 (log rank test)


과연 두 곡선이 과연 다른가를 검정하는 것이 관심사이고 세로의 빨간줄이 있는 한 시점에서 관찰하는 것이 카이제곱검정이라고 할 수 있음 

Gehan's generalized Wilcoxon 법도 사용가능 


개념만 잘 이해하고 조사할 때부터 생존분석을 하리라고 생각하고 있다면 정말 쉬운 방법 


**

log-rank test 를 하면서 흔히 저지르기 쉬운 실수. 카이제곱이나 t-test, ANOVA 와도 이어지는 test 인데, 이들 test 에서 두 그룹(혹은 그 이상)이 동질이다, 동일하다는 것을 먼저 보여주여야 합니다. 예를 들어 암의 병기별 1~4기 환자의 생존분석을 하면서 각 군의 나이, 병력, 기타조건이 동일하지 않다면 생존곡선을 비교하는 것이 의미가 적어지겠죠. 그렇지만 1,2,3,4 기에 따라 생존곡선을 보여주는 것은 시각적으로는 도움이 될 듯하고. 정말 1기에 비해 4기가 많이 사망했는가를 통계적으로 보여주고자 할때는 log-rank method 보다는 cox regression 을 나이, 성별, 각종 검사 수치 등 위험요인에 대해 분석하면서 동시에 1기를 기준으로 해서 2,3,4 기의 위험비 (Hazard ratio) 를 구해 본다면, 통계적으로 깔끔한 분석이 되리라....


-- 그렇다면 neutral 군 및 varus, valgus 군도 나누지 말고 HR 로 cox regression 하는것이 옳지 않나요? 또한 제 연구에서는 n + n 를 기준으로 hazard ratio 를 구하는 것이 좋겠습니다 


3 그룹 이상일 때는 카이제곱이나 ANOVA 에서 사후 검정을 했던 것처럼 생존분석에서도 사후검정을 해야 된다 


짧은 기간에 대해서도 (예를 들어 8일) 생존분석을 할 수 있고...흔히 하던 부작용의 빈도 (보통은 카이제곱하는데)도 시간이라는 변수만 추가하면 생존분석으로 활용할 수 있다는 것입니다. 


SPSS 에서 option 에서 one minus survival 을 클릭하면 그래프의 상하가 뒤집히는데 보통 사망에 대한 분석보다는 부작용이 발생하는 것, 사건이 발생하는 것을 표현할 때 이렇게 하면 조금 더 시각적일 수 있죠, 필수적인 것은 아니지만 유용합니다