Curve di Kaplan-Meier e hazard ratio
Come esporre i risultati “crudi” dello studio in termini di mortalità finale e come confrontare due curve.
Di Renato Luigi Rossi
Ops! Per usare il Centro di Lettura devi prima effettuare il log in!
Password dimenticata?Non hai un account? Registrati
Hai già un account? Log in
Come esporre i risultati “crudi” dello studio in termini di mortalità finale e come confrontare due curve.
Di Renato Luigi Rossi
L’analisi dei dati “crudi” di uno studio non fornisce informazioni su come l’outcome si sia distribuito nel corso del tempo durante il follow-up.
Si supponga uno studio con due gruppi di 1000 pazienti ciascuno in cui vengono confrontati due farmaci diversi: A e B. Il follow-up sia di 5 anni e l’endpoint primario la mortalità. Al termine dello studio si registra una mortalità del tutto uguale per i due gruppi: AR = 10%. In entrambi i casi si può dire che la mortalità è stata del 10% o, il che è lo stesso, che la sopravvivenza è stata del 90% (alla fine dello studio vive il 90% dei soggetti arruolati).
Tuttavia se si va a controllare l’andamento dei decessi nel corso del trial si nota che con il farmaco A i decessi sono stati 10 nel primo anno, 15 nel secondo anno, 20 nel terzo anno, 25 nel quarto anno e 30 nel quinto anno. Invece con il farmaco B i decessi sono stati 15 nel primo anno, 20 nel secondo anno, 25 nel terzo anno, 25 nel quarto anno e 15 nel quinto anno.
Valutando i decessi per anno si ottengono i risultati della seguente tabella.
Farmaco A: 1000 pazienti | Farmaco B: 1000 pazienti | Mortalità espressa come rischio assoluto | |
Decessi 1° anno | 10 | 15 | A vs B = 1% vs 1,5% |
Decessi 2° anno | 15 | 20 | A vs B = 2,5% vs 3,5% |
Decessi 3° anno | 20 | 25 | A vs B = 4,5% vs 6% |
Decessi 4° anno | 25 | 25 | A vs B = 7% vs 8,5% |
Decessi 5° anno | 30 | 15 | A vs B = 10% vs 10% |
La mortalità alla fine dello studio è del 10% in entrambi i gruppi, ma varia a seconda degli anni e fino al 4° anno si mantiene sempre più bassa nel gruppo che assume il farmaco A. Pertanto esporre i risultati “crudi” dello studio in termini di mortalità finale può essere fuorviante perché non tiene conto dei benefici del farmaco A rispetto al farmaco B nel corso di primi 4 anni. Di fronte a questi dati la quasi totalità delle persone preferirebbe assumere il farmaco A perché, almeno per 4 anni, vi è una minore mortalità (o se si preferisce una maggiore sopravvivenza).
Per superare questa distorsione che si può avere valutando solo i dati “crudi” del trial si ricorre alla costruzione della curva di Kaplan-Meier. In questa curva l’asse delle ascisse rappresenta il tempo, quello delle ordinate la sopravvivenza (che all’origine parte naturalmente da 100%). Non si stabilisce un intervallo di tempo a priori per conteggiare gli eventi (per esempio alla fine di ogni anno o di ogni semestre o di ogni mese), ma è il momento in cui avviene l’evento che determina la costruzione della curva stessa e quindi la durata degli intervalli. A ogni intervallo si misura la sopravvivenza. In realtà per ogni intervallo vengono misurate la sopravvivenza istantanea e quella cumulativa, ma per semplicità si ometteranno i particolari del calcolo.
Supponiamo di voler osservare, in una popolazione di infartuati gravi, qual è la sopravvivenza in un periodo di 6 mesi. Al tempo zero la sopravvivenza sarà del 100%. Al 3° giorno si ha il primo decesso, al 4° giorno il secondo decesso, al 10° giorno il terzo decesso, al 20° giorno il quarto decesso e così via fino alla fine del periodo di osservazione. Il primo intervallo sarà compreso tra il tempo zero e il 3° giorno, il secondo intervallo tra il 3° e il 4° giorno, il terzo intervallo tra il 4° e il 10° giorno, ecc. Si ottiene in questo modo una curva a scalini in cui ogni scalino è determinato dalla comparsa di un evento (in questo caso il decesso).
Un esempio di curva di Kaplan-Meier è rappresentato nella figura 1: nell’asse delle ascisse si pone il tempo, nell’asse delle ordinate la sopravvivenza.
Ovviamente nel caso di un trial che confronti due interventi (per esempio due farmaci oppure screening versus non screening) si possono costruire e paragonare due curve di sopravvivenza e controllare quale sia l’intervento più efficace (figura 2 “Confronto tra due curve di sopravvivenza”). La differenza tra le due curve risulta evidente anche visivamente: la curva A ha un andamento più favorevole rispetto alla curva B.
La figura 3 mostra invece il confronto tra due curve (A e B) che alla fine confluiscono. Tuttavia nei tempi intermedi la curva A è nettamente superiore perché permette una sopravvivenza maggiore, come risulta anche ad un semplice esame visivo.
Naturalmente si possono costruire curve di Kaplan-Meier per ogni outcome (per esempio infarti, ictus, interventi di rivascolarizzazione coronarica, fratture femorali, ecc.). Dato che la mortalità è speculare
alla sopravvivenza, volendo si può costruire, al posto della curva di sopravvivenza, una curva di mortalità che avrà sempre una morfologia a scalini ma in salita (mentre nelle curve di sopravvivenza la morfologia a scalini è in discesa).
Negli studi spesso due curve si intersecano tra loro e/o si sovrappongono.
Anche quando sono nettamente distinte l’una dall’altra bisogna poi stabilire se la differenza trovata è statisticamente significativa. A questo scopo si può ricorrere al test dei ranghi logaritmici (logrank test) che però, calcolando il valore della “P”, può solo dire se la differenza è significativa dal punto di vista statistico oppure se non lo è, ma non fornisce informazioni circa l’entità di tale differenza o circa l’intervallo di confidenza.
Più utile si dimostra usare il modello a rischi proporzionali di Cox, una metodologia statistica complessa che per ciascuna curva determina l’hazard rate (generalmente tradotto come tasso). Lo si può, con imprecisione, assimilare al rischio assoluto. Però il tasso tiene conto della distribuzione temporale dell’evento, cosa non possibile con il dato crudo del rischio assoluto. Il calcolo dell’hazard rate può essere difficile da spiegare. Per gli scopi di questo testo si può dire che esprime il grado di inclinazione della curva.
Per confrontare le due curve si calcola l’hazard ratio (HR) che è dato dal rapporto tra i due hazard rate. Per l’HR si può calcolare il relativo intervallo di confidenza al 95% come si fa per l’RR. L’HR rappresenta il tasso di rischio di comparsa di un outcome di un intervento rispetto a un altro considerando il timing di comparsa.
Si ipotizzi un HR <1, per esempio 0,70: si può dire che il tasso di rischio di comparsa dell’outcome con il trattamento rispetto al controllo è ridotto del 30%. Si ipotizzi invece HR >1, per esempio 1,60: in questo caso si può dire che il tasso di rischio di comparsa dell’outcome con il trattamento è aumentato del 60% rispetto al controllo.
Come si vede HR assomiglia per molti aspetti all’RR e spesso le due misure vengono considerate equivalenti. In realtà RR è il rapporto tra due rischi assoluti mentre HR è il rapporto tra due hazard rate: in maniera imprecisa potremmo anche dire che HR è il rischio relativo misurato con il modello di Cox che tiene conto del timing di comparsa dell’outcome.
Il vantaggio dell’HR e del suo IC 95% è intuibile: supera i limiti dei semplici dati bruti dello studio e permette di valutare l’entità dell’efficacia dell’intervento. Il modello a rischi proporzionali di Cox consente anche di confrontare due curve per una variabile a parità di altre variabili che potrebbero interferire. Per esempio si possono confrontare due curve a seconda che il paziente fumi o non fumi a parità di altre variabili (come la presenza di BPCO, di asma o di scompenso cardiaco) che potrebbero influenzare l’outcome considerato.
Nello studio EMPEROR-Reduced [1] sono stati reclutati 3730 pazienti con scompenso cardiaco (classe II-IV) e una frazione di eiezione inferiore o uguale al 40%, trattati con empagliflozin oppure placebo oltre a terapia standard. L’endpoint primario era composto da morte cardiovascolare o ricovero per peggioramento dello scompenso cardiaco. Il follow-up medio era di 16 mesi. L’endpoint primario si è verificato nel 19,4% del gruppo trattato e nel 24,7% del gruppo placebo. L’HR calcolato dagli autori era di 0,75. In questo studio, quindi, l’AR del braccio di intervento era del 19,4% mentre l’AR del braccio placebo era 24,7%. La riduzione assoluta del rischio era del 5,3% e l’NNT pari a 18 (100/5,3). Si noti che l’RR era pari a 0,78 (= 19,4/24,7) che è simile come ordine di grandezza, ma non identico, all’HR riferito dagli autori (0,75).
Lo studio DECLARE-TIMI 58 [2] ha arruolato 17.160 soggetti affetti da diabete tipo 2. Si tratta di uno studio misto, di prevenzione secondaria e primaria. Infatti circa 7000 soggetti avevano avuto un evento cardiovascolare mentre i restanti avevano solo fattori di rischio cardiovascolare ma non precedenti eventi. I partecipanti, oltre alla terapia standard, sono stati trattati con dapagliflozin (10 mg/die) oppure con placebo. L’endpoint primario era di tipo composto e comprendeva i decessi cardiovascolari, l’infarto miocardico e l’ictus ischemico. Il follow-up era di 4,2 anni. Al termine dello studio si è registrato un trend di riduzione dell’endpoint primario a favore del dapagliflozin (8,8% versus 9,4%), che però non raggiungeva la significatività statistica (HR 0,93; IC95% 0,84-1,03). In questo caso l’RR è dato da 8,8/9,4 = 0,93, analogo all’HR calcolato dagli autori. Un endpoint composto da morte cardiovascolare e ospedalizzazioni per scompenso cardiaco risultava ridotto nel gruppo dapagliflozin (4,9% versus 5,8%; HR 0,83; IC95% 0,73-0,95) grazie a una riduzione dei ricoveri per scompenso cardiaco (2,5% versus 3,3%). In questo caso l’RR è di 0,84 (= 4,9/5,8), lievemente superiore all’HR calcolato dagli autori.
Risultava ridotto anche un endpoint renale rappresentato da miglioramento della funzionalità renale, nefropatia terminale o decesso da causa renale o cardiovascolare (4,3% versus 5,6%; HR 0,76; IC95% 0,67-0,87). L’RR è di 0,76 (4,3/5,6), analogo all’HR calcolato dagli autori.
Un’interpretazione rigorosa dello studio deve concludere che non si è riusciti a dimostrare la superiorità dell’intervento perché la riduzione dell’endpoint primario non era statisticamente significativa. I risultati positivi su endpoint secondari dovrebbero essere confermati da ulteriori studi disegnati ad hoc.
Renato Luigi Rossi
Medico di famiglia
Bibliografia
Questo testo è tratto dal libro “Come leggere uno studio clinico” di Renato Luigi Rossi (Roma: Il Pensiero Scientifico Editore, 2021). Per gentile concessione dell’editore.
Intervista a Eugenio Borgna sul confine tra solitudine e isolamento e sul rapporto tra solitudine e malattia
A cura di Maria Teresa Busca
Dal latino "individuus" che significa “indiviso”, alla domanda se e partire da quando l’embrione...
Opportunità evolutiva o segno della frammentazione dei legami sociali? La nota di Michele Ribolsi