[REMI-L] REMI 2005; 5 (8): 886. ¿Son correctas nuestras mediciones del APACHE-2?

Revista Electrónica de Medicina Intensiva
Artículo nº 886. Vol 5 nº 8, agosto 2005
Autor: Eduardo Palencia Herrejón

http://remi.uninet.edu/2005/08/REMI0886.htm

¿Son correctas nuestras mediciones del APACHE-2?

Artículo original: Booth FV, Short M, Shorr AF, Arkins N, Bates B, Qualy RL, Levy H. Application of a population-based severity scoring system to individual patients results in frequent misclassification. Crit Care 2005, 9: R522-R529. [Texto completo] [PDF 412 Kb]

Introducción: La puntuación APACHE-2 se encuentra muy extendida para cuantificar la gravedad de los pacientes críticos, y se ha usado para comparar grupos de pacientes y valorar la correspondencia entre los desenlaces esperados (mortalidad hospitalaria) y los que se producen en realidad. Se ha encontrado que en las puntuaciones más altas la mortalidad esperada es mayor que la real. Otra de las aplicaciones que se han propuesto es la de seleccionar grupos de pacientes para realizar en ellos determinadas intervenciones basándose en su puntuación de gravedad.

Resumen: Los autores llevaron a cabo una simulación, preparando tres historias clínicas y entregándoselas a 56 investigadores entrenados para la recogida de datos y el cálculo de la puntuación APACHE-2. Se midió el grado de acuerdo en las puntuaciones otorgadas por los distintos investigadores para cada ítem de la puntuación y para la puntuación total, se calculó el porcentaje de clasificaciones erróneas que se produciría si hubiera que dividir a los pacientes entre más graves (puntuación superior a 24 puntos) y menos graves (puntuación inferior a 25 puntos); se calcularon curvas de distribución teóricas y se aplicaron a una gran base de datos de pacientes con sepsis grave en que se incluía la puntuación APACHE-2. Las puntuaciones APACHE-2 de las tres historias clínicas fueron 19, 22 y 44 puntos. De los 161 puntuaciones calculadas, el 86% fueron erróneas, variando el porcentaje de puntuaciones erróneas para las distintas variables individuales entre el 10% (para la edad) y el 69% (para la puntuación de Glasgow). El porcentaje de pacientes clasificados erróneamente fue del 34% en el caso con puntuación "real" de 19, del 57,7% en el caso con 22 puntos y del 14,3% en el caso con APACHE-2 de 44 puntos. En un registro de más de 5.000 pacientes con sepsis grave, el 50% de los pacientes tenían puntuaciones APACHE-2 entre 17 y 28; dentro de este rango se produciría una muy elevada proporción de clasificaciones incorrectas.

Comentario: El estudio confirma los resultados de estudios previos [1, 2], en que se apreciaba una importante variabilidad en la asignación de puntuaciones APACHE-2 entre distintos observadores; esto resulta en errores de clasificación potencialmente importantes, en especial cuando la clasificación se basa en la división dicotómica a partir de un determinado punto de corte, y sobretodo cuando este punto de corte se encuentra en el rango medio de puntuaciones, donde un pequeño error puede resultar en una clasificación errónea. Así, por ejemplo, si basamos la decisión de administrar proteína C activada a un paciente con sepsis grave en que su puntuación APACHE-2 en las 24 horas previas sea menor de 25 o mayor de 24, tenemos una alta probabilidad de clasificar al enfermo en el grupo equivocado. Otro de los hallazgos del estudio, no discutido por sus autores, es que el porcentaje de puntuaciones erróneas y el margen de error son máximos en la puntuación más elevada, lo que debe tenerse en cuenta al analizar la mala calibración de las puntuaciones de gravedad para los casos más graves. La principal limitación del estudio es la de haberse realizado en un muy reducido número de historias clínicas. Sus principales conclusiones son dos, una práctica y otra más teórica: que no debemos basar decisiones clínicas importantes en criterios rígidos, cuando éstos se basan en mediciones subjetivas o sujetas a error, y que la variabilidad en el cálculo de las puntuaciones de gravedad y sus peculiaridades debe tenerse muy en cuenta a la hora de evaluar la utilidad de los modelos predictivos en el paciente crítico. Es necesario mejorar en el entrenamiento del cálculo de las puntuaciones de gravedad, que debe realizarse con tanta pulcritud como una canulación venosa central, y hay que profundizar en el conocimiento de las causas de variabilidad en su medición, para intentar subsanarlas.

Enlaces:

Polderman KH, Thijs LG, Girbes AR: Interobserver variability in the use of APACHE II scores. Lancet 1999; 353: 380. [Resumen][Texto completo]
Chen LM, Martin CM, Morrison TL, Sibbald WJ: Interobserver variability in data collection of the APACHE II score in teaching and community hospitals. Crit Care Med 1999; 27: 1999-2004. [Resumen][Texto completo]

Palabras clave: APACHE-2, Gravedad, Pacientes críticos.