Tools, Technologies and Training for Healthcare Laboratories

Una revisión del valor predictivo de las pruebas de laboratorio

Ampliando la lección anterior sobre el estudio de acuerdo clínico, el Dr. Westgard analiza el valor predictivo de una prueba de laboratorio.

Una revisión del valor predictivo de las pruebas de laboratorio

James O. Westgard, Sten A. Westgard
Mayo 2020

En la leccion anterior [1], consideramos el uso del Estudio de Acuerdo Clínico para evaluar el desempeño de una prueba cualitativa. En dicho estudio, la prueba nueva o “candidata” se compara con una prueba “comparativa” para un grupo de pacientes positivos para la enfermedad y otro grupo negativo para la enfermedad. Los resultados se tabulan en una tabla de contingencia 2x2, como se muestra a continuación:

 2020 valor predictivo table 1

TP = Número de resultados donde ambas pruebas son positivas;
FP = Número de resultados donde el método candidato es positivo, pero el comparativo es negativo;
FN = Número de resultados donde el método candidato es negativo, pero el comparativo es positivo;
TN = Número de resultados donde ambos métodos son negativos.

See even more stories about COVID-19 Laboratory Challenges...
covid coverage westgard320x50

 

En esta revisión, estamos usando la terminología Verdaderos positivos (TP), falsos negativos (FN), falsos positivos (FP) y verdaderos negativos (TN) porque nuestro interés es analizar la sensibilidad clínica y la especificidad clínica de una prueba y el Valor predictivo de resultados positivos y negativos.

La sensibilidad clínica (Se) y la especificidad clínica (Sp) se calculan de la siguiente manera:

Sensibilidad clínica = [TP / (TP + FN)] * 100

Especificidad clínica = [TN / (TN + FP)] * 100

Tenga en cuenta que estos términos corresponden al porcentaje de acuerdo positivo (PPA) y porcentaje de acuerdo negativo (PNA) en la leccion anterior “Calculadora web para tabla de contingencia 2x2” La diferencia es que ahora estamos asumiendo que el método comparativo es el "Gold standard" para clasificar correctamente la enfermedad de los pacientes.

Sensibilidad y especificidad aceptables

El CDC (Centers for Disease Control and Prevention) brindan una guía para evaluar el desempeño de las pruebas rápidas en el diagnóstico de influenza, sugiriendo que deben alcanzar una sensibilidad del 80% para la detección de los virus de influenza A y B y recomiendan que deben alcanzar una especificidad del 95% cuando el método comparativo es RT-PCR[2]. También discuten el desempeño esperado de la prueba para condiciones donde la prevalencia de influenza varía de 2.5% (muy bajo), 20% (moderado) y 40% (alto). Los criterios de desempeño son los valores predictivos positivo y negativo de la prueba, es decir, cuál es la probabilidad de que un resultado positivo indique la presencia de enfermedad y cuál es la probabilidad de que un resultado negativo indique la ausencia de enfermedad. Esas condiciones pueden evaluarse calculando el valor predictivo de los resultados de la prueba.

Valor predictivo

Las características de desempeño primarias de una prueba cualitativa son la sensibilidad y la especificidad clínica, pero la utilidad clínica de esta prueba depende de la prevalencia esperada de la enfermedad (Prev) en la población evaluada. Los sujetos en un estudio de acuerdo clínico rara vez representan la población real que se analizará. Por ejemplo, la guía CLSI sugiere incluir 50 muestras positivas de pacientes y 50 negativas para proporcionar estimaciones mínimamente confiables de Se y Sp, que es una tasa de prevalencia de la enfermedad del 50%. ¿Qué pasaría si la prevalencia de la población fuera del 20%, o del 2% o del 0,2%?

Caso con 20% de prevalencia. Por ejemplo, suponga que Se es 80% y Sp es 95%, lo que se consideraría un buen desempeño de acuerdo con la guía del CDC para las pruebas de enfermedades infecciosas. Si evaluó a 1000 sujetos en una población que tenía una prevalencia de enfermedad del 20%, que podría ser representativa a la población de la ciudad de Nueva York durante la pandemia de COVID-19, ¿cómo interpretaría los resultados de la prueba?

En nuestra población objeto, 200 pacientes tienen la enfermedad (20% de 1000), el 80% o 160 de ellos darían resultados positivos (TP = 0,80 * 200) y los otros 40 darían resultados falsos negativos (FN).

Para los 800 negativos (1000-200), el 95% o 760 pacientes (0.95 * 800) darían resultados negativos (TN) y los otros 40 darían resultados positivos (FP).

Con esta información, podemos completar los números en la tabla de contingencia.
Método comparativo “Gold Std”

2020 valor predictivo table 2

La probabilidad de que un paciente con la enfermedad se clasifique correctamente se determina por la relación de TP a la cantidad total de positivos TP + FP, que es 160/200 u 80%, es decir, hay un 80% de posibilidades de que el resultado de la prueba sea positivo. La prueba clasificará correctamente al paciente con la enfermedad.

Valor predictivo positivo = TP / (TP + FP) = 160/200 = 80%

La posibilidad de que un paciente sin la enfermedad se clasifique correctamente se determina por la relación de TN con el número total de negativos TN + FN, que es 760/800, o 95%.

Valor predictivo negativo = TN / (TN + FN)

Caso con 2% de prevalencia.

Ahora considere el caso de una prevalencia de 2.0%, quizás representativa a la población de California.

Para 20 pacientes con enfermedad (2% de 1000), el número de TP sería 0.80 * 20 es 16, lo que deja a 4 pacientes con FN.
Para los 980 pacientes sin enfermedad (1000-20), el número de TN sería 0,95 * 980 o 931, lo que deja 49 FP.

2020 valor predictivo table 3

La posibilidad de que un paciente con la enfermedad se clasifique correctamente está dada por TP / (TP + FP), o 16 / (16 + 49) o 25%.

La posibilidad de que un paciente sin la enfermedad se clasifique correctamente está dada por TN / (TN + FN) o 980 / (980 + 4), o 99.5%.

Esta prueba claramente sería más útil en California para identificar pacientes sin la enfermedad en lugar de identificar pacientes con enfermedad. En Nueva York, sin embargo, una prueba con resultado positivo indica una mayor probabilidad de enfermedad, mientras que un resultado negativo sigue siendo útil para excluir la enfermedad. En California, un sujeto con una prueba positiva tiene aproximadamente un 25% de probabilidad de tener la enfermedad. De cada 10 positivos, 7 a 8 NO tendrán la enfermedad.

Cálculos alternativos

El valor predictivo positivo y negativo se pueden calcular directamente de Se, Sp y Prev utilizando las siguientes ecuaciones:

Valor predictivo positivo = Se * Prev / [(Se * Prev) + (1-Sp) * (1-Prev)]
Valor predictivo negativo= Sp * (1-Prev) / [(1-Se) * Prev + Sp * (1-Prev)]

En estas ecuaciones, Se, Sp y Prev deben ser proporciones entre 0.00 y 1.00. Puede multiplicar las cifras para PVpos y PVneg por 100 para expresarlas como porcentaje, o modificar las ecuaciones sustituyendo 100 por 1 e ingresando Se, Sp y Prev como porcentajes. A muchos les resulta más informativo razonar a través de los pasos para calcular el número de TP, etc., para comprender mejor los efectos de la sensibilidad y la especificidad. Sin embargo, estas fórmulas le permiten crear una hoja de cálculo en Excel y estudiar fácilmente las interacciones de Se, Sp y Prev para optimizar el valor predictivo de las pruebas para diferentes escenarios. Alternativamente, MedCalc [3] proporciona una calculadora en línea que hará todos estos cálculos de la tabla de contingencia y una entrada para la prevalencia.

Compensación entre sensibilidad y especificidad

Es difícil lograr un desempeño perfecto de 100% de sensibilidad y 100% de especificidad para cualquier prueba de diagnóstico. A veces, al ajustar el límite de corte o de decisión entre la población que no padece enfermedad y la población que padece enfermedad, es posible optimizar la sensibilidad o la especificidad. Típicamente, eso implica mejorar la sensibilidad a expensas de la especificidad, o alternativamente mejorar la especificidad a expensas de la sensibilidad.

Optimización del desempeño para la prevalencia

El valor de un resultado positivo de la prueba mejora a medida que aumenta la prevalencia de la enfermedad y aumenta la especificidad. Al aplicar una prueba a pacientes con síntomas de enfermedad, se selecciona una población de mayor prevalencia, lo que debería ser una estrategia valiosa cuando la prueba es limitada y el diagnóstico de la enfermedad es crítico. El aumento de la sensibilidad, quizás mediante el uso paralelo de dos pruebas, también podría ser valioso. Eso significa que un paciente se clasificaría como positivo si cualquiera de las dos pruebas fuera positiva. Se ha sugerido que para el diagnóstico de COVID-19 después de 5 días de síntomas, las pruebas paralelas de la carga viral y las inmunoglobulinas totales pueden mejorar la sensibilidad, es decir, si cualquiera de las pruebas es positiva, el paciente tiene la enfermedad.

La dificultad con la vigilancia

Por otro lado, si se evalúa a los pacientes como parte de la vigilancia epidemiológica, es probable que la prevalencia de la enfermedad sea muy baja. Esta vigilancia podría utilizar pruebas para IgG o IG Total, con el objetivo de identificar a las personas que ya han estado expuestas al virus y con suerte han desarrollado inmunidad.

Si suponemos una prevalencia del 0,20% y analizamos 1000 pacientes, habrá 2 pacientes con enfermedad y 998 sin enfermedad. Si la prueba tiene una sensibilidad ideal de 1.00 o 100%, los dos pacientes con enfermedad se clasificarán como positivos (TP = 2, FN = 0). Si la prueba tiene una especificidad del 95%, habrá 948 TN y 50 FP.

Valor predictivo positivo = TP / (TP + FP) = 2 / (2 + 50) = 3.8%
Valor predictivo negativo = TN / (TN + FN) = 948/948 = 100%

Es casi intuitivo que una prueba con sensibilidad perfecta no sea confiable para identificar sujetos con anticuerpos presentes porque la especificidad (que también es muy alta al 95%) permite tantos falsos positivos. Solo hay un 4% de posibilidades de que una prueba positiva indique que un paciente tiene anticuerpos contra el virus. Por otro lado, un resultado negativo de la prueba seguramente significa que el sujeto no ha estado expuesto al virus. ¡Pero eso no es muy útil si el objetivo de la vigilancia es identificar a aquellos en la población que son potencialmente inmunes a la enfermedad!

Un ejemplo tomado del blog AACC

¿Cuál es el valor de repetir las pruebas de resultados positivos al detectar anticuerpos contra COVID-19? Evidentemente, existe una guía del CDC o la FDA en la que se deben repetir las pruebas de anticuerpos positivos para garantizar su precisión. Las opiniones de los químicos clínicos varían, algunos piensan que esto es un desperdicio de recursos porque no se les pagará por hacer una segunda prueba y algunos creen que realmente no habrá ninguna mejora en la precisión de todos modos.

Debería haber una forma más objetiva de abordar esta cuestión, que fue ilustrada por los Dres. Galen y Gambino en su famoso libro "Más allá de la normalidad" que se publicó en 1975 [4]. Las páginas importantes son 42-44, donde describen un escenario, la Prueba A tiene una Se del 95% y una Sp del 90% y la Prueba B tiene una Se del 80% y una Sp del 95%, y la prevalencia de la enfermedad es del 1,0% . Tenga en cuenta que este ejemplo supone que la prueba A y la prueba B son pruebas independientes, por ejemplo, las pruebas pueden emplear diferentes antígenos sintéticos que presentan diferentes sitios de unión.

El "truco" para hacer los cálculos es comenzar con Prev del 1.0% y determinar los PVpos de la Prueba A, luego usar los PVpos como la prevalencia de la enfermedad al calcular los PVpos para la Prueba B. Recuerde, está volviendo a verificar con la Prueba B todos los positivos observados en la Prueba A, lo que significa que la prevalencia de la enfermedad en esa población repetida es en realidad los PVpos producidos por la Prueba A. En resumen, realiza 2 entradas para calcular el valor predictivo, el primero con una prevalencia inicial de 1.0% y el segundo con los PVpos resultantes como prevalencia para aplicar la prueba B.

El PVpos de la Prueba A es 8.76%. El PVpos de la Prueba B es entonces del 60,6%. Esto significa que 6 de cada 10 pacientes de la prueba repetida (A seguido de B) realmente tendrán la enfermedad, en comparación con solo 1 de cada 10 pacientes de la Prueba A. Interesante, si la estrategia de repetición usó primero la Prueba B y luego la Prueba A, el PVpos final sigue siendo del 60,6%, la prevalencia de la enfermedad en la población repetida sería del 13,9%, por lo que habría menos pacientes que debían volver a analizarse.

Pero, el valor de repetir las pruebas depende de la prevalencia de la enfermedad en la población original de pacientes, y la repetición de las pruebas es más útil para una prevalencia baja que para una alta, como se muestra en la tabla a continuación.

2020 valor predictivo table 4

Nuevamente, la estrategia de prueba para la situación en Nueva York (20%) debería ser diferente de la estrategia para California (2%). Será necesario repetir las pruebas en California, pero no en Nueva York.

¿Cual es el punto?

En resumen, el valor predictivo positivos de una prueba depende principalmente de la especificidad de la prueba, mientras que el valor predictivo negativo depende principalmente de la sensibilidad de la prueba. Esto es contrario a la intuición, pero puede explicarse por los efectos de los resultados Falso positivo y Falso negativo, respectivamente. Cuando Sp es 100%, no hay falsos positivos. Cuando Se es 100%, no hay falsos negativos.

La prueba paralela (Prueba A o Prueba B) es una estrategia para clasificar al paciente como positivo si cualquiera de las pruebas es positiva, lo que mejora la sensibilidad y reduce los resultados falsos negativos. La prueba en serie (Prueba A y Prueba B) es una estrategia para clasificar al paciente como positivo solo si ambas pruebas son positivas, lo que mejora la especificidad y reduce los resultados falsos positivos. También puede haber cuestiones prácticas a considerar, como los costos relativos de las pruebas, el número relativo de pruebas que deben repetirse para la estrategia A o B vs B o A, el tiempo requerido para llegar a una decisión de diagnóstico, etc.

Para agregar a la confusión acerca de las pruebas COVID-19, el objetivo con las pruebas de diagnóstico es identificar a los pacientes con enfermedad, lo que significa que un resultado positivo es una mala noticia, conduce al confinamiento o al tratamiento, mientras que un resultado falso negativo puede conducir a una mayor exposición de la comunidad. Con las pruebas de anticuerpos, un resultado positivo es una buena noticia, lo que significa que el paciente puede haber desarrollado inmunidad, un falso negativo puede confinar a un trabajador sano, pero un falso positivo puede llevar de regreso al lugar de trabajo y una mayor exposición de la comunidad.

¿Qué hacer?

Puede resultarle muy útil crear una calculadora de valor predictivo en una hoja de cálculo de Excel. Use las ecuaciones basadas en Se, Sp y Prev para ingresar estas cifras como proporciones entre 0.0 y 1.0. Si desea resultados en%, configure las ecuaciones usando 100 en lugar de 1 e ingrese Se, Sp y Prev como porcentajes. Le resultará interesante jugar con los valores de Sp y verá su importancia crítica para la vigilancia de la población mediante pruebas de anticuerpos.

Sobre Monica Gisell Diaz Artunduaga

moni giselleEgresada del programa de bacteriología y laboratorio clínico de la Universidad de Boyacá. Máster in Quality in analytical Laboratories universidad de Gdansk y Universidad de Barcelona. Máster en Gestión de calidad y excelencia de las organizaciones Universidad Camilo José Cela Madrid España. Sigma-Metric Quality Manager certificada por Westgard Company, Certificación Six Sigma Green Belt en G&C Lean Sigma, Máster practitioner PNL. Actualmente trabaja como consultora, directora de proyectos de gestión de calidad e implementación Seis Sigma en laboratorios clínicos.

 

References

  1. Westgard JO, Garrett PA, Schilling P. Estimating clinical agreement for a qualitative test: A web calculator for 2x2 contingency test. www.westgard.com/qualitative-test-clinical-agreement.htm
  2. CDC. Rapid diagnostic testing for influenza: Information for clinical laboratory directors. https://www.cdc.gov/flu/professionals/diagnosis/rapidlab.htm
  3. MedCalc. Diagnostic test evaluation calculator. Accessed 4/27/2020. www.medcalc.org/calc/diagnostic_test.php
  4. Galen RS, Gambino SR. Beyond Normality: The Predictive Value and Efficiency of Medical Diagnosis. New York:John Wiley, 1975