¿La inteligencia artificial (IA) es mejor que los humanos para el diagnóstico de la degeneración macular exudativa asociada a la edad?

Mensajes clave

• En comparación con las personas expertas, las pruebas basadas en inteligencia artificial (IA) podrían ser comparables en exactitud para detectar la forma exudativa (o húmeda) de la degeneración macular senil (DMSe) o asociada la edad.

• No hubo diferencias significativas en el rendimiento con independencia de las otras afecciones oculares en el conjunto de datos de imágenes o los tipos de imágenes utilizados.

• Se necesitan más estudios de investigación e informes consistentes para definir la función de la IA en el diagnóstico de la DMSe.

¿Qué es la degeneración macular senil?
La mácula es la parte central de la retina, que se encuentra en la parte posterior del ojo. A medida que las personas envejecen, las células de la mácula se mueren o se dañan, lo cual dificulta una visión clara. La degeneración macular senil (DMS) es una enfermedad ocular habitual que puede empeorar a DMS húmeda (exudativa) (DMSe), que reduce la visión del centro del ojo por el crecimiento de vasos sanguíneos anómalos. El diagnóstico exacto de la DMSe es importante porque permite que los pacientes reciban tratamiento de un especialista de la retina. Los métodos tradicionales de diagnóstico de la DMSe dependen del especialista en salud ocular y de varias técnicas de diagnóstico por la imagen, que pueden consumir tiempo y recursos. Las pruebas que utilizan inteligencia artificial (IA) prometen identificar la DMSe automáticamente. Esto podría ayudar a que a más personas con DMS se les revisen los ojos y reciban un diagnóstico y tratamiento a tiempo.

¿Cómo puede ayudar la IA?
La IA es una rama de la informática cuyo objetivo es realizar tareas que tradicionalmente han requerido la inteligencia humana. Se han desarrollado aplicaciones de IA para examinar imágenes del ojo y se han entrenado para escoger las que podrían mostrar signos de DMSe. Así, puede derivarse a los pacientes al tratamiento a tiempo y liberar al especialistas de hacer pruebas que requieren tiempo.

¿Qué se quiso averiguar?
Se quiso saber la exactitud de las pruebas de IA en comparación con personas expertas en diagnóstico de DMSe a partir de imágenes del ojo.

¿Qué se hizo?
Se buscaron estudios en cualquier parte del mundo que compararan el rendimiento diagnóstico de las pruebas de IA con el de los expertos interpretando imágenes del ojo para diagnosticar la DMSe. Las imágenes podrían ser de pacientes atendidos en una clínica o un centro médico académico o de una base de datos de imágenes. Los resultados de interpretación con IA se compararon con los de los expertos que revisaron las imágenes antes de las pruebas de IA.

¿Qué se encontró?
Se encontraron 36 estudios con más 16 000 personas y 62 000 imágenes, que informaron sobre los resultados de 41 pruebas de IA distintas. Más de la mitad de los estudios se realizaron en Asia, seguidos de Europa, Estados Unidos y colaboraciones multinacionales. De media, el 33% de las personas de los estudios tenían DMSe.

Para las tres pruebas de IA evaluadas con datos nuevos más allá de las imágenes de entrenamiento, si se aplicaran para detectar la DMSe en 10 000 personas (incluidos 100 que tenían realmente DMSe), las pruebas de IA identificarían incorrectamente a unas 99 personas con DMSe (falsos positivos) y pasarían por alto aproximadamente 6 casos (falsos negativos).

Para las 28 pruebas de IA evaluadas solo con datos de entrenamiento, utilizando el mismo escenario, las pruebas de IA identificarían incorrectamente a unas 396 personas con DMSe (falsos positivos) y pasarían por alto aproximadamente 7 casos (falsos negativos).

Las pruebas de IA mostraron un rendimiento similar al de los expertos humanos, tanto si se evaluaron con imágenes del conjunto de entrenamiento o de un nuevo conjunto de datos. El rendimiento fue similar en todos los conjuntos de datos de imágenes de la DMSe y los distintos grupos control o tipos de imágenes.

¿Cuáles son las limitaciones de la evidencia?
La mayoría de los estudios incluidos presentaron deficiencias en la selección, el entrenamiento o la evaluación de las pruebas de IA. Estas deficiencias de los estudios podrían haber hecho que los resultados de la prueba parezcan mejores de lo que eran. En consecuencia, la confianza en la exactitud de los resultados de la prueba fue baja. Los estudios futuros deben reclutar participantes cuya edad y gravedad de la enfermedad reflejen las condiciones del mundo real.

¿Cuál es el grado de actualización de esta evidencia?
La evidencia está actualizada hasta abril de 2024.

Leer el resumen científico

Antecedentes

La degeneración macular senil (DMS) es un trastorno de la retina caracterizado por daño retiniano central (macular). Alrededor de entre el 10% y el 20% de los casos de DMS no exudativa progresan a la forma exudativa, lo que puede dar lugar a un deterioro rápido de la visión central. Las personas con DMS exudativa (DMSe) precisan de una consulta inmediata con especialistas en retina para minimizar el riesgo y el grado de pérdida de visión. Los métodos tradicionales de diagnóstico de la enfermedad oftálmica se basan en la evaluación clínica y en varias técnicas de diagnóstico por la imagen, que pueden consumir muchos recursos. Las pruebas que aprovechan la inteligencia artificial (IA) prometen identificar y categorizar automáticamente las características patológicas, lo que permite el diagnóstico y el tratamiento oportunos de la DMSe.

Objetivos

Determinar la exactitud diagnóstica de la inteligencia artificial (IA) como herramienta de cribado de la degeneración macular senil exudativa (DMSe).

Métodos de búsqueda

Se realizaron búsquedas en CENTRAL, MEDLINE, Embase, tres registros de ensayos clínicos y Data Archiving and Networked Services (DANS) para obtener literatura gris. Las búsquedas no se restringieron por idioma ni fecha de publicación. La fecha de la última búsqueda fue abril de 2024.

Criterios de selección

Los estudios incluidos compararon el rendimiento de los algoritmos con el de los lectores humanos para detectar la DMSe en las imágenes retinianas obtenidas de personas con DMS evaluadas en consultas oftalmológicas de centros médicos de la comunidad o académicos y que no recibían tratamiento para la DMSe cuando se tomaron las imágenes. Se incluyeron algoritmos validados interna o externamente, o de ambas formas.

Obtención y análisis de los datos

Autores de la revisión por parejas extrajeron los datos de forma independiente y evaluaron la calidad del estudio mediante la herramienta Quality Assessment of Diagnostic Accuracy Studies 2 (QUADAS-2) con preguntas corregidas. En los estudios que informaron sobre más de un conjunto de resultado de rendimiento, solo se extrajo un conjunto de datos de exactitud diagnóstica por estudio, según la última etapa de desarrollo o el algoritmo óptimo indicado por los autores de los estudios. En los algoritmos de dos clases, se recopilaron los datos de la tabla 2x2 cuando fue posible. En los algoritmos multiclase, se combinaron primero los datos de todas las clases que no eran DMSe antes de formar las tablas 2x2 correspondientes. Suponiendo un umbral de positividad común aplicado por los estudios incluidos, se eligieron modelos logísticos bivariantes de efectos aleatorios para calcular la sensibilidad y la especificidad globales como las principales medidas de rendimiento.

Resultados principales

Se identificaron 36 estudios elegibles que informaron sobre 40 conjuntos de datos de rendimiento del algoritmo, que incluyeron más de 16 000 participantes y 62 000 imágenes. Se incluyeron 28 estudios (78%) que informaron sobre 31 algoritmos con datos de rendimiento en el metanálisis. Los nueve estudios restantes (25%) informaron sobre ocho algoritmos que carecían de datos de rendimiento utilizables; estos estudios se informaron en la síntesis cualitativa.

Características de los estudios y riesgo de sesgo

La mayoría de estudios se llevaron a cabo en Asia, seguido de Europa, Estados Unidos y esfuerzos colaborativos de varios países. La mayoría de los estudios identificó a los participantes del estudio en el ámbito hospitalario, mientras que otros utilizaron imágenes de la retina de repositorios públicos; unos pocos estudios no especificaron las fuentes de las imágenes. De acuerdo con 4 de los 36 estudios que aportaron información demográfica, la edad de los participantes de los estudios varió de 62 a 82 años. Los algoritmos incluidos utilizaron varios tipos de imágenes de retina a modo de información para el modelo, como imágenes de tomografía de coherencia óptica (TCO) (n = 15), imágenes del fondo de ojo (n = 6) e imágenes multimodales (n = 7). La metodología fundamental predominante fueron las redes neurales profundas. Todos los estudios que aportaron algoritmos validados externamente tenían un riesgo de sesgo alto principalmente por posible sesgo de selección debido a un diseño de dos vías o a la exclusión inapropiada de imágenes retinianas (o participantes) potencialmente elegibles.

Hallazgos

Solo 3 de los 40 algoritmos incluidos tuvieron validación externa (7,5%; 3/40). La sensibilidad y la especificidad globales fueron 0,94 (intervalo de confianza [IC] del 95%: 0,90 a 0,97) y 0,99 (IC del 95%: 0,76 a 1,00), respectivamente, al compararse con los evaluadores humanos (tres estudios; 27 872 imágenes; evidencia de certeza baja). La prevalencia de las imágenes con DMSe varió del 0,3% al 49%.

En el caso de 28 algoritmos se informó de una validación interna (20%; 8/40) o una prueba en un entorno de desarrollo (50%; 20/40); la sensibilidad y especificidad agrupadas fueron 0,93 (IC del 95%: 0,89 a 0,96) y 0,96 (IC del 95%: 0,94 a 0,98), respectivamente, al compararse con los evaluadores humanos (28 estudios; 33 409 imágenes; evidencia de certeza baja). No se identificaron significativas fuentes de heterogeneidad entre estos 28 algoritmos. Aunque los algoritmos que utilizaron imágenes de TCO parecieron más homogéneos y tuvieron la especificidad global más alta (0,97; IC del 95%: 0,93 a 0,98), no fueron superiores a los algoritmos que utilizaron imágenes de fondo de ojo solo (0,94; IC del 95%: 0,89 a 0,97) ni a imágenes multimodales (0,96; IC del 95%: 0,88 a 0,99; p para metarregresión = 0,239). La mediana de prevalencia de las imágenes con DMSe fue del 30% (rango intercuartil [RIC]: 22% a 39%).

No se incluyeron ocho estudios que describieron nueve algoritmos (un estudio informó sobre dos conjuntos de resultados de algoritmos) para distinguir la DMSe de imágenes normales, imágenes de otras DMS o lesiones retinianas sin DMS en el metanálisis. Cinco de estos algoritmos se basaron en general en conjuntos más pequeños de datos (de 21 a 218 participantes por estudio), aunque con una prevalencia mayor de imágenes de DMSe (de 33% a 66%). En cuanto a los evaluadores humanos, la sensibilidad informada en estos estudios varió de 0,95 a 0,97, mientras que la especificidad varió de 0,94 a 0,99. De manera similar, con conjuntos pequeños de datos (de 46 a 106), otros cuatro algoritmos de detección de la DMSe de otras lesiones retinianas mostraron alta sensibilidad (de 0,96 a 1,00) y especificidad (de 0,77 a 1,00).

Conclusiones de los autores

Evidencia de certeza baja a muy baja apunta a que una prueba basada en algoritmos podría identificar correctamente a la mayoría de las personas con DMSe sin un aumento innecesario de derivaciones (falsos positivos) ni en los ámbitos de atención primaria ni en los de atención especializada. Hubo inquietudes significativas con respecto a aplicar los resultados de la revisión debido a las variaciones en la prevalencia de la DMSe en los estudios incluidos. Además, entre las pruebas basadas en algoritmos incluidas, las estimaciones de exactitud diagnóstica estuvieron en riesgo de sesgo porque los participantes del estudio no reflejaron las características del mundo real, por la validación insuficiente del modelo y por la probabilidad de que hubiera informe selectivo de los resultados. La poca calidad y cantidad de algoritmos validados externamente destacaron que se necesita evidencia de certeza alta. Esta evidencia requerirá una definición estandarizada de la DMSe en las distintas modalidades de diagnóstico por la imagen y la validación externa del algoritmo para evaluar su generalizabilidad.

Notas de traducción

La traducción de las revisiones Cochrane ha sido realizada bajo la responsabilidad del Centro Cochrane Iberoamericano, gracias a la suscripción efectuada por el Ministerio de Sanidad del Gobierno de España. Si detecta algún problema con la traducción, por favor, contacte con comunica@cochrane.es.

Referencia

Kang C, Lo J-E, Zhang H, Ng SM, Lin JC, Scott IU, Kalpathy-Cramer J, Liu S-H(, Greenberg PB. Artificial intelligence for diagnosing exudative age-related macular degeneration. Cochrane Database of Systematic Reviews 2024, Issue 10. Art. No.: CD015522. DOI: 10.1002/14651858.CD015522.pub2.