MADRID, 25 (EUROPA PRESS)
La inteligencia artificial (IA) parece detectar enfermedades a partir de imágenes médicas con niveles de precisión similares a los de los profesionales sanitarios, según la primera revisión sistemática y el primer metanálisis que sintetiza toda la evidencia disponible de la literatura científica, que se ha publicado en la revista 'The Lancet Digital Health'.
Sin embargo, el informe puntualiza que solo "unos pocos estudios" fueron de calidad suficiente para ser incluidos en el análisis, y los autores advierten de que el verdadero poder diagnóstico de la técnica de IA conocida como 'deep learning' (el uso de algoritmos, 'Big Data' y computación para emular el aprendizaje humano y la inteligencia) sigue siendo "incierto" debido a la falta de estudios que comparen directamente el rendimiento de los seres humanos y las máquinas, o que validen el rendimiento del IA en entornos clínicos reales.
"Revisamos más de 20.500 artículos, pero menos del 1 por ciento de ellos eran lo suficientemente sólidos en su diseño e información como para que los revisores independientes tuvieran una gran confianza en sus afirmaciones. Además, solo 25 estudios validaron los modelos de IA externamente (usando imágenes médicas de una población diferente), y apenas 14 estudios compararon en realidad el rendimiento del IA y de los profesionales de la salud usando la misma muestra de prueba", explica el profesor Alastair Denniston, de University Hospitals Birmingham NHS Foundation Trust (Reino Unido), quien dirigió la investigación.
Dentro de esos pocos de estudios de alta calidad, encontraron que el 'deep learning' podría, de hecho, detectar enfermedades que van desde cánceres hasta enfermedades oculares con la misma precisión que los profesionales. "Pero es importante resaltar que la IA no superó sustancialmente el diagnóstico humano", incide Denniston.
Con el 'deep learning', las computadoras pueden examinar miles de imágenes médicas para identificar patrones de enfermedad. Esto ofrece un enorme potencial para mejorar la precisión y la velocidad del diagnóstico. Los informes de modelos de 'deep learning' que superan a los humanos en las pruebas de diagnóstico han generado mucho entusiasmo y debate, y más de 30 algoritmos de IA para la atención sanitaria ya han sido aprobados por la Administración de Alimentos y Medicamentos de Estados Unidos (FDA, por sus siglas en inglés).
A pesar del gran interés público y de los grandes grupos empresariales que impulsan el rápido desarrollo de estas tecnologías, se ha planteado la preocupación de si los diseños de los estudios están sesgados a favor del aprendizaje automático, y el grado en que los hallazgos son aplicables a la práctica clínica en el mundo real.
Para proporcionar más evidencia, estos investigadores condujeron una revisión sistemática y metaanálisis de todos los estudios comparando el desempeño de los modelos de 'deep learning' y los profesionales de la salud en la detección de enfermedades a partir de imágenes médicas publicadas entre enero de 2012 y junio de 2019. También evaluaron el diseño del estudio, los informes y el valor clínico.
En total, se incluyeron 82 artículos en la revisión sistemática. Se analizaron los datos de 69 artículos que contenían datos suficientes para calcular con precisión el rendimiento de la prueba. En el metanálisis se incluyeron las estimaciones agrupadas de 25 artículos que validaron los resultados en un subconjunto independiente de imágenes.
El análisis de los datos de 14 estudios que compararon el rendimiento del 'deep learning' con humanos en la misma muestra encontró que, en el mejor de los casos, los algoritmos pueden detectar correctamente la enfermedad en el 87 por ciento de los casos, en comparación con el 86 por ciento logrado por los profesionales de la salud.
La capacidad de excluir con precisión a los pacientes que no tienen enfermedad también fue similar para los algoritmos de 'deep learning' (93% de especificidad), en comparación con los profesionales de la salud (91%).
Los autores precisan que existen varias limitaciones en la metodología y el informe de los estudios de diagnóstico de la IA incluidos en el análisis. Con frecuencia, el 'deep learning' se evaluó de forma aislada de manera que no reflejara la práctica clínica. Por ejemplo, solo cuatro estudios proporcionaron a los profesionales de la salud información clínica adicional que normalmente utilizarían para hacer un diagnóstico en la práctica clínica.
Además, se realizaron pocos estudios prospectivos en entornos clínicos reales, y los autores dicen que para determinar la precisión diagnóstica se requieren comparaciones de alta calidad en pacientes, no solo conjuntos de datos. Los informes deficientes también fueron frecuentes, y la mayoría de los estudios no informaron los datos faltantes, lo que limita las conclusiones que pueden extraerse.