ChatGPT se ha convertido en una de las principales herramientas de casi cualquier ámbito profesional, entre los que hay que citar el sanitario. Sin embargo, este modelo de lenguaje con casi respuestas infinitas a cualquier cuestión no siempre acierta. Al menos, en el caso de las
preguntas relacionadas con imágenes radiológicas, según ha revelado un estudio de la Sociedad Radiológica de Norteamérica.
Para llegar a esta conclusión, un equipo de investigadores de la mencionada organización ha evaluado el rendimiento de
ChatGPT-4 Vision, la primera versión de este modelo de lenguajes que puede interpretar tanto texto como imágenes. Así, los científicos han sometido a este programa a un examen de Radiología Diagnóstica, compuesto por las preguntas que utiliza el Colegio Americano de Radiología para comprobar el avance formativo de los residentes de la especialidad durante la etapa formativa. Los resultados fueron distintos según el formato de la consulta.
ChatGPT-4 Vision respondió correctamente 159 de las 195 consultas de solo texto, lo que se traduce en el 81,5 por ciento de acierto. No obstante, el porcentaje cae en las preguntas con imágenes. Y es que este modelo de lenguaje
contestó bien 87 de las 182 cuestiones, con lo que consiguió un 47,8 por ciento de tino. En el conjunto de la prueba,
la aplicación sacó un 65,3 por ciento -246 sobre 377-.
Mejor en Tórax que en Medicina Nuclear
Por subespecialidad, la nueva versión de
ChatGPT tan solo tuvo mejor desempeño en las preguntas con imágenes que en las preguntas con solo texto en
Tórax y Genitourinarias, con un porcentaje de acierto del 69 y 67, respectivamente. En el resto, fue más precisa en el segundo tipo de cuestiones, sobre todo en
Medicina Nuclear, dominio en el que tan solo respondió bien dos de diez consultas.
Además, el estudio también evaluó
el impacto de varias indicaciones en el desempeño de GPT-4 Vision. En las preguntas basadas en texto, la instrucción basada en cadenas de pensamiento tuvo un mejor desempeño que la instrucción larga en un 6,1 por ciento, la instrucción básica en un 6,8 por ciento y el estilo de instrucción original en un 8,9 por ciento. Eso sí, no hubo evidencia que sugiriera diferencias de tino entre dos indicaciones en las preguntas basadas en imágenes.
Apuesta por ChatGPT en Radiología
Los resultados del estudio, publicados en la revista
Radiology, han subrayado la importancia de
generar métodos de evaluación más especializados y rigurosos para el análisis de imágenes radiológicas. "Notamos una tendencia alarmante en el modelo a proporcionar diagnósticos correctos basados en interpretaciones incorrectas de las imágenes, lo que podría tener implicaciones clínicas importantes", ha afirmado el radiólogo musculoesquelético e investigador de Inteligencia Artificial en Henry Ford Health (Detroit, Estados Unidos), Chad Klochko.
Pese a reconocer las limitaciones de la aplicación en el análisis de imágenes y por ende no recomendar su uso para esta clase de tareas, el experto ha reconocido que ChatGPT-4 Vision es
una herramienta "prometedora" en el campo de la Radiología. Por ejemplo, ha detallado que puede ayudar a los profesionales con la simplificación de informes o la identificación del protocolo adecuado para los exámenes de diagnóstico con materiales visuales.
Aunque pueda contener afirmaciones, datos o apuntes procedentes de instituciones o profesionales sanitarios, la información contenida en Redacción Médica está editada y elaborada por periodistas. Recomendamos al lector que cualquier duda relacionada con la salud sea consultada con un profesional del ámbito sanitario.