Formación > Estudiantes

ChatGPT 'amenaza' al profesorado sanitario corrigiendo exámenes

Un estudio de la Universidad de Singapur asegura que la IA es una herramienta útil para la autoevaluación en el grado

Facultad de Odontología de la Universidad Nacional de Singapur.

08 sep 2024. 14.05H
SE LEE EN 5 minutos
¿Cómo de efectivo sería aplicar la inteligencia artificial en la corrección de pruebas universitarias para grados sanitarios? Esta pregunta es la que se plantearon desde la facultad de Odontología de la Universidad Nacional de Singapur. Como recoge un estudio publicado en la revista científica BMC Medical Education, la institución académica ha desarrollado una investigación para comparar la calificación automatizada en los exámenes de Cirugía Oral y Maxilofacial para estudiantes de Odontología con las evaluaciones humanas.

La inteligencia artificial ha revolucionado el sector de la salud y ha proporcionado una amplia gama de mejoras. En la educación médica, la realidad virtual emerge como una herramienta útil para mejorar la competencia y confianza de los estudiantes en la evaluación de pacientes y la ejecución de procedimientos. Como indica el informe, la incorporación de ChatGPT en el currículo de Odontología sería el "siguiente paso" para mejorar el aprendizaje de estos estudiantes.

"El rendimiento de ChatGPT en el Examen de Licencia Médica de los Estados Unidos (USMLE) fue validado recientemente con ChatGPT obteniendo una puntuación equivalente a la de un estudiante de Medicina de tercer año. Sin embargo, no existen datos sobre el rendimiento de ChatGPT en el campo de la Odontología. Este estudio concluye con la presencia de "correlaciones significativas" y "un excelente acuerdo entre las evaluaciones manuales y ChatGPT". Las puntuaciones medias entre ambos grupos mostraron correlaciones "de moderadas a fuertes" para ambas. Esto sugiere que la evaluación automatizada con IA tiene el potencial de proporcionar un nivel de evaluación de ensayos "similar al de los educadores en la facultad".

"Sin embargo, aún es necesario afinar el sistema de calificación para que la puntuación proporcionada por la calificación automatizada se desvíe lo menos posible de la calificación humana. Por ejemplo, la puntuación media del primer método fue hasta cinco puntos más baja que la calificación manual para la segunda pregunta de la prueba. Aunque la diferencia puede no parecer grande, potencialmente puede aumentar o disminuir la calificación final de los estudiantes", concreta el estudio.


Desarrollo del estudio 


El estudio examinó a 69 participantes, todos ellos estudiantes de Odontología de último año. Realizaron un examen de Cirugía Oral y Maxilofacial en la plataforma 'Examplify' como parte de la evaluación final. El examen constaba de dos preguntas abiertas basadas en los temas enseñados en el mismo.

Como conlusión, se encontraron correlaciones positivas entre ChatGPT y la calificación manual. Sin embargo, ChatGPT tendía a ser más estricto y no era capaz de penalizar contenido irrelevante o incorrecto. Por ello, el informe consifera que, en su estado actual, GPT-4 "no debería utilizarse como una herramienta autónoma" para la enseñanza o evaluación en el ámbito de la educación médica o dental, pero puede servir como un complemento "para ayudar a los estudiantes en la autoevaluación".


Desventajas de ChatGPT en Odontología


No obstante, se identificaron algunos inconvenientes en el uso de ChatGPT. En primer lugar, la capacidad de obtener puntuaciones fiables depende en gran medida de la creación de una rúbrica de evaluación "bien diseñada", con términos "claramente definidos". En este estudio, las correlaciones entre los evaluadores fueron más fuertes para la pregunta 1 en comparación con la pregunta 2. "La menor fiabilidad de la calificación automatizada para la pregunta 2 puede atribuirse a su naturaleza más amplia, el uso de términos médicos más complejos y rúbricas de evaluación más extensas, que dejó más margen para la interpretación individual y la variación entre humanos e IA. La capacidad de ChatGPT para proporcionar respuestas precisas puede reducirse con indicaciones más largas y conversaciones más complejas", concretan.

Un 'prompt' demasiado ambiguo o que carezca de contexto puede generar una respuesta incompleta, genérica o irrelevante. Además, los estudiantes podrían "engañar" a la IA produciendo un ensayo más largo que toque más puntos relevantes, lo que podría aumentar su puntuación, incluso si se incluyen declaraciones incorrectas o sin sentido: "Este problema podría resolverse a medida que ChatGPT adquiera más conocimientos médicos y dentales".

Otra conclusión relevante a la que llegó la investigación es que la falta de "emoción humana" en la calificación automatizada puede ser tanto una ventaja como una desventaja: "Si bien ChatGPT puede proporcionar retroalimentación objetiva y sin sesgos, carece de la empatía y la inteligencia emocional que un educador humano puede ofrecer", aseguran.
¿Quieres seguir leyendo? Hazte premium
¡Es gratis!
¿Ya eres premium? Inicia sesión

Aunque pueda contener afirmaciones, datos o apuntes procedentes de instituciones o profesionales sanitarios, la información contenida en Redacción Médica está editada y elaborada por periodistas. Recomendamos al lector que cualquier duda relacionada con la salud sea consultada con un profesional del ámbito sanitario.