Investigaciones científicas

ChatGPT obtuvo mejor calificación que los estudiantes peruanos en el Examen Nacional de Medicina

Escrito por: Yerson Collave

diciembre 4, 2023

Un reciente estudio evaluó el desempeño de ChatGPT y otras IA generativas a la hora de resolver el ENAM.

Más de 5000 egresados de medicina rindieron el último Examen Nacional de Medicina (ENAM) el pasado 3 de diciembre para evaluar su nivel de conocimiento en ciencias básicas, ciencias clínicas y en salud pública. Aprobar esta prueba es un requisito obligatorio para que los postulantes puedan obtener su residentado y así avanzar con su carrera. Sin embargo, datos indican que el índice de desaprobación en promedio ronda el 43%.

Un grupo de investigadores puso a prueba el rendimiento de varias inteligencias artificiales generativas, entre ellas ChatGPT, en la resolución del ENAM y encontró que ChatGPT 4 logró aprobar el examen con una precisión del 86%.

“ChatGPT supera los 17 y sacar más 15 en el ENAM es algo muy extraño. Además, el rendimiento de la inteligencia artificial aumentaba si se le daban especificaciones sobre cómo enfocar la pregunta. Por ejemplo, cuando se le indicó que ‘pretenda ser un médico de Perú’, ChatGPT solo se equivocó en 9 preguntas”, comenta Javier Flores Cohaila, docente investigador en educación médica de la Universidad Científica del Sur y autor principal del artículo.

Este hallazgo fue similar en otros países. En el caso de Estados Unidos, la inteligencia artificial logró resultados satisfactorios al resolver el examen requerido para obtener la licencia médica.

Para realizar esta investigación, publicada en el Journal of Medical Internet Research (JMIR), los científicos ingresaron tres ‘prompt’ diferentes en la plataforma de ChatGPT con el fin de verificar con cuál de ellos la inteligencia artificial obtenía una mejor tasa de respuestas correctas.

Un ‘prompt’ es el conjunto de palabras con el que interactúan los sistemas de inteligencia artificial, ya sea para darles una instrucción, hacerles una pregunta, entre otros.

El estudio se basó en los datos del ENAM 2022, que constaba de 180 preguntas de opción múltiples. La actuación de ChatGPT se comparó con la de una muestra de 1.025 examinados y se analizaron diversos factores como el tipo de pregunta, el conocimiento específico de Perú, la discriminación, la dificultad y la calidad de las preguntas, y el tema, para determinar su impacto en las respuestas incorrectas.

La prueba dio como resultado que GPT4 tuviera 156 respuestas correctas; BingAI, 148; GPT3, 120; Bard, 120; y Claude, 118. Todos ellos superaron el promedio histórico de respuestas correctas de los estudiantes peruanos, que es 99.

El estudio no buscó demostrar que la IA puede sustituir a un médico, ya que su trabajo es más complejo que solo resolver preguntas. “Ser médico, es mucho más que dar un examen de licenciamiento. Ser médico es el rol de comunicación que tenemos con los pacientes, la colaboración con otros profesionales de la salud, el liderazgo de la salud de la población, la promoción de la salud, etc.”, afirma Flores.

Ayudar en la formación de los médicos

Este estudio no solo tuvo como objetivo medir el desempeño de las IA, sino también buscar la mejor forma de integrarlas en el flujo de trabajo del médico. De acuerdo con los investigadores, estas tecnologías podrían utilizarse para ayudar en la educación médica y, potencialmente, en la toma de decisiones clínicas.

“Son una ayuda inmensa para los médicos, especialmente en situaciones en las que no tienen experiencia en todas las áreas, ya que el conocimiento médico es vasto. La disponibilidad de información por parte de estos chatbots puede ser utilizada como un recurso adicional para respaldar y complementar el expertise humano», indica Flores.

El investigador afirma que estas IA pueden ser útiles para crear preguntas y establecer niveles de dificultad en las evaluaciones. Asimismo, pueden ayudar a los estudiantes y profesionales a resolver preguntas en el contexto de su actividad médica, con la debida responsabilidad.

Investigadores:

No hay investigadores

Ver todos los autores

Contacto de prensa: