La inteligencia artificial ChatGPT podría aprobar el examen para ejercer como médico en EE.UU
Una investigación demuestra que el sistema consiguió una tasa de aciertos cercana al aprobado en las pruebas del USMLE. No obstante, la IA sigue teniendo algunas limitaciones.
ChatGPT sigue acumulando carreras universitarias. Después de aprobar recientemente exámenes de posgrado en Derecho y Economía realizados por la universidades estadounidenses de Minnesota y Pensilvania, la inteligencia artificial, capaz de responder a prácticamente cualquier pregunta que realice el usuario, ha demostrado está cerca de ser capaz de pasar las pruebas necesarias para ejercer como médico en Estados Unidos.
La investigación, que ha sido sido publicada en la revista especializada PLOS Digital Health, recoge que el chatbot de OpenAI, que cuenta con 100 millones de usuarios mensuales, pudo responder correctamente a cerca del 60% de las preguntas con las que era compatible y que se recogen dentro del USMLE (el Examen de Licencia Médica de los Estados Unidos, por sus siglas en inglés). Precisamente, ese 60% de aciertos es el porcentaje que debe superar cualquier aspirante a doctor que realice la prueba.
En concreto, el USMLE está conformado por tres tipos de preguntas: tipo test justificando la respuesta, tipo test sin justificar y respuesta abierta. Para testar a ChatGPT se utilizaron las 375 preguntas que aparecían recogidas en el examen realizado en junio de 2022. Entre ellas no aparecían aquellas cuestiones que estaban relacionadas con imágenes, ya que el chatbot, que solo funciona mediante el empleo de lenguaje, no sería capaz de responderlas.
Los resultados fueron corregidos por dos médicos y las discrepancias sobre algunas de las cuestiones fueron evaluadas por un tercer doctor. En concreto, la IA fue capaz de alcanzar una media de respuestas acertadas que se mueve entre el 52,4% y el 75% en cada uno de los pasos que componen la prueba. Esto implica que la tasa de aciertos fue muy próxima a la que necesitan los aspirantes a profesionales médicos para comenzar a ejercer en Estados Unidos.
El sistema, además, ofreció respuestas que concordaban con la pregunta realizada en el 94,6 % de los casos. Incluso superó el rendimiento de PubMedGPT, un modelo similar a ChatGPT, aunque en este caso formado exclusivamente con datos biomédicos, que obtuvo una puntuación del 50,8 % en un conjunto de datos más antiguo de preguntas similares a las que aparecen recogidas en el USMLE. Esto se debe a que la solución de OpenAI está siendo entrenada constantemente con grandes cantidades de información para mejorar los resultados que es capaz de ofrecer a los internautas.
- Una investigación con limitaciones
A pesar de los buenos resultados cosechados, la investigación demuestra las limitaciones que, por el momento, sigue teniendo la popular IA, y todo a pesar de los esfuerzos que está dedicando la startup detrás de su creación a desarrollarla y mejorarla.
«Tiene limitaciones como un tamaño de casos limitado (solo fue testado con 350 preguntas). También representa un escenario limitado puesto que solo trabaja con textos. De hecho, se eliminaron 26 preguntas que contenían imágenes u otra información no textual (con la que ChatGPT no puede trabajar)», explica Alfonso Valencia, director de Ciencias de la vida en el Centro Nacional de Supercomputación de Barcelona , en declaraciones recogidas por SMC España.
«Además, los resultados del examen realizado por ChatGPT fueron evaluados por dos médicos. De este modo, es necesario esperar a estudios posteriores que puedan contar con un mayor número de evaluadores cualificados para poder avalar los resultados de esta IA», señala, por su parte, Lucía Ortiz, investigadora en Ética y Gobernanza de inteligencia artificial en la Universidad Autónoma de Madrid.
- La IA no es infalible
A pesar del buen trabajo que es capaz de realizar en diversas situaciones la IA conversacional desarrollada por OpenAI, expertos e investigadores alertan sobre el peligro de creer a pies juntillas todas aquellas respuestas que ofrece. «Durante los últimos 12 meses ha habido un gran salto en los grandes modelos de procesamiento de lenguaje natural, como ChatGPT. Están mucho mejor entrenados que lo que teníamos antes», dice José del Barrio, jefe de la startup dedicada al desarrollo de soluciones basadas en IA Samaipata.
«Es muy fácil que se descontrolen y ofrezcan información que no es veraz o que puede resultar controvertida. Hay un riesgo aunque sean muy buenos respondiendo preguntas y puedan parecer muy coherentes», zanja el experto.
Estudios como el que demuestra que ChatGPT está cerca de aprobar un examen para convertirse en médico, aunque haciendo trampas, porque es incapaz de responder a todas las preguntas, demuestra que la herramienta sigue mejorando a pasos agigantados e incluso supera a otros modelos de lenguaje natural entrenados exclusivamente con información biomédica.
Dejar un comentario
¿Quieres unirte a la conversación?Siéntete libre de contribuir!