La inteligencia artificial en salud falla en el 50% de sus respuestas

Un estudio internacional advierte que la mitad de la información médica proporcionada por modelos como ChatGPT y Gemini es imprecisa o peligrosa, poniendo en riesgo la seguridad de los pacientes.

La rápida adopción de los chats de inteligencia artificial (IA) generativa ha transformado la manera en que la sociedad accede a la información. Muchos usuarios los utilizan hoy como sustitutos de los motores de búsqueda tradicionales para consultas médicas cotidianas. Sin embargo, una investigación internacional publicada este martes en la prestigiosa revista BMJ Open revela que confiar en estas herramientas para obtener consejos de salud puede ser una apuesta arriesgada y, en muchos casos, perjudicial.

El estudio, liderado por investigadores del Instituto Lundquist para la Innovación Biomédica (EE. UU.), evaluó el desempeño de cinco de los modelos más utilizados en la actualidad: Gemini (Google), DeepSeek, Meta AI, ChatGPT (OpenAI) y Grok (xAI). Los resultados son contundentes y preocupantes: la mitad de las respuestas a preguntas basadas en evidencia científica se clasificaron como “algo” o “altamente” problemáticas.

Un protocolo de estrés para la tecnología

Para poner a prueba la fiabilidad de estos sistemas, los científicos diseñaron un protocolo de 250 consultas divididas en cinco categorías críticas: cáncer, vacunas, células madre, nutrición y rendimiento deportivo. Las preguntas fueron formuladas para imitar las búsquedas comunes de los usuarios y, en algunos casos, para «estresar» a los modelos hacia mitos comunes o consejos contraindicados.

El análisis determinó que el 20% de las respuestas eran altamente problemáticas, con el potencial de dirigir a los usuarios hacia tratamientos ineficaces o causar daños directos a la salud si se seguían sin supervisión profesional. Este margen de error resulta inaceptable en un contexto donde la precisión puede determinar la vida de una persona.

El espejismo de la neutralidad y el conocimiento

Uno de los aspectos más alarmantes que destaca la investigación es la seguridad con la que las IA presentan la información. Las respuestas se expresan habitualmente con un tono de certeza absoluta, sin incluir apenas advertencias o matices sobre las limitaciones de su conocimiento. Esta falsa neutralidad, que a menudo equipara afirmaciones científicas con pseudociencias, no es una decisión editorial consciente, sino una limitación propia de la arquitectura técnica de estos modelos de lenguaje.

«Mucha gente tiende a pensar que los chatbots son IA omniscientes con un pozo profundo de conocimiento. Pero no poseen conocimiento en el sentido humano; no ‘saben’ cosas», explica Nicholas Tiller, investigador principal del estudio y profesional del Lundquist Institute (UCLA). Según el experto, al estar diseñados para predecir secuencias de palabras basadas en vastos conjuntos de datos —que incluyen desde artículos científicos hasta foros de Reddit sin curaduría—, los modelos carecen de la capacidad intrínseca para verificar la veracidad de lo que generan.

El riesgo de la falsa credibilidad académica

El estudio revela variaciones significativas entre las plataformas. Grok, de la compañía xAI (propiedad de Elon Musk), obtuvo los peores resultados: el 58% de sus respuestas fueron clasificadas como altamente problemáticas. Por el contrario, Gemini presentó el menor número de fallos críticos, aunque no estuvo exento de errores de fondo.

Sin embargo, todos los modelos fallaron en un punto clave: la accesibilidad del lenguaje. Según el índice de legibilidad de Flesch, la complejidad del lenguaje utilizado es equivalente a la de un graduado universitario. Lejos de ser una virtud, esto supone un peligro para la salud pública. «Las respuestas excesivamente técnicas pueden socavar la comprensión en el público general y comprometer la toma de decisiones», advierte Tiller.

Existe, además, un fenómeno psicológico preocupante identificado en la investigación: las respuestas más largas y complejas tienden a aumentar la confianza del usuario en la máquina, incluso cuando esa complejidad no aporta mayor precisión. Este mecanismo promueve una «falsa credibilidad» que puede convencer al paciente de abandonar tratamientos validados por profesionales humanos.

Alucinaciones y citas inventadas: el gran vacío legal

Otro punto crítico identificado por los investigadores es la incapacidad de los chatbots para citar fuentes de manera fiable. La calidad de las referencias fue calificada como pobre, con una puntuación media de integridad de apenas el 40%. El fenómeno conocido como «alucinaciones» —donde la IA inventa información de forma coherente— provocó que ningún chatbot lograra proporcionar una lista de referencias bibliográficas completamente real. En muchos casos, los modelos inventaron títulos de estudios y nombres de autores con total apariencia de veracidad para respaldar afirmaciones erróneas.

Esta falta de rigor científico es lo que separa a un profesional de la salud de un algoritmo de predicción estadística. Mientras que un médico debe rendir cuentas ante comités éticos y marcos legales, el chatbot opera en un vacío regulatorio que diluye la responsabilidad ante el error.

Conclusión: la necesidad de una supervisión estricta

A medida que el uso de estos asistentes virtuales se expande, los datos resaltan la necesidad urgente de una educación pública robusta, formación para los profesionales de la salud que asisten a estos pacientes y una supervisión regulatoria estricta sobre las empresas tecnológicas.

Sin estos mecanismos de control, el despliegue masivo de la IA generativa en el ámbito médico corre el riesgo de erosionar la confianza en la ciencia y de amplificar la desinformación global. La tecnología debe ser una herramienta de apoyo, nunca un sustituto de la consulta profesional. La salud humana es demasiado compleja para ser gestionada por un sistema que, en esencia, solo está tratando de adivinar cuál es la siguiente palabra en una frase.