inteligencia artificial

Consejos médicos de la IA: la mitad de los respuestas de ChatGPT y otros chatbots son peligrosas

Un estudio publicado en BMJ Open revela que la mitad de los consejos médicos emitidos por chatbots de inteligencia artificial como ChatGPT, Meta AI y Grok

Mitad de las respuestas médicas generadas por asistentes como ChatGPT, Meta AI, DeepSeek y Grok resultan inexactas o problemáticas.CANVA

Publicado por

Nadia Larco Bravo

Creado: 16.04.2026 | 14:04

Actualizado: 16.04.2026 | 14:04

En:

La irrupción de los chatbots de inteligencia artificial en la vida cotidiana ha transformado la manera en que millones de personas buscan información. Sin embargo, cuando se trata de salud, la confianza depositada en estos sistemas puede convertirse en un riesgo tangible.

María José Pinto durante actividades oficiales en España mientras en Ecuador se difundían los comunicados sobre despidos en salud.

Política

MSP niega afectación tras despidos en salud y choca con alerta de la Federación Médica

Marco Rivera

Un estudio reciente publicado en BMJ Open advierte que la mitad de las respuestas médicas generadas por asistentes como ChatGPT, Meta AI, DeepSeek y Grok resultan inexactas o problemáticas, con potencial de inducir a errores graves en la toma de decisiones sanitarias.

Los investigadores del Instituto Lundquist para la Innovación Biomédica evaluaron en febrero de 2025 el desempeño de estos modelos en cinco áreas clave: cáncer, vacunas, células madre, nutrición y rendimiento deportivo. El resultado fue contundente: un 50% de las respuestas fueron clasificadas como cuestionables, divididas en un 30% “algo problemáticas” y un 20% “muy problemáticas”.

Qué chatbots fueron analizados y cómo fallaron

El análisis incluyó diez consultas por cada modelo, tanto abiertas como cerradas, simulando preguntas habituales de pacientes. Se midió la claridad, exhaustividad y la tendencia a ofrecer un falso equilibrio entre información científica y afirmaciones sin respaldo.

Entre los hallazgos más preocupantes, Grok —el chatbot de X— emitió respuestas “muy problemáticas” en el 58% de los casos, superando ampliamente a sus competidores. Aunque los sistemas mostraron mayor precisión en temas de vacunas y cáncer, fallaron de manera recurrente en nutrición, rendimiento deportivo y células madre.

Preguntas abiertas: la debilidad de la IA

Un hallazgo clave fue la diferencia entre preguntas abiertas y cerradas. Las consultas abiertas, que permiten explicaciones extensas, generaron más del doble de respuestas muy problemáticas en comparación con las cerradas. En cambio, las preguntas cerradas, que exigen elegir entre opciones prediseñadas, se alinearon mejor con el consenso científico.

Los chatbots aún carecen de la capacidad de discernir entre información confiable y datos engañosos, por eso es recomendable visitar un especialista.CANVA

La forma de la consulta influye directamente en la seguridad del consejo generado. La IA, al basarse en predicciones estadísticas de palabras, tiende a “alucinar” datos cuando se le pide elaborar explicaciones complejas, lo que incrementa el riesgo de desinformación.

Referencias inventadas y lenguaje inaccesible

El estudio también expuso otra debilidad crítica: la baja calidad de las fuentes citadas. Ninguno de los chatbots logró proporcionar referencias totalmente precisas; en muchos casos inventaron estudios o combinaron autores reales con títulos inexistentes. La puntuación media de las referencias fue de apenas un 40%.

Además, el análisis de legibilidad reveló que las respuestas suelen estar redactadas en un nivel equivalente a un graduado universitario, lo que dificulta la comprensión para el ciudadano común. Esta combinación de lenguaje complejo y referencias falsas otorga una apariencia de rigor académico que puede engañar al usuario.

El café de especialidad ha dejado de ser una rutina para convertirse en una experiencia deliberada.

Buenavida

El café de especialidad: de rutina diaria a experiencia cultural premium

Nadia Larco Bravo

Una investigación paralela publicada en JAMA Network Open refuerza estas conclusiones: los modelos de lenguaje fracasan en más del 80% de los casos al realizar diagnósticos diferenciales con información clínica parcial. Aunque pueden alcanzar aciertos del 90% con datos completos, su desempeño en fases intermedias sigue siendo irregular.

Los expertos coinciden en que, pese a las mejoras constantes, los chatbots de IA no están listos para sustituir la supervisión humana en el ámbito clínico. Su función puede ser útil para redactar correos o simplificar tareas administrativas, pero no para recetar fármacos ni diseñar dietas.

Para seguir leyendo EXPRESO sin restricciones, ¡SUSCRÍBETE AQUÍ!