Síganos

6/recent/ticker-posts

Ad Code

Responsive Advertisement

La IA para el cuidado de la salud, destinada a ahorrar dinero, requiere muchos seres humanos costosos

Preparante pacientes con cáncer tomar decisiones difíciles es el trabajo de un oncólogo. Sin embargo, no siempre se acuerdan de hacerlo. En el Sistema de Salud de la Universidad de Pensilvania, se insta a los médicos a hablar sobre el tratamiento de un paciente y preferencias al final de la vida por un algoritmo artificialmente inteligente que predice las posibilidades de muerte.

Pero está lejos de ser una herramienta que se configura y se olvida. Un control técnico de rutina reveló que el algoritmo decayó durante la pandemia de covid-19, empeorando 7 puntos porcentuales en la predicción de quién moriría, según un estudio de 2022.

Probablemente hubo impactos en la vida real. Ravi Parikh, oncólogo de la Universidad de Emory y autor principal del estudio, dijo a KFF Health News que la herramienta falló cientos de veces a la hora de incitar a los médicos a iniciar esa importante discusión (posiblemente evitando la quimioterapia innecesaria) con los pacientes que la necesitaban.

Él cree que varios algoritmos diseñados para mejorar la atención médica se debilitaron durante la pandemiano sólo el de Penn Medicine. “Muchas instituciones no monitorean de manera rutinaria el desempeño” de sus productos, dijo Parikh.

Los fallos en los algoritmos son una faceta de un dilema que los científicos informáticos y los médicos han reconocido desde hace mucho tiempo, pero que está empezando a desconcertar a los ejecutivos e investigadores de los hospitales: los sistemas de inteligencia artificial requieren un seguimiento y una dotación de personal constantes para implementarlos y mantenerlos funcionando bien.

En esencia: se necesita gente y más máquinas para asegurarse de que las nuevas herramientas no se estropeen.

“Todo el mundo piensa que la IA nos ayudará con nuestro acceso y capacidad y mejorará la atención, etc.”, dijo Nigam Shah, científico jefe de datos de Stanford Health Care. “Todo eso es bonito y bueno, pero si aumenta el costo de la atención en un 20%, ¿es viable?”

A los funcionarios del gobierno les preocupa que los hospitales carezcan de los recursos para poner a prueba estas tecnologías. “He buscado a lo largo y ancho”, dijo el comisionado de la FDA, Robert Califf, en un panel reciente de la agencia sobre IA. “No creo que exista un solo sistema de salud en los Estados Unidos que sea capaz de validar un algoritmo de IA implementado en un sistema de atención clínica”.

La IA ya está muy extendida en el cuidado de la salud. Los algoritmos se utilizan para predecir el riesgo de muerte o deterioro de los pacientes, sugerir diagnósticos o clasificar a los pacientes, registrar y resumir las visitas a salvar el trabajo de los médicos y a aprobar reclamaciones de seguros.

Si los evangelistas de la tecnología tienen razón, la tecnología se volverá omnipresente y rentable. La firma de inversión Bessemer Venture Partners ha identificado unas 20 nuevas empresas de IA centradas en la salud que están en camino de generar 10 millones de dólares en ingresos cada una en un año. La FDA ha aprobado casi mil productos con inteligencia artificial.

Evaluar si estos productos funcionan es un desafío. Evaluar si continúan trabajando (o si han desarrollado el software equivalente a una junta rota o un motor con fugas) es aún más complicado.

Tomemos como ejemplo un estudio reciente de Yale Medicine que evalúa seis “sistemas de alerta temprana”, que alertan a los médicos cuando es probable que los pacientes se deterioren rápidamente. Una supercomputadora procesó los datos durante varios días, dijo Dana Edelson, médico de la Universidad de Chicago y cofundador de una empresa que proporcionó un algoritmo para el estudio. El proceso fue fructífero y mostró enormes diferencias en el rendimiento entre los seis productos.

No es fácil para los hospitales y proveedores seleccionar los mejores algoritmos para sus necesidades. El médico promedio no tiene una supercomputadora y no existe Consumer Reports para la IA.

“No tenemos estándares”, dijo Jesse Ehrenfeld, ex presidente inmediato de la Asociación Médica Estadounidense. “No hay nada que pueda señalar hoy que sea un estándar sobre cómo evaluar, monitorear y observar el desempeño de un modelo de algoritmo, habilitado para IA o no, cuando se implementa”.

Quizás el producto de IA más común en los consultorios médicos se llama documentación ambiental, un asistente con tecnología que escucha y resume las visitas de los pacientes. En lo que va del año, los inversores de Rock Health han rastreado el flujo de 353 millones de dólares hacia estas empresas de documentación. Pero, dijo Ehrenfeld, “en este momento no existe ningún estándar para comparar el rendimiento de estas herramientas”.

Y eso es un problema, cuando incluso los errores más pequeños pueden ser devastadores. Un equipo de la Universidad de Stanford intentó utilizar modelos de lenguaje grandes (la tecnología subyacente a herramientas de inteligencia artificial populares como ChatGPT) para resumir el historial médico de los pacientes. Compararon los resultados con lo que escribiría un médico.

“Incluso en el mejor de los casos, los modelos tenían una tasa de error del 35%”, dijo Shah de Stanford. En medicina, “cuando estás escribiendo un resumen y olvidas una palabra, como 'fiebre', quiero decir, eso es un problema, ¿verdad?”.

A veces, las razones por las que fallan los algoritmos son bastante lógicas. Por ejemplo, los cambios en los datos subyacentes pueden erosionar su eficacia, como cuando los hospitales cambian de proveedor de laboratorio.

A veces, sin embargo, los obstáculos se abren sin razón aparente.

Sandy Aronson, ejecutivo de tecnología del programa de medicina personalizada del Mass General Brigham en Boston, dijo que cuando su equipo probó una aplicación destinada a ayudar a los asesores genéticos a localizar literatura relevante sobre variantes de ADN, el producto sufrió “no determinismo”, es decir, cuando se le preguntó lo mismo. pregunta varias veces en un corto período, dio resultados diferentes.

Aronson está entusiasmado con el potencial de los modelos de lenguaje grandes para resumir el conocimiento de los asesores genéticos sobrecargados, pero “la tecnología necesita mejorar”.

Si las métricas y los estándares son escasos y pueden surgir errores por razones extrañas, ¿qué deben hacer las instituciones? Invierta muchos recursos. En Stanford, dijo Shah, se necesitaron de ocho a 10 meses y 115 horas-hombre sólo para auditar dos modelos para determinar su equidad y confiabilidad.

Los expertos entrevistados por KFF Health News plantearon la idea de que la inteligencia artificial monitoree la inteligencia artificial, con algunos genios de los datos (humanos) monitoreando ambas. Todos reconocieron que eso requeriría que las organizaciones gastaran aún más dinero, una tarea difícil dadas las realidades de los presupuestos hospitalarios y la oferta limitada de especialistas en tecnología de IA.

“Es fantástico tener una visión en la que estamos derritiendo icebergs para poder tener un modelo que supervise su modelo”, dijo Shah. “¿Pero es eso realmente lo que quería? ¿Cuántas personas más vamos a necesitar?”

Noticias de salud de KFF es una sala de redacción nacional que produce periodismo en profundidad sobre temas de salud y es uno de los principales programas operativos de KFF — la fuente independiente para investigaciones, encuestas y periodismo sobre políticas de salud.

Leer más Tech News in Spanish

Reactions

Publicar un comentario

0 Comentarios

Ad Code

Responsive Advertisement