Procesamiento textual que ayuda a la toma de decisiones en medicina

Investigadores del ICC trabajan en el procesamiento y análisis automático de textos provenientes de informes médicos. El objetivo es ayudar a mejorar la toma de decisiones de los profesionales y enriquecer el diagnóstico y tratamiento a partir de grandes volúmenes de datos de pacientes. Sin embargo, la heterogeneidad propia de los textos médicos y las limitaciones de datos disponibles en salud, resultan enormes desafíos a la hora de encarar la tarea.

En los últimos 30 años la cantidad de textos disponibles digitalmente ha crecido exponencialmente. Este fenómeno no resulta ajeno al ámbito de la medicina, donde la información provista por los médicos en diversos formatos (historias clínicas electrónicas, resúmenes de alta hospitalaria e informes radiológicos, entre otros) se está digitalizando constantemente con la adopción de sistemas de informática médica. No obstante, el dominio biomédico tiene varias dificultades que no aparecen en otros dominios: su vocabulario es altamente especializado y cuenta con una jerga que difiere según el país, región, institución hospitalaria y hasta entre los profesionales de una misma institución. A su vez, cierto tipo de informes médicos, a diferencia de los artículos científicos, se escriben de manera rápida lo que genera una gran cantidad de errores gramaticales y ortográficos.

Ante este escenario, investigadores del campo de la inteligencia artificial trabajan en mejorar el procesamiento de los textos obtenidos de informes radiológicos en español. “Uno de los problemas que buscamos resolver es cómo estructurar datos a partir de textos de informes médicos, es decir, lo que usualmente escribe el médico según sus observaciones. Esto podría ser, por ejemplo, información acerca de un hallazgo clínico o descripción anatómica de un órgano”, puntualiza Viviana Cotik, investigadora del ICC. La investigadora utiliza un ejemplo para explicar el problema: en un informe que se genera a partir de una imagen médica (radiografía, tomografía, ecografía o resonancia magnética) se dice en formato textual que el paciente se presentó con x síntoma, pero no está presente la información estructurada. Estructurar los datos significa, en este caso, extraer información del texto y volcarla en una base de datos que contiene toda la historia clínica del paciente.

Cotik, quien es Doctora en Ciencias de la Computación, trabaja arduamente en el ámbito del procesamiento del lenguaje natural y extracción de información aplicada al dominio médico (BioNLP). Uno de los aportes principales de su investigación fue haber podido extraer y analizar información radiológica en el idioma español. Este fue el tema central de su Tesis de Doctorado. “Al analizar más de 200 informes radiológicos para poder determinar la existencia de una patología a partir de determinados términos médicos, tuvimos que lidiar con problemas propios de los textos: abundancia de abreviaturas (muy ambiguas y propias del dominio médico), palabras cuya traducción en inglés no necesariamente es la forma en que se usa en español, y texto en bruto donde en general no hay oraciones gramaticales”, problematiza la investigadora.

Para ello, la investigadora diseñó un algoritmo basado en reglas y en diccionarios, obteniendo el diccionario a través de una traducción de RadLex –una ontología de acceso libre provista por la Sociedad de Radiología de Norteamérica (RSNA) que contiene términos específicos del dominio radiológico- y adecuando el algoritmo a los problemas provenientes de la traducción de RadLex al castellano. Además implementó otro algoritmo de aprendizaje automático una vez que obtuvo suficientes datos como para entrenarlo. Teniendo en cuenta que la terminología de la página está en inglés, la investigadora debió traducirla al español y enseñar al algoritmo a que reconozca los términos en orden invertido, una diferencia habitual entre ambos idiomas.

Por un lado, este trabajo puede mejorar el poder pronóstico para ayudar a los médicos a tomar decisiones con información más rápida y con muchos casos al alcance. Podría haber una alerta temprana que le indique que un paciente tiene una patología, simplemente con el análisis del informe. Por otro lado, estos sistemas podrían procesar información mucho más rápido que el profesional. «¿Cuánto le llevaría a una persona leer 500 informes? Claramente la computadora podría hacerlo más rápido. Además el sistema podría ayudar a reducir los márgenes de error, especialmente si el médico se cansa de realizar todo el día una tarea repetitiva”, complementa Cotik. Y agrega que su objetivo a mediano plazo es poder incorporar a su trabajo datos de imágenes y señales médicas, y no solamente utilizar información textual.

Trabajo conjunto con el Hospital Garrahan

Actualmente el Hospital Garrahan de Buenos Aires realiza unas 120.000 tomografías, radiografías, ecografías y resonancias por año. Encontrar en ese enorme archivo imágenes que correspondan a una patología es complejo.

Parte de la tarea del doctorado de Cotik implicó trabajar en conjunto con el Servicio de Diagnóstico por Imágenes del Hospital. Para ello se investigó una solución que contribuya a discriminar hallazgos patológicos de no patológicos a partir de los textos escritos por los médicos en informes radiológicos.

El desarrollo del algoritmo consistió en poder detectar hallazgos patológicos de manera cierta, entre un conjunto de textos médicos. El algoritmo debía ser capaz de descartar los informes que indicaran la posibilidad de una patología. Al mismo tiempo, cuando detectaba un término que nombraba a una patología, el software debía poder excluir los informes que negaban la existencia de un hallazgo clínico. Por ejemplo, si el médico escribió “no se observan quistes”, el algoritmo identifica el término patológico “quistes”, pero, aún así, por no tratarse de un hallazgo, debe descartarlo. Además el algoritmo trabajó sobre los textos en bruto, teniendo que reconocer los errores frecuentes de escritura.

Tal es así que el algoritmo fue puesto a prueba con el procesamiento de 248 informes de ecografías del hospital. El resultado de este primer test demostró que el algoritmo fue capaz de detectar el 83% de los informes que contienen hallazgos patológicos ciertos (solamente perdió 1 de cada 6 textos de su interés) y el algoritmo tuvo una precisión del 67% (1 de cada 3 textos seleccionados fueron falsos positivos).

Los resultados del trabajo de la investigadora fueron publicados en 2015 junto a los autores José Castaño y Darío Filippo en la revista Studies in Health Technology and Informatics, bajo el título “An Approach for Automatic Classification of Radiology Reports in Spanish”.

Perspectivas futuras

Gran parte del problema de los investigadores que trabajan en el dominio de BioNLP es tener que ir a buscar los datos, obtener textos anotados donde los especialistas señalan que hay un hallazgo o un término que hace referencia a anatomía del paciente. “En los informes de los pacientes hay cuestiones de confidencialidad. Aun cuando uno tiene acceso a un centro de salud, luego se necesita anonimizar los datos, cuestión que no es nada sencilla. Al mismo tiempo, no existen textos compartidos entre los diferentes investigadores lo cual complica aún más la tarea al no poder comparar los resultados”, detalla Cotik.

Usualmente los investigadores tienen que acceder a un permiso para publicar los datos, pasar por comités de ética que autoricen a dicha difusión. Suelen ser procesos que duran años y a veces hasta incluso no se libera una cierta publicación.

Una alternativa a este problema parece ser la de los hackatones y competencias de datos en salud, donde se comparten algunas bases de datos para trabajo entre investigadores. “Recientemente hubo una competencia organizada por la Sociedad Española del Procesamiento del Lenguaje (SEPLN) en donde se proveyeron textos médicos anotados, lo cual es una manera válida de obtener los datos”, ejemplifica Cotik. Es un hecho que a medida que los investigadores quieran usar técnicas más complejas, como redes neuronales profundas, necesitarán mayores volúmenes de datos en salud.

Al mismo tiempo, se requieren políticas que desde los sistemas de salud pública acompañen este proceso. Una iniciativa incipiente sería la Estrategia Nacional de Salud Digital 2018-2024, para la obtención de sistemas de información interoperables entre distintos niveles de atención y jurisdicciones, que promete mejorar la cantidad de información disponible en nuestro país.