{"id":1724,"date":"2019-08-27T15:02:42","date_gmt":"2019-08-27T18:02:42","guid":{"rendered":"https:\/\/icc.fcen.uba.ar\/?p=1724"},"modified":"2022-03-29T10:38:30","modified_gmt":"2022-03-29T13:38:30","slug":"procesamiento-textual-que-ayuda-a-la-toma-de-decisiones-en-medicina","status":"publish","type":"post","link":"https:\/\/icc.fcen.uba.ar\/en\/procesamiento-textual-que-ayuda-a-la-toma-de-decisiones-en-medicina\/","title":{"rendered":"Procesamiento textual que ayuda a la toma de decisiones en medicina"},"content":{"rendered":"<div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-1 nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-0 fusion_builder_column_1_1 1_1 fusion-one-full fusion-column-first fusion-column-last\" style=\"--awb-bg-size:cover;--awb-margin-bottom:0px;\"><div class=\"fusion-column-wrapper fusion-flex-column-wrapper-legacy\"><div class=\"fusion-text fusion-text-1\"><p><strong>Investigadores del ICC trabajan en el procesamiento y an\u00e1lisis autom\u00e1tico de textos provenientes de informes m\u00e9dicos. El objetivo es ayudar a mejorar la toma de decisiones de los profesionales y enriquecer el diagn\u00f3stico y tratamiento a partir de grandes vol\u00famenes de datos de pacientes. Sin embargo, la heterogeneidad propia de los textos m\u00e9dicos y las limitaciones de datos disponibles en salud, resultan enormes desaf\u00edos a la hora de encarar la tarea.<\/strong><\/p>\n<p>\u00a0<\/p>\n<p>En los \u00faltimos 30 a\u00f1os la cantidad de textos disponibles digitalmente ha crecido exponencialmente. Este fen\u00f3meno no resulta ajeno al \u00e1mbito de la medicina, donde la informaci\u00f3n provista por los m\u00e9dicos en diversos formatos (historias cl\u00ednicas electr\u00f3nicas, res\u00famenes de alta hospitalaria e informes radiol\u00f3gicos, entre otros) se est\u00e1 digitalizando constantemente con la adopci\u00f3n de sistemas de inform\u00e1tica m\u00e9dica. No obstante, el dominio biom\u00e9dico tiene varias dificultades que no aparecen en otros dominios: su vocabulario es altamente especializado y cuenta con una jerga que difiere seg\u00fan el pa\u00eds, regi\u00f3n, instituci\u00f3n hospitalaria y hasta entre los profesionales de una misma instituci\u00f3n. A su vez, cierto tipo de informes m\u00e9dicos, a diferencia de los art\u00edculos cient\u00edficos, se escriben de manera r\u00e1pida lo que genera una gran cantidad de errores gramaticales y ortogr\u00e1ficos.\u00a0<\/p>\n<p>Ante este escenario, investigadores del campo de la inteligencia artificial trabajan en mejorar el procesamiento de los textos obtenidos de informes radiol\u00f3gicos en espa\u00f1ol. \u201c<em>Uno de los problemas que buscamos resolver es c\u00f3mo estructurar datos a partir de textos de informes m\u00e9dicos, es decir, lo que usualmente escribe el m\u00e9dico seg\u00fan sus observaciones. <\/em>E<em>sto podr\u00eda ser, por ejemplo, informaci\u00f3n acerca de un hallazgo cl\u00ednico o descripci\u00f3n anat\u00f3mica de un \u00f3rgano<\/em>\u201d, puntualiza Viviana Cotik, investigadora del ICC. La investigadora utiliza un ejemplo para explicar el problema: en un informe que se genera a partir de una imagen m\u00e9dica (radiograf\u00eda, tomograf\u00eda, ecograf\u00eda o resonancia magn\u00e9tica) se dice en formato textual que el paciente se present\u00f3 con x s\u00edntoma, pero no est\u00e1 presente la informaci\u00f3n estructurada. Estructurar los datos significa, en este caso, extraer informaci\u00f3n del texto y volcarla en una base de datos que contiene toda la historia cl\u00ednica del paciente.<\/p>\n<p>Cotik, quien es Doctora en Ciencias de la Computaci\u00f3n, trabaja arduamente en el \u00e1mbito del procesamiento del lenguaje natural y extracci\u00f3n de informaci\u00f3n aplicada al dominio m\u00e9dico (BioNLP). Uno de los aportes principales de su investigaci\u00f3n fue haber podido extraer y analizar informaci\u00f3n radiol\u00f3gica en el idioma espa\u00f1ol. Este fue el tema central de su<a href=\"https:\/\/digital.bl.fcen.uba.ar\/collection\/tesis\/document\/tesis_n6477_Cotik\"> Tesis de Doctorado<\/a>. \u201c<em>Al analizar m\u00e1s de 200 informes radiol\u00f3gicos para poder determinar la existencia de una patolog\u00eda a partir de determinados t\u00e9rminos m\u00e9dicos, tuvimos que lidiar con problemas propios de los textos: abundancia de abreviaturas (muy ambiguas y propias del dominio m\u00e9dico), palabras cuya traducci\u00f3n en ingl\u00e9s no necesariamente es la forma en que se usa en espa\u00f1ol, y texto en bruto donde en general no hay oraciones gramaticales<\/em>\u201d, problematiza la investigadora.<\/p>\n<p>Para ello, la investigadora dise\u00f1\u00f3 un algoritmo basado en reglas y en diccionarios, obteniendo el diccionario a trav\u00e9s de una traducci\u00f3n de<a href=\"http:\/\/www.radlex.org\/\"> <em>RadLex<\/em><\/a> \u2013una ontolog\u00eda de acceso libre provista por la Sociedad de Radiolog\u00eda de Norteam\u00e9rica (RSNA) que contiene t\u00e9rminos espec\u00edficos del dominio radiol\u00f3gico- y adecuando el algoritmo a los problemas provenientes de la traducci\u00f3n de <em>RadLex<\/em> al castellano. Adem\u00e1s implement\u00f3 otro algoritmo de aprendizaje autom\u00e1tico una vez que obtuvo suficientes datos como para entrenarlo. Teniendo en cuenta que la terminolog\u00eda de la p\u00e1gina est\u00e1 en ingl\u00e9s, la investigadora debi\u00f3 traducirla al espa\u00f1ol y ense\u00f1ar al algoritmo a que reconozca los t\u00e9rminos en orden invertido, una diferencia habitual entre ambos idiomas.<\/p>\n<p>Por un lado, este trabajo puede mejorar el poder pron\u00f3stico para ayudar a los m\u00e9dicos a tomar decisiones con informaci\u00f3n m\u00e1s r\u00e1pida y con muchos casos al alcance. Podr\u00eda haber una alerta temprana que le indique que un paciente tiene una patolog\u00eda, simplemente con el an\u00e1lisis del informe. Por otro lado, estos sistemas podr\u00edan procesar informaci\u00f3n mucho m\u00e1s r\u00e1pido que el profesional. &#8220;\u00bf<em>Cu\u00e1nto le llevar\u00eda a una persona leer 500 informes? Claramente la computadora podr\u00eda hacerlo m\u00e1s r\u00e1pido. Adem\u00e1s el sistema podr\u00eda ayudar a reducir los m\u00e1rgenes de error, especialmente si el m\u00e9dico se cansa de realizar todo el d\u00eda una tarea repetitiva<\/em>\u201d,\u00a0 complementa Cotik. Y agrega que su objetivo a mediano plazo es poder incorporar a su trabajo datos de im\u00e1genes y se\u00f1ales m\u00e9dicas, y no solamente utilizar informaci\u00f3n textual.<\/p>\n<p><strong>Trabajo conjunto con el Hospital Garrahan<\/strong><\/p>\n<p>Actualmente el Hospital Garrahan de Buenos Aires realiza unas 120.000 tomograf\u00edas, radiograf\u00edas, ecograf\u00edas y resonancias por a\u00f1o. Encontrar en ese enorme archivo im\u00e1genes que correspondan a una patolog\u00eda es complejo.\u00a0<\/p>\n<p>Parte de la tarea del doctorado de Cotik implic\u00f3 trabajar en conjunto con el Servicio de Diagn\u00f3stico por Im\u00e1genes del Hospital.\u00a0 Para ello se investig\u00f3 una soluci\u00f3n que contribuya a discriminar hallazgos patol\u00f3gicos de no patol\u00f3gicos a partir de los textos escritos por los m\u00e9dicos en informes radiol\u00f3gicos.\u00a0<\/p>\n<p>El desarrollo del algoritmo consisti\u00f3 en poder detectar hallazgos patol\u00f3gicos de manera cierta, entre un conjunto de textos m\u00e9dicos. El algoritmo deb\u00eda ser capaz de descartar los informes que indicaran la posibilidad de una patolog\u00eda. Al mismo tiempo, cuando detectaba un t\u00e9rmino que nombraba a una patolog\u00eda, el software deb\u00eda poder excluir los informes que negaban la existencia de un hallazgo cl\u00ednico. Por ejemplo, si el m\u00e9dico escribi\u00f3 \u201cno se observan quistes\u201d, el algoritmo identifica el t\u00e9rmino patol\u00f3gico \u201cquistes\u201d, pero, a\u00fan as\u00ed, por no tratarse de un hallazgo, debe descartarlo. Adem\u00e1s el algoritmo trabaj\u00f3 sobre los textos en bruto, teniendo que reconocer los errores frecuentes de escritura.<\/p>\n<p>Tal es as\u00ed que el algoritmo fue puesto a prueba con el procesamiento de 248 informes de ecograf\u00edas del hospital. El resultado de este primer test demostr\u00f3 que el algoritmo fue capaz de detectar el 83% de los informes que contienen hallazgos patol\u00f3gicos ciertos (solamente perdi\u00f3 1 de cada 6 textos de su inter\u00e9s) y el algoritmo tuvo una precisi\u00f3n del 67% (1 de cada 3 textos seleccionados fueron falsos positivos).<\/p>\n<p>Los resultados del trabajo de la investigadora fueron publicados en 2015 junto a los autores Jos\u00e9 Casta\u00f1o y Dar\u00edo Filippo en la revista <em>Studies in Health Technology and Informatics, bajo el t\u00edtulo \u201c<\/em><a href=\"http:\/\/europepmc.org\/abstract\/med\/26262128\">An Approach for Automatic Classification of Radiology Reports in Spanish<\/a>\u201d.<\/p>\n<p><strong>Perspectivas futuras<\/strong><\/p>\n<div class=\"wp-block-image\">\n<figure class=\"alignleft is-resized\"><img class=\"lazyload\" decoding=\"async\" src=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%27230%27%20height%3D%27204%27%20viewBox%3D%270%200%20230%20204%27%3E%3Crect%20width%3D%27230%27%20height%3D%27204%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-orig-src=\"https:\/\/lh3.googleusercontent.com\/1YG8GSX-lao0nU595B65bB_3CeLkF2jwzv5y2D9LIsU9AulqKSuolZSsSU72e7UKVeLFJ3Lmz3YdGc4nxtLg7-LWmpqwKPbviwSGO7jYFIp1m22MfV6DIBYnjSK0gwDdV3fXk9qR\" alt=\"\" width=\"230\" height=\"204\" \/><figcaption>Viviana Cotik<\/figcaption><\/figure>\n<\/div>\n<p>Gran parte del problema de los investigadores que trabajan en el dominio de BioNLP es tener que ir a buscar los datos, obtener textos anotados donde los especialistas se\u00f1alan que hay un hallazgo o un t\u00e9rmino que hace referencia a anatom\u00eda del paciente. \u201c<em>En los informes de los pacientes hay cuestiones de confidencialidad. Aun cuando uno tiene acceso a un centro de salud, luego se necesita anonimizar los datos, cuesti\u00f3n que no es nada sencilla. Al mismo tiempo,<\/em> <em>no existen textos compartidos entre los diferentes investigadores lo cual complica a\u00fan m\u00e1s la tarea al no poder comparar los resultados<\/em>\u201d, detalla Cotik.<\/p>\n<p>Usualmente los investigadores tienen que acceder a un permiso para publicar los datos, pasar por comit\u00e9s de \u00e9tica que autoricen a dicha difusi\u00f3n. Suelen ser procesos que duran a\u00f1os y a veces hasta incluso no se libera una cierta publicaci\u00f3n.<\/p>\n<p>Una alternativa a este problema parece ser la de los hackatones y competencias de datos en salud, donde se comparten algunas bases de datos para trabajo entre investigadores. \u201c<em>Recientemente hubo una competencia organizada por la Sociedad Espa\u00f1ola del Procesamiento del Lenguaje (SEPLN) en donde se proveyeron textos m\u00e9dicos anotados, lo cual es una manera v\u00e1lida de obtener los datos<\/em>\u201d, ejemplifica Cotik. Es un hecho que a medida que los investigadores quieran usar t\u00e9cnicas m\u00e1s complejas, como redes neuronales profundas, necesitar\u00e1n mayores vol\u00famenes de datos en salud.<\/p>\n<p>Al mismo tiempo, se requieren pol\u00edticas que desde los sistemas de salud p\u00fablica acompa\u00f1en este proceso. Una iniciativa incipiente ser\u00eda la<a href=\"https:\/\/www.argentina.gob.ar\/noticias\/se-aprobo-la-estrategia-nacional-de-salud-digital-2018-2024\"> Estrategia Nacional de Salud Digital 2018-2024<\/a>, para la obtenci\u00f3n de sistemas de informaci\u00f3n interoperables entre distintos niveles de atenci\u00f3n y jurisdicciones, que promete mejorar la cantidad de informaci\u00f3n disponible en nuestro pa\u00eds.<\/p>\n<p>\u00a0<\/p>\n<\/div><div class=\"fusion-clearfix\"><\/div><\/div><\/div><\/div><\/div>","protected":false},"excerpt":{"rendered":"","protected":false},"author":9,"featured_media":1725,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[71,12],"tags":[29,28,30],"class_list":["post-1724","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-actualidad","category-noticias","tag-aprendizaje-automatico","tag-inteligencia-artificial","tag-lenguaje"],"_links":{"self":[{"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/posts\/1724","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/users\/9"}],"replies":[{"embeddable":true,"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/comments?post=1724"}],"version-history":[{"count":5,"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/posts\/1724\/revisions"}],"predecessor-version":[{"id":2149,"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/posts\/1724\/revisions\/2149"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/media\/1725"}],"wp:attachment":[{"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/media?parent=1724"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/categories?post=1724"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/tags?post=1724"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}