{"id":2357,"date":"2022-08-09T09:35:30","date_gmt":"2022-08-09T12:35:30","guid":{"rendered":"https:\/\/icc.fcen.uba.ar\/?p=2357"},"modified":"2022-08-16T13:30:13","modified_gmt":"2022-08-16T16:30:13","slug":"deteccion-de-epidemias-a-partir-de-textos-periodisticos","status":"publish","type":"post","link":"https:\/\/icc.fcen.uba.ar\/en\/deteccion-de-epidemias-a-partir-de-textos-periodisticos\/","title":{"rendered":"Detecci\u00f3n de epidemias a partir de textos period\u00edsticos"},"content":{"rendered":"<div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-1 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-flex-start fusion-flex-content-wrap\" style=\"max-width:1144px;margin-left: calc(-4% \/ 2 );margin-right: calc(-4% \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-0 fusion_builder_column_1_1 1_1 fusion-flex-column\" style=\"--awb-bg-size:cover;--awb-width-large:100%;--awb-margin-top-large:0px;--awb-spacing-right-large:1.92%;--awb-margin-bottom-large:20px;--awb-spacing-left-large:1.92%;--awb-width-medium:100%;--awb-order-medium:0;--awb-spacing-right-medium:1.92%;--awb-spacing-left-medium:1.92%;--awb-width-small:100%;--awb-order-small:0;--awb-spacing-right-small:1.92%;--awb-spacing-left-small:1.92%;\"><div class=\"fusion-column-wrapper fusion-column-has-shadow fusion-flex-justify-content-flex-start fusion-content-layout-column\"><div class=\"fusion-text fusion-text-1\"><p><span style=\"font-weight: 400;\">Investigadores desarrollan un proyecto para detectar epidemias utilizando el monitoreo y an\u00e1lisis de textos period\u00edsticos escritos en espa\u00f1ol. El trabajo tiene como principales desafios anotar un corpus de textos para validar y procesar los datos extra\u00eddos e implementar algoritmos que aprendan autom\u00e1ticamente de esos mismos datos. Este proceso de trabajo se convirti\u00f3 en una reciente tesis de licenciatura.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Los sistemas de vigilancia epidemiol\u00f3gica consisten en estrategias consolidadas para detectar tempranamente la aparici\u00f3n o distribuci\u00f3n de una enfermedad o infecci\u00f3n y, a partir de ello, desarrollar programas de prevenci\u00f3n, control o erradicaci\u00f3n. Al mismo tiempo, realizar una evaluaci\u00f3n sistem\u00e1tica de la situaci\u00f3n epidemiol\u00f3gica permite identificar r\u00e1pidamente en qu\u00e9 escenario se encuentra cada territorio para poder alertar y tomar decisiones en funci\u00f3n de posibles cambios de escenario.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Dentro de estos sistemas, la recolecci\u00f3n y an\u00e1lisis de datos de casos de las enfermedades es sumamente esencial. De este modo, existen dos tipos de sistemas, los formales o tradicionales que se basan en reportes oficiales de los sistemas u organismos de salud p\u00fablica. Y los sistemas de vigilancia basados en eventos, que recolectan los datos a partir de fuentes no tradicionales tales como sitios de internet o art\u00edculos period\u00edsticos, entre otras fuentes, informaci\u00f3n no tradicional que usualmente se genera m\u00e1s r\u00e1pido que la informaci\u00f3n oficial. No obstante, el problema de procesar el enorme volumen de datos que circula y obtener informaci\u00f3n de valor para la toma de decisiones en pol\u00edticas p\u00fablicas est\u00e1 muy vigente, especialmente a partir del uso de t\u00e9cnicas de procesamiento del lenguaje natural que ayudan a clasificar esos datos.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Intentando enfrentar este problema, un proyecto de colaboraci\u00f3n entre el ICC UBA-CONICET y la Universidad Cat\u00f3lica San Pablo de Arequipa (UCSP), Per\u00fa, se propuso aplicar el an\u00e1lisis de textos period\u00edsticos en espa\u00f1ol para la detecci\u00f3n de enfermedades epidemiol\u00f3gicas presentes en Latinoam\u00e9rica. \u201c<\/span><i><span style=\"font-weight: 400;\">Previamente a la aparici\u00f3n del Covid-19 hab\u00eda muchos nombres de enfermedades end\u00e9micas que estaban surgiendo o circulando con m\u00e1s preponderancia. A partir de nuestro inter\u00e9s acad\u00e9mico, observamos que -adem\u00e1s de las fuentes oficiales- los epidemi\u00f3logos tambi\u00e9n utilizan fuentes no tradicionales para la vigilancia y al notar que se hablaba poco de esas enfermedades, encontramos una oportunidad no aprovechada para trabajar con el an\u00e1lisis de los datos provenientes de fuentes period\u00edsticas<\/span><\/i><span style=\"font-weight: 400;\">\u201d, puntualiza <\/span><b>Viviana Cotik<\/b><span style=\"font-weight: 400;\">, Investigadora especializada en Procesamiento del Lenguaje Natural del ICC y Doctora en Ciencias de la Computaci\u00f3n.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">El proyecto comenz\u00f3 hace m\u00e1s de tres a\u00f1os a partir de la convocatoria del investigador Jos\u00e9 Ochoa-Luna, profesor de inteligencia artificial de la UCSP. A partir de distintas fuentes, los investigadores decidieron usar ProMED-Mail, uno de los mayores sistemas de vigilancia en la web, que re\u00fane art\u00edculos period\u00edsticos de los medios masivos y los edita para poder aplicar filtros en distintos idiomas. \u201c<\/span><i><span style=\"font-weight: 400;\">Seleccionamos y filtramos la informaci\u00f3n de ese sitio, tomando 1377 art\u00edculos en espa\u00f1ol y buscando palabras claves que tienen que ver con siete enfermedades end\u00e9micas en nuestra regi\u00f3n: Dengue, Guillan-barr\u00e9, Zika, Chagas, Sarampi\u00f3n, Hanta Virus y Microcefalia. Nuestro objetivo era saber cu\u00e1ntos casos de cada enfermedad hab\u00eda, ubicaci\u00f3n geogr\u00e1fica donde ataca, a qui\u00e9nes, causas y formas de transmisi\u00f3n, y en qu\u00e9 fechas exactamente ocurri\u00f3 el brote de la enfermedad<\/span><\/i><span style=\"font-weight: 400;\">\u201d, comenta Cotik.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">No obstante, estructurar la informaci\u00f3n de los textos para poder representarla y visualizarla en un mapa, es una tarea muy compleja que usualmente requiere de un trabajo detallado de anotaci\u00f3n de los textos y de la implementaci\u00f3n de\u00a0 algoritmos para extraer la informaci\u00f3n de inter\u00e9s. Estos desaf\u00edos, propios del proyecto, convergieron en la Tesis de Licenciatura de Antonella Dellanzo \u201c<\/span><a href=\"https:\/\/www.youtube.com\/watch?v=NFFC0Pj4LL4\" target=\"_blank\" rel=\"noopener noreferrer\"><span style=\"font-weight: 400;\">Detecci\u00f3n de epidemias en textos period\u00edsticos escritos en espa\u00f1ol<\/span><\/a><span style=\"font-weight: 400;\">\u201d.<\/span><\/p>\n<p><b>El desaf\u00edo de anotaci\u00f3n de los textos period\u00edsticos<\/b><\/p>\n<p><span style=\"font-weight: 400;\">En lo que hace a tareas propias del procesamiento del lenguaje natural,los investigadores deben seleccionar un conjunto de textos a anotar y elaborar un criterio de anotaci\u00f3n (teniendo en cuenta qu\u00e9 conceptos y relaciones entre esos conceptos son importantes). Una vez definidos los conceptos a anotar y criterios de anotaci\u00f3n, la tarea de anotaci\u00f3n del corpus de textos consiste en elaborar un documento con esos criterios, se capacita a los anotadores, los cuales anotan una porci\u00f3n de los datos, se eval\u00faa cu\u00e1n buena es esta anotaci\u00f3n y, en funci\u00f3n de esto, se hacen las correcciones al documento de criterios, realizando este ciclo varias veces con diferentes iteraciones, por lo que reci\u00e9n all\u00ed se hace la anotaci\u00f3n definitiva.<\/span><\/p>\n<div id=\"attachment_2358\" style=\"width: 929px\"  class=\"wp-caption alignnone\"><img decoding=\"async\" class=\"lazyload wp-image-2358 size-full\" src=\"https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/Imagen1.png\" data-orig-src=\"https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/Imagen1.png\" alt=\"\" width=\"919\" height=\"269\" srcset=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%27919%27%20height%3D%27269%27%20viewBox%3D%270%200%20919%20269%27%3E%3Crect%20width%3D%27919%27%20height%3D%27269%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-srcset=\"https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/Imagen1-200x59.png 200w, https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/Imagen1-300x88.png 300w, https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/Imagen1-400x117.png 400w, https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/Imagen1-600x176.png 600w, https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/Imagen1-768x225.png 768w, https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/Imagen1-800x234.png 800w, https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/Imagen1.png 919w\" data-sizes=\"auto\" data-orig-sizes=\"(max-width: 919px) 100vw, 919px\" \/><p class=\"wp-caption-text\">(ejemplo de anotaci\u00f3n). Fuente: Tesis de Dellanzo.<\/p><\/div>\n<p><span style=\"font-weight: 400;\">En este contexto, Cotik explica que, entre otras tareas, se trabaj\u00f3 en la limpieza de las notas period\u00edsticas, eliminando la informaci\u00f3n no significativa de encabezados y pie de p\u00e1gina, y qued\u00e1ndose solo con el t\u00edtulo y cuerpo de la nota. Tambi\u00e9n se realiz\u00f3 una normalizaci\u00f3n del contenido, para poder unificar la manera en que se menciona a las enfermedades y su contenido asociado (ya que el mismo contenido es nombrado de distinta forma en las notas).\u00a0<\/span><\/p>\n<p><div id=\"attachment_2359\" style=\"width: 566px\"  class=\"wp-caption alignnone\"><img decoding=\"async\" class=\"lazyload wp-image-2359 size-full\" src=\"https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/imagen2.jpg\" data-orig-src=\"https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/imagen2.jpg\" alt=\"\" width=\"556\" height=\"221\" srcset=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%27556%27%20height%3D%27221%27%20viewBox%3D%270%200%20556%20221%27%3E%3Crect%20width%3D%27556%27%20height%3D%27221%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-srcset=\"https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/imagen2-200x79.jpg 200w, https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/imagen2-300x119.jpg 300w, https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/imagen2-400x159.jpg 400w, https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/imagen2.jpg 556w\" data-sizes=\"auto\" data-orig-sizes=\"(max-width: 556px) 100vw, 556px\" \/><p class=\"wp-caption-text\">(anotaci\u00f3n y evaluaci\u00f3n). Fuente: Tesis de Dellanzo<\/p><\/div>\n<div id=\"attachment_2360\" style=\"width: 586px\"  class=\"wp-caption alignnone\"><img decoding=\"async\" class=\"lazyload wp-image-2360 size-full\" src=\"https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/imagen3.jpg\" data-orig-src=\"https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/imagen3.jpg\" alt=\"\" width=\"576\" height=\"235\" srcset=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%27576%27%20height%3D%27235%27%20viewBox%3D%270%200%20576%20235%27%3E%3Crect%20width%3D%27576%27%20height%3D%27235%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-srcset=\"https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/imagen3-200x82.jpg 200w, https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/imagen3-300x122.jpg 300w, https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/imagen3-400x163.jpg 400w, https:\/\/icc.fcen.uba.ar\/wp-content\/uploads\/2022\/08\/imagen3.jpg 576w\" data-sizes=\"auto\" data-orig-sizes=\"(max-width: 576px) 100vw, 576px\" \/><p class=\"wp-caption-text\">(implementacion Kappa). Fuente: Tesis de Dellanzo<\/p><\/div><\/p>\n<p><span style=\"font-weight: 400;\">\u201c<\/span><i><span style=\"font-weight: 400;\">Con un equipo de ocho personas, compuesto por cuatro estudiantes de la UCSP, una tesista, un ling\u00fcista y dos investigadores, realizamos el trabajo de anotaci\u00f3n de los textos. Al no contar con financiamiento, nos llev\u00f3 un poco m\u00e1s de un a\u00f1o realizar la anotaci\u00f3n de ese subconjunto de textos, 513 art\u00edculos de los m\u00e1s de mil seleccionados. Adem\u00e1s actualmente, seg\u00fan entendemos existen muy pocos corpus anotados en espa\u00f1ol<\/span><\/i><span style=\"font-weight: 400;\">\u201d, detalla la investigadora. Y complementa: \u201c<\/span><i><span style=\"font-weight: 400;\">Hay dos subtareas espec\u00edficas de procesamiento del lenguaje natural (NLP), la primera es el reconocimiento de reconocimiento de entidades nombradas (NER) donde extraemos los fragmentos de texto que contienen nombres de enfermedades, ubicaci\u00f3n, fecha de aparici\u00f3n, cantidad de casos, etc. y se clasifican en categor\u00edas preestablecidas. La segunda tarea consiste en la detecci\u00f3n de relaciones entre dos o tres entidades nombradas, no s\u00f3lo la aparici\u00f3n de la enfermedad sino relacionar d\u00f3nde ocurri\u00f3 o a cu\u00e1ntas personas afect\u00f3. De este modo, se puede extraer valor de los datos<\/span><\/i><span style=\"font-weight: 400;\">\u201d.\u00a0 El complejo trabajo de anotaci\u00f3n de los textos deriv\u00f3 en la publicaci\u00f3n del paper &#8220;<\/span><a href=\"https:\/\/aclanthology.org\/2020.conll-1.44\/\" target=\"_blank\" rel=\"noopener noreferrer\"><span style=\"font-weight: 400;\">A Corpus for Outbreak Detection of Diseases Prevalent in Latin America<\/span><\/a><span style=\"font-weight: 400;\">&#8221; (2020).<\/span><\/p>\n<p><span style=\"font-weight: 400;\">\u00bfC\u00f3mo son los algoritmos propios de esta tarea de procesamiento? El primer tipo de algoritmos est\u00e1 basado en reglas (<\/span><span style=\"font-weight: 400;\">por ej. para detectar la cantidad de casos de una enfermedad no se consideran n\u00fameros que puedan hacer referencia a porcentajes o a fechas y se busca que los n\u00fameros detectados est\u00e9n en la proximidad de ciertas palabras clave)<\/span><span style=\"font-weight: 400;\">, mientras que el segundo tipo de algoritmos tiene que ver con el uso de redes neuronales profundas, para que los propios algoritmos aprendan a partir de los datos . <\/span><span style=\"font-weight: 400;\">Cotik afirma que se necesita el apoyo de expertos, incluso en ling\u00fc\u00edstica, para definir los criterios y que se entienda cu\u00e1les son las enfermedades de inter\u00e9s, qu\u00e9 partes del texto hacen referencia a c\u00f3mo se transmiten, y a cu\u00e1les son sus causas, etc. ya que esos datos son los que se usar\u00e1n para entrenar y evaluar al algoritmo de aprendizaje autom\u00e1tico.<\/span><span style=\"font-weight: 400;\"> \u201c<\/span><i><span style=\"font-weight: 400;\">Es un trabajo muy arduo, la informaci\u00f3n anotada debe tomarse como valedera, es importante intentar <\/span><\/i><i><span style=\"font-weight: 400;\">evitar contar con una colecci\u00f3n con datos sesgados<\/span><\/i><i><span style=\"font-weight: 400;\">.<\/span><\/i><i><span style=\"font-weight: 400;\"> Nosotros armamos un documento de base, capacitamos a los anotadores, redefinimos criterios a partir del desarrollo de las anotaciones y reci\u00e9n ah\u00ed se lanz\u00f3 el documento final que los anotadores utilizaron para realizar la anotaci\u00f3n definitiva<\/span><\/i><span style=\"font-weight: 400;\">\u201d, sostiene la investigadora en IA.<\/span><\/p>\n<p><b>Pr\u00f3ximos desaf\u00edos<\/b><\/p>\n<p><span style=\"font-weight: 400;\">En cuanto al trabajo a futuro la investigadora del ICC aclara que, entre otros, ser\u00eda interesante mejorar y ampliar las anotaciones y poder mostrar los resultados en un mapa. \u201c<\/span><i><span style=\"font-weight: 400;\">513 art\u00edculos son a\u00fan muy pocos datos para poder entrenar un algoritmo de aprendizaje profundo. Aunque para este proyecto en particular los algoritmos de machine learning suelen funcionar mejor que los de reglas, lograr ponerlos a punto y contar con los datos anotados necesarios para entrenarlos puede ser m\u00e1s costoso<\/span><\/i><span style=\"font-weight: 400;\">\u201d, concluye Cotik.\u00a0<\/span><\/p>\n<\/div><\/div><\/div><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Investigadores desarrollan un proyecto para detectar epidemias utilizando el monitoreo y an\u00e1lisis de textos period\u00edsticos escritos en espa\u00f1ol. El trabajo tiene como principales desafios anotar un corpus de textos para validar y procesar los datos extra\u00eddos e implementar algoritmos que aprendan autom\u00e1ticamente de esos mismos datos. Este proceso de trabajo se convirti\u00f3 en una reciente tesis de licenciatura.<\/p>\n","protected":false},"author":9,"featured_media":2361,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[12],"tags":[28,30],"class_list":["post-2357","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-noticias","tag-inteligencia-artificial","tag-lenguaje"],"_links":{"self":[{"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/posts\/2357","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/users\/9"}],"replies":[{"embeddable":true,"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/comments?post=2357"}],"version-history":[{"count":4,"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/posts\/2357\/revisions"}],"predecessor-version":[{"id":2384,"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/posts\/2357\/revisions\/2384"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/media\/2361"}],"wp:attachment":[{"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/media?parent=2357"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/categories?post=2357"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/icc.fcen.uba.ar\/en\/wp-json\/wp\/v2\/tags?post=2357"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}