Investigadores encuentran graves errores en el sistema de predicción de embarazos adolescentes

Integrantes del Laboratorio de Inteligencia Artificial Aplicada del ICC realizaron un informe que detalla serios errores técnicos y conceptuales en el uso de un sistema de inteligencia artificial supuestamente capaz de predecir en forma automática embarazos adolescentes, mencionado por el Gobernador de Salta, Juan Manuel Urtubey.

En pleno debate por la despenalización del aborto en el Congreso, el gobernador de Salta Juan Manuel Urtubey, explicó en el programa “El Diario de Mariana” (Canal 13) en qué consistía el plan piloto del Ministerio de la Primera Infancia de Salta: “Con la tecnología vos podés prever cinco o seis años antes, con nombre, apellido y domicilio, cuál es la niña, futura adolescente, que está en un 86 por ciento predestinada a tener un embarazo adolescente”.

Previamente, en el evento “Microsoft Data & AI Experience 2018”, Urtubey ya había mencionado este tema: “Los ejemplos que hacías referencia en el caso de la prevención de embarazo adolescente y el tema de la deserción escolar son ejemplos clarísimos respecto de eso. Nosotros tenemos claramente definidos, con nombre y apellido, 397 casos de chicos que sabemos, de un universo de 3000, que inexorablemente caen en deserción escolar. Tenemos 490 y pico, casi 500 casos de chicas que, sabemos, que tenemos que ir a buscarlas hoy.”

Estas declaraciones fueron asociadas por distintos medios periodísticos a partir de un Documento disponible en Github firmado por Facundo Davancens, empleado de Microsoft Argentina, que termina agradeciendo al Ministerio de Primera Infancia del Gobierno Provincial de Salta y a Microsoft. Las repercusiones de los dichos de Urtubey y la gravedad del documento llevaron a investigadores del Laboratorio de Inteligencia Artificial Aplicada (LIAA), del ICC, a analizar minuciosamente el caso de estudio. El informe del LIAA está disponible para consulta.

Los integrantes del laboratorio llegaron a la conclusión de que la propuesta tiene serios problemas metodológicos y datos pocos confiables que plantean el riesgo de tomar medidas incorrectas a los responsables de políticas públicas. Se trata de un claro ejemplo de los peligros de utilizar los resultados de una computadora como una “verdad revelada”.

Estos científicos señalan, en el informe mencionado, que las técnicas de inteligencia artificial: “son poderosas y demandan responsabilidad por parte de quienes las emplean, son sólo una herramienta más, que debe complementarse con otras, y de ningún modo reemplazan el conocimiento o la inteligencia de un experto”, especialmente en un área tan sensible como la salud pública y los sectores vulnerables.

“Cometieron un primer error técnico, lo que los llevó a hacer algo así como trampa en un examen pero creemos que fue sin darse cuenta. Evaluaron el modelo de predicción en datos que ya habían usado para aprender. Es equivalente memorizarse las respuestas previamente. Cuantas más hayas aprendido, mejor te va a ir, pero eso no implica que hayas aprendido mucho sobre el tema”, puntualiza Luciana Ferrer, Investigadora del ICC. El otro error del sistema fue utilizar datos sesgados o incompletos que de ningún modo predicen embarazos a futuro sino que en realidad solo están actuando sobre los ocurridos en el pasado o sobre los que ya están en curso.

“Se está asumiendo que las encuestadas declararon la verdad sobre si habían estado embarazadas o estaban embarazadas en ese momento. En un tema tan delicado como el embarazo adolescente, sería cauteloso asumir que muchas adolescentes mintieron, sobre todo si abortaron. Esto implica que, al usar estos datos, estaremos aprendiendo información sesgada, influenciada por factores como cuáles sectores de la población tienen más facilidades para abortar o en qué sectores es más tabú quedar embarazada en la adolescencia y por lo tanto es algo que la adolescente escondería”, detalla Ferrer.

En síntesis, el informe elaborado por el LIAA resume así los 3 problemas detectados en el sistema propuesto: 1) Resultados artificialmente sobredimensionados, 2) Datos posiblemente sesgados y 3) Datos inadecuados.