María Vanina Martínez es profesora del Departamento de Computación, investigadora de CONICET, doctora en Ciencias de la Computación de la Universidad de Maryland y cuenta con un posdoctorado en la Universidad de Oxford. Es Licenciada en Ciencias de la Computación de la Universidad Nacional del Sur (Bahía Blanca). Recibió la mención de la revista IEEE Intelligent Systems como una de las diez promesas mundiales en Inteligencia Artificial y el premio Estímulo de la Academia Nacional de Ciencias Exactas, Físicas y Naturales, en el área de Ciencia de la Ingeniería, por sus relevantes aportes en la disciplina.

En agosto de 2021 fue designada Directora del Programa de Ciencia de Datos e Inteligencia Artificial de la Fundación Sadosky. Para saber más acerca de los proyectos e iniciativas que está liderando en materia de datos, el DC conversó en detalle con Vanina.

A partir de tu reciente designación como Directora del Programa de Ciencia de Datos e Inteligencia Artificial, quería preguntarte en qué proyectos e iniciativas se encuentran trabajando.

El Programa de Ciencia de Datos e Inteligencia Artificial de la Fundación Sadosky tiene como objetivo general ayudar a consolidar a nuestro país, ya sea en el sector público como privado, como un líder regional en la temática. Es un objetivo clave para el desarrollo económico y social de la Argentina. Desde la Fundación nos planteamos una serie de metas específicas, a corto y mediano plazo, para tratar de ayudar al sector público a insertarse en esta era de explotación de datos masivos y herramientas de inteligencia artificial, alcanzándolo de la manera más criteriosa y efectiva que sea posible.

Para ello el programa trazó tres verticales que definen nuestro modo de trabajar:

1) Asesoramiento: cualquier organización del sector público o privado que necesite asesoramiento en temas de ciencia de datos e inteligencia artificial puede recurrir a nosotros, ya sean organismos del Estado o empresas del sector productivo, que tengan muchos datos disponibles pero no cuenten con los recursos humanos para gestionar su explotación. Pero también nosotros fomentamos la vinculación con estos sectores buscando demandas insatisfechas, problemas que haya que resolver ya sea desde la gobernanza de datos, la explotación y el análisis o bien el desarrollo de modelos y sistemas de software que implementen esas soluciones. Podemos trabajarlo desde nuestro equipo de científicos de datos o podemos conectarnos con grupos de investigadores de universidades e institutos para que cubran algún proyecto específico.

A lo largo de estos años hemos tenido demandas muy diversas, desde ver qué hacer con datos recolectados durante varios años para responder las preguntas que tenía la organización hasta proyectos que ya tenían desarrollado cierto trabajo con los datos pero tenían problemas de inconsistencia o normalización de los datos. Por ejemplo, estamos trabajando con la Dirección Provincial de Vialidad de Santa Fe. A lo largo de los años, el organismo ha recolectado información sobre siniestros viales en las distintas rutas de la provincia y quieren hacer un modelo predictivo sobre esos datos para poder prever cuáles son los puntos claves donde más accidentes ocurren y tratar de explicar las causas de esos accidentes.

2) Educación: este año y el próximo nos vamos a enfocar en dos proyectos que me entusiasman mucho. Por un lado, junto a las cámaras empresarias del sector estamos armando un proyecto que consiste en capacitar a los profesionales que trabajan en empresas de software, en temas de ciencia de datos que están en el borde del estado del arte. Se trata de temas muy novedosos y generalmente para las empresas más pequeñas es difícil tener profesionales tan especializados, principalmente por una cuestión de costos y también de oferta y demanda de profesionales. Por otro lado, estamos trabajando en una capacitación conjunta entre la Fundación Sadosky y el Ministerio de Ciencia, Tecnología e Innovación Productiva junto al Ministerio de Salud; para generar una serie de cursos básicos sobre gobernanza de datos, calidad de datos, manejo de datos y algunos principios de modelos de ciencia de datos, destinados a los directores de las unidades técnicas de los ministerios de salud de las distintas provincias de Argentina.

3) Difusión: desde el programa nos parece muy importante acercarnos a la sociedad y propiciar la enseñanza sobre cómo encarar de manera crítica, constructiva y responsable el uso de estas herramientas de ciencia de datos e inteligencia artificial, que están muy involucradas en el uso intensivo de redes sociales o sistemas de recomendación. Este año uno de nuestros objetivos es trabajar con las sociedades civiles, dictando charlas o talleres específicos en tecnologías específicas que estén relacionadas con la temática. La idea es darle a la sociedad civil argumentos a favor de por qué estas tecnologías tienen que existir, cómo tienen que existir, cómo las tenemos que usar y sobre todo entender cuál es el uso que se les da a nuestros datos y cómo deberían ser recolectados. También algo muy nuevo en lo que estamos trabajando con Program.ar, es una serie de talleres para chicas y chicos de secundario, para mostrarles qué es la ciencia de datos, por qué es tan importante para la actualidad de nuestro país tener gente que se dedique a aprender esa disciplina y poder tener una oferta de profesionales capacitados en todo el espectro del sector productivo. Estamos trabajando en ver cuáles son los conceptos que le podemos transmitir a alguien que está en la enseñanza media para que dispongan de las herramientas para elegir si es una vocación o una carrera que les interese.

A principios de este año realizaste una publicación, que tuvo un fuerte impacto, sobre El rol del ciudadano en la protección de datos personales. Más allá de la responsabilidad de la ciudadanía en el tema, ¿cómo te parece que las tecnologías de ciencia de datos e inteligencia artificial pueden ayudar a mejorar la privacidad así como la seguridad de los datos personales que se tratan habitualmente?

Creo que el aprendizaje automático (machine learning) por sí solo, así como funciona hoy con métodos estadísticos sobre los datos, no nos va alcanzar para diseñar sistemas realmente inteligentes que -por ejemplo- nos puedan ayudar a prevenirnos de fake news, exposición a discurso de odio o bullying en las redes sociales. Para que esos sistemas puedan ayudarnos realmente a resolver esos problemas necesitan tener algún otro tipo de conocimiento, de estructura que va más allá de los datos crudos que hoy analizan o explotan y hay que ver cómo construirlos. Todavía nos queda investigación para hacer.

Hay una clara diferencia que a mí me gusta hacer entre Datos, Información y Conocimiento. Para tener sistemas tecnológicos basados en IA que sean realmente inteligentes y nos puedan ayudar a que haya una sinergia con el humano (en el mismo orden de razonamiento o de funcionamiento cognitivo), necesariamente esos sistemas deben tener conocimiento. Con los modelos de inteligencia artificial que tenemos hoy, lo que hacemos es simplemente ver información y todavía falta contextualizar y abstraer la información, en el sistema más grande para nosotros, el sistema sociotecnológico, donde los sistemas de información realmente funcionan. Por eso podemos usar la tecnología para no causar más problemas de los que estamos causando.

¿Y cómo se logra encauzar el uso de la tecnología de la forma que proponés?

Debemos enfocar estos desarrollos en el tipo de cosas que realmente nosotros como sociedad queremos aceptar y evolucionar hacia ese camino.  Esto depende de quién idea los sistemas y de quién los desarrolla y de las decisiones que toma. Porque el programa o la aplicación pueden traer problemas muy graves de discriminación, sesgo o lo que se nos ocurra. Es una decisión de las empresas, de los organismos, de quiénes idean los sistemas y de quienes los diseñan, tener el objetivo de pensarlos no como un programa o aplicación que solucione un problema funcional (los requisitos funcionales de un sistema) sino que hay muchos otros requisitos que tienen que ver con la legalidad de cómo utilizamos esos datos, para qué los usamos y la ética que depende de la sociedad en la que estamos. La ética es algo que se va moviendo a medida que la sociedad evoluciona. Hoy estamos en un momento muy interesante donde como sociedad estamos planteando qué cosas sí queremos de la tecnología y qué cosas no.

Se trata de pensar no sólo para qué se usan los datos sino cómo fueron recolectados, que efectivamente cuando nosotros damos esos datos sabemos para qué se van a usar. Entiendo que es una tarea difícil, porque con el correr del tiempo cambian las posibilidades de explotar los datos para resolver nuevos problemas. Cambian tanto y es tan rápido el proceso que es un poco difícil asegurarse que los datos no se usen para otro fin el día de mañana. También tenemos que encontrar la manera, desde un punto de vista legal  y ético, de que yo cuando entregue mis datos, si el día de mañana me doy cuenta o me avisan que esos datos están siendo usados para algo que yo no quiero, pueda decidir retirarlos.

Toda la investigación que se está desarrollando en Europa alrededor de la protección de datos personales y el uso de inteligencia artificial tiene que ver con esa premisa: El ciudadano es quien controla las datos (la institución o empresa administradora nos da los datos bajo estos términos, si mañana los términos cambian tengo la potestad de decidir qué hago, los puedo sacar, modificar o decidir para qué aplicaciones usarlos). Esto, en definitiva, requiere de mucha infraestructura y también educación en la población.

Volviendo al tema de las iniciativas de Ciencia de datos, ¿planean organizar nuevas Competencias de Meta:Data?

En cuanto a Competencias, estamos en un momento de transición sobre cómo va a funcionar Meta:Data en el futuro. No obstante, para este año estamos trabajando con YPF para desarrollar una competencia específica sobre una serie de problemas que ellos tienen y están muy interesados en abrir la competencia. También Meta:Data va a estar presente en la Escuela de Ciencias Informáticas (ECI 2022), para lanzar nuevas propuesta de resolución de problemas de datos. Veremos cómo evoluciona, es un framework muy interesante que hay que profesionalizarlo para que podamos usarlo de manera más eficiente.

¿Habrá en algún momento Becas para profesionales o investigadores en ciencia de datos?

En lugar de becas, este año gran parte de nuestros esfuerzos están puestos en un Programa de soluciones innovadoras de software. Está pensado para que diversas empresas (pequeñas, medianas o grandes), que tengan algún tipo de desafío que implique innovación en software, puedan acceder a un grupo de investigación que los ayude a resolver esos problemas. Pueden ser problemas completamente nuevos cuyas soluciones haya que desarrollar desde cero, desde un punto de vista científico-técnico, o incluso pueden ser soluciones o herramientas que ya existen en otros países pero que para nosotros es muy difícil acceder (por una cuestión de presupuesto o incluso por cuestiones legales). Cabe aclarar que muchos de los sistemas, sobre todo los que tienen que ver con datos, no son tan fáciles de transferir de un país a otro (las restricciones son distintas de acuerdo a la legislación). Entonces el programa también está enfocado en ese tipo de problemas y de búsqueda de soluciones.  Lo que va a hacer la Fundación es financiar a estos grupos de investigación (cada uno compuesto por 3 investigadores) durante un año y acoplar a la empresa a un grupo de investigación que pueda tomar el desafío que la empresa proponga (la Fundación va a hacer esta sinergia para unir a ambas partes).  El objetivo es generar un producto que sea aplicable. Es una propuesta muy innovadora y estamos muy entusiasmados de poder lanzar este programa. Hasta el 11 de abril están abiertas las convocatorias.

En cuanto a tu rol como profesora del DC, ¿qué materias estás dictando actualmente y cuáles otras tenés previstas dictar? ¿Cuál es la importancia de cada una en la curricula?

Siempre doy Bases de Datos, es una materia troncal del plan de estudios de la Licenciatura y me parece que es muy importante para quienes se quieran dedicar a trabajar en ciencia de datos y también en inteligencia artificial. A veces en muchos programas queda olvidada la importancia de esta materia, en especial por los fundamentos de las bases de datos, cómo funcionan, para qué existen, por qué usamos las bases de datos que usamos en este momento y no otras, hacia dónde va la tendencia, qué hace un administrador de bases de datos y en qué se diferencia un administrador de un ingeniero de datos. Como mencionaba antes, de los datos pasamos a la información y de la información pasamos al conocimiento. No puede haber un sistema inteligente sino hay una buena gobernanza de los datos. Eso implica también el almacenamiento de esos datos, cómo los transferimos, los guardamos, los analizamos o estudiamos.

Después estoy dando dos optativas -una que la doy con mi colega Ricardo Rodríguez quien también es profesor del DC-  que es Ética e Inteligencia Artificial. Se trata de un seminario donde abordamos todos los temas que estábamos conversando recién. Cuáles son los problemas sociales y éticos que nos trae el uso de las tecnologías basadas en inteligencia artificial. La otra materia que estimo voy a dar en el segundo cuatrimestre de este año es Inteligencia  Computacional. Es una materia de introducción a la inteligencia artificial pero vista desde lo más amplio de la disciplina; no sólo IA y Big Data sino también lo relacionado con la lógica, el razonamiento, la representación de conocimiento, el uso de modelos probabilísticos, manejo de la incertidumbre e inconsistencias, todas tareas cognitivas que exceden a la explotación de datos.

Por último, ¿cómo te resultó dar clases a distancia?

Una cosa que me pasó es que tuve que reestructurar completamente la manera en la que solía dar mis clases. Si bien siempre usé diapositivas en la computadora, me di cuenta que con la modalidad virtual de por medio no era lo mismo. La realidad es que me costó darme cuenta realmente cuánto seguían de la clase siguiendo los alumnos y las alumnas. Tengo una política de que el que no quiera prender la cámara que no la prenda, pero en el contexto en el que estamos viviendo en la pandemia, entiendo que para mucha gente era muy difícil exponer el ambiente en el que estaban (con su familia, en un espacio público, etc.). Me parecía muy importante respetar esa privacidad. El tema es que de mi lado, sin la cámara y sin ver a los y las estudiantes, no me pude dar cuenta dónde tenía que parar o si tenía que hacer hincapié en algún concepto que se perdía.

A lo que recurrí, que me pareció una técnica muy interesante, es la clase invertida: grababa los videos como si los estuviera dando en la clase teórica, los veían en el campus varios días antes y después hacía una teórica más reducida donde arrancaba mostrando los temas más importante en los que había que enfocarse, y a veces haciendo algún tipo de quiz, preguntas-respuestas, o abriendo a la discusión con consultas concretas para los que ya habían mirado el material las clases. A mí me resultó bastante útil, me di cuenta de quiénes estaban entendiendo, quiénes no, qué temas les estaban resultando más complicados de entender, y además a los alumnos les gustó mucho la dinámica, sobre todo de preguntas y respuestas, se animaban y “competían” entre ellos para ver quiénes sacaban mejor puntaje. Aunque la idea no era obtener una nota de eso.

También es muy cómodo dar clase así, uno termina de dar la clase y tiene la cocina al lado, ya que doy clases a la noche. No hay que viajar a la facultad. Pero aun así la verdad es que a mí me gusta mucho ver a alumnos y alumnas, sus reacciones y ver esa interacción cara a cara en las clases. Por eso prefiero la presencialidad, quiero que vuelvan las clases presenciales y estoy contenta de poder volver a esa modalidad.