Search

¿Cómo hacer estadísticas oficiales transparentes que no expongan la vida privada de las personas?

En épocas de “big data” y “datos abiertos” crece la incertidumbre por saber cómo se hacen los números que sirven para diseñar las políticas. ¿Qué datos están disponibles y quienes pueden usarlos? Gracias a la estadística hay especialistas y técnicas que nos protegen

Por Javier Bussi*

En los últimos años creció la demanda de quienes quieren saber qué datos toma el Estado para saber cómo vivimos y diseñar políticas a partir de estadísticas como la tasa de desempleo o de escolaridad de una provincia. Esto se sustenta, en gran parte,
por el uso generalizado de Internet como herramienta de búsqueda y publicación de información. Entre los argumentos a favor de la disponibilidad de datos hay quienes sostienen que si pagás impuestos tenés derecho a acceder a la información generada por los institutos financiados con tus contribuciones.

Otros argumentos van al reconocimiento de los derechos de las personas como propietarias de esos datos independientemente de si paguen impuestos o no. Son quienes proveen esa información. Si no colaboraran respondiendo cuestionarios de los institutos como el Indec o el Ipec no habría datos ni estadísticas. Pareciera injusto no permitirles acceder a la información que contribuyeron, directa o indirectamente, a construir.

Parece haber un consenso de que los datos deben estar disponibles y que el acceso debe ser fácil y rápido. Lo que no está claro es cuánto de esa información debería estar disponible ni quién la podría ver ¿Una persona estaría dispuesta a que se sepa dónde vive, cómo está compuesta su familia, sus ingresos y gastos para que cualquiera pueda usar esa información? ¿Todo para sostener el derecho de estar informados? Posiblemente muy pocas personas concuerden con esto. La razón es que existe otro consenso al que llegaron la mayoría de las sociedades democráticas modernas. Incluso ha sido uno de los principios fundamentales de los complejos sistemas de leyes y regulaciones: el derecho a la privacidad.

La Constitución Argentina establece este derecho y para el caso específico correspondiente a los datos estadísticos provenientes de institutos oficiales, se cuenta con la ley 17.622 que establece en su artículo 10: “Las informaciones que se suministren a los organismos que integran el Sistema Estadístico Nacional serán estrictamente secretos y sólo se utilizarán con fines estadísticos”. La ley no solo defiende la privacidad. Tiene un fin más específico y no menos importante, al resguardar los datos, protege la confianza en el sistema estadístico. También alienta a que las personas sigan respondiendo preguntas sobre sus vidas de forma honesta. El secreto estadístico permite tener estadísticas confiables. Si no existiera o se violara, por ejemplo, con una publicación descuidada de datos confidenciales, muy pocos responderían futuras encuestas.

Entre la privacidad y la transparencia

Parece que existen dos derechos en conflicto. Uno, más asentado desde hace más de un siglo, de privacidad (y todo lo que trae: bienestar y seguridad) y otro, más reciente pero no menos fuerte, el de tener acceso a información como parte de un ejercicio de ciudadanía. Ambos tienen amplia aceptación en las sociedades democráticas y representan ideas loables, pero ¿cómo conviven?

Una respuesta, la cual está generando mucho interés en los institutos de estadística oficiales del mundo son los métodos de anonimización de datos. Son los que permiten generar cambios en los mismos para que la probabilidad de identificar a una persona que responde a una determinada encuesta sea muy baja y que al mismo tiempo los datos continúen siendo de gran utilidad aún después de esas modificaciones. Así se respetan los dos derechos.

Existen muchos métodos de anonimización que dependerán del tipo de preguntas y el enfoque. Conocer algunas de las respuestas de los encuestados permite identificarlo y eso pone en riesgo a la persona. Un caso extremo, pero muy ilustrativo, sería consultar sobre ocupación ¿Qué ocurriría si una persona declarara que es presidente de la Nación? Ese dato bastaría para conocer la identidad de la persona y tener acceso a todas sus otras respuestas.

Hay casos no tan simples, pero que con una combinación de las respuestas a unas pocas preguntas también se podría identificar de manera sencilla a una persona. Por ejemplo, lanzar una encuesta dirigida a turistas que llegan a Rosario. Uno de los visitantes encuestados responde que vive en Barcelona, que es jugador de fútbol, que su edad está entre los 25 y 35 años y que sus ingresos anuales exceden los 100 millones de dólares. No sería difícil deducir la identidad de ese encuestado. De hecho, Lionel Messi, a menudo pasa parte de sus vacaciones visitando familiares y amigos en la ciudad, es noticia y todos conocen esa información.

El peligro reside en conocer otros datos a los cuales habitualmente no se tiene acceso ¿Se sabe cuánto gasta Lionel en su visita a la ciudad? ¿Qué objetos compra? ¿Sale a comer a restaurantes? ¿Qué lugares de la ciudad visita o si compra vehículos onerosos? Tener acceso a esos datos, podría, en el mejor de los casos, hacer que reciba ofertas de autos de alta gama cada vez que abra una página web o promociones para visitar un determinado restaurante. Pero en otros casos, podrían ayudar a determinar con alta probabilidad sus movimientos en la ciudad, lo que ciertamente puede constituir un peligro para él o su familia. Situaciones similares se pueden extender al resto de las personas.

Para evitar que alguien identifique particularmente a las personas a partir de los datos que proveen para una determinada encuesta, quienes trabajan en estadística aplican técnicas de anonimización no perturbativas como la recodificación y supresión local, donde suprimen o reducen el detalle de la información pero sin alterar los datos originales.

Para el caso presidencial podría recodificarse las respuestas a la pregunta referida a la ocupación y agrupar varias respuestas en la categoría «Empleado del gobierno federal». Si se aplicara la técnica de supresión local, directamente se eliminaría la respuesta correspondiente a ocupación en ese caso en particular, pero no se modificaría ningún otro dato.

En ambos casos hay una pérdida de información, pero su impacto es relativamente menor. Y el riesgo de identificar a la persona disminuye considerablemente.

Existen otras técnicas de anonimización: las perturbativas, que generan una alteración de los datos originales. Por ejemplo, la adición de ruido, el Método de Post-Aleatorización (PRAM), la Microagregación y Shuffling.

La adición de ruido consiste en adicionar ruido de forma aleatoria a valores numéricos. Por ejemplo, a los gastos en alimentos y bienes o el ingreso laboral. El ruido puede tomar valores positivos o negativos. Suena difícil modificar los datos originales, pero gracias a los conocimientos en estadística podemos conocer el comportamiento de los valores adicionados y «perturbar» obteniendo resultados similares a los sacaríamos con los datos originales. Ganaríamos el proteger la privacidad.

Las técnicas perturbativas y no perturbativas se pueden combinar dando muy buenos resultados.

Las técnicas de anonimización permiten publicar conjuntos de datos que podrían ser utilizados por investigadores, empresas y usuarios en general sin violar el derecho a la privacidad y el derecho al acceso a la información.

Y todo gracias a…

Cualquiera puede googlear para conocer más sobre las técnicas de anonimización. Pero poder entenderlas y aplicarlas necesita de sólidos conocimientos de estadística, saber usar programas específicos y estudiar en profundidad las disciplinas y regulaciones del área alcanzada por las distintas encuestas.

El 20 de octubre celebramos el Día Internacional de la Estadística, una disciplina que se puede estudiar en varios lugares de Argentina. En Rosario está el programa de la Licenciatura en Estadística dentro en la Facultad de Ciencias Económicas y Estadística de la Universidad de Nacional de Rosario (UNR). No es cualquier carrera. Fue la primera creada en Latinoamérica hace más de 70 años y cuenta con un plan de estudios sólido que abarca variadas ramas de la estadística.

Además existe la Sociedad Argentina de Estadística, que es un organismo técnico-científico sin fines de lucro que trabaja en el desarrollo, divulgación, enseñanza e investigación en estadística en Argentina. Pueden agendar que entre el 27 y 30 de octubre realizarán su coloquio anual, por primera vez en su historia de manera virtual y con asistencia libre. Lo organizan con la Universidad Nacional de Córdoba (UNC).

Sin profesionales en estadística no podríamos enfrentar la tensión entre privacidad y acceso a la información manteniendo estadísticas útiles, confiables y representativas. Tampoco podríamos enfrentar las nuevas y variadas formas de datos que requieren ser analizados de una manera científica y rigurosa de cara al futuro. La Estadística es fundamental para dar respuesta a estas necesidades

* Bussi es director del departamento de Estadística y docente e investigador de la Facultad de Ciencias Económicas y Estadística de la UNR. Es licenciado en Estadística y magister en Estadística Aplicada en la Universidad de Michigan. También es vocal titular de la Sociedad Argentina de Estadística.

No es amor: la pandemia no frena el debate sobre el trabajo no remunerado y el uso del tiempo

10