Público
Público

Tecnología Demuestran cómo los datos personales anonimizados no garantizan la privacidad

Un nuevo estudio muestra cómo mediante el uso de técnicas de inteligencia artificial, como el aprendizaje automático ('machine learning'), se puede inferir con gran precisión la identidad de las personas a partir de un puñado de datos.

Publicidad
Media: 4
Votos: 2

Imagen: Pete Linforth | PIXABAY (CC0)

Nos prometen que nuestros datos van a estar seguros y que no es posible vincularlos a nuestra identidad real. Y nos piden confianza. No obstante, cada vez es más fácil saber quiénes somos a partir de fragmentos de información que en ocasiones cedemos involuntariamente y en otras, alegremente. Ahora, un grupo de investigadores alerta de lo fácil que es 'desanonimizar' los datos que se intercambian empresas y gobiernos; ha desarrollado una herramienta que muestra de modo muy preciso la probabilidad de invertir el proceso de 'anonimización' mediante técnicas de aprendizaje automático.

En un artículo publicado en la revista Nature Communications, investigadores del Imperial College de Londres indica cómo se puede entrenar programas con técnicas de inteligencia artificial y 'big data' para saltarse la anonimización de los datos personales e identificar a una persona a partir de datos sueltos, es decir, aquéllos que se recogen, se almacenan y alimentan un gigantesco mercado global.

Así, en la introducción del paper, los autores explican que con su modelo "es posible 'reidentificar' al 99,98% de los ciudadanos de Massachusetts (EEUU) en cualquier conjunto de datos con 15 atributos demográficos" como la edad, el género o el estado civil. Claro que esa cantidad de datos es muy grande y permite un perfilado bastante ajustado.

El autor principal, Yves-Alexandre de Montjoye, pone de relieve en una nota que los datos utilizados para el estudio son "información estándar" que las empresas suelen solicitar a sus clientes. Esos datos pueden venderse libremente a 'data brokers', a agencias de publicidad o a gobiernos en cualquier parte del mundo, una vez 'desvinculados' de la identidad de sus dueños. Sin embargo, De Montjoye alerta que la investigación "muestra con qué facilidad y con qué precisión se puede rastrear a los individuos".

"Las empresas y los gobiernos han minimizado el riesgo de 'reidentificación' argumentando que los conjuntos de datos que venden siempre están incompletos", afirma, y añade: "Nuestros hallazgos contradicen esto y demuestran que un atacante podría estimar con facilidad y precisión la probabilidad de que los datos obtenidos pertenezcan a una persona que esté buscando".

Para enseñar cómo funciona dicho modelo, han lanzado una herramienta 'online' que aplica de manera ficticia lo aprendido para medir la probabilidad de ser 'reidentificado' simplemente introduciendo un código postal (sólo de EEUU y Reino Unido), la fecha de nacimiento y el género.

Romper el vínculo entre el dato y la identidad

Para el ingeniero y abogado especializado en tecnología Sergio Carrasco, que no ha participado en ese estudio, sería interesante comprobar si hablan de datos 'anonimizados' (datos totalmente aislados de la identidad del sujeto) o 'pseudoanonimizados', es decir, que pertenezcan a un perfil de alguien a quien se le asigna un valor numérico en lugar del nombre. "Al final, detrás de ese identificador hay una identidad", apunta.

"Sin embargo, los datos 'anonimizados' serían aquellos en los que se ha roto el vínculo entre el dato y la identidad de la persona en cuestión", recuerda Carrasco, que apunta que "si realmente se ha procedido a una anonimización completa, es decir, que el dato no lleva ningún identificador agregado, ese dato tiene poco valor". Para este experto, el dato debería tener un grado mayor o menor de agregación para que sea interesante.

La AEPD reconoce que "existe un riesgo de que, una vez que se ha anonimizado un conjunto de datos, se pueda revertir esa anonimización"

Lo que compartimos en las redes, nuestra localización geográfica, nuestros datos médicos e incluso los metadatos, son recopilados con ansia por diversas compañías; todo ello plantea un problema de privacidad que preocupa en Europa (y en menor medida en EEUU), y que se suele solventar con la anonimización de los mismos. "La anonimización tiene que ser capaz de romper del todo el vínculo entre el dato y la identidad del ciudadano", apunta Carrasco.

Esos datos, desde el código postal hasta el género, se anonimizan para cumplir con algunas legislaciones duras como el Reglamento General de Protección de Datos europeo (RGPD). La propia Agencia Española de Protección de Datos (AEPD) cuenta con un reciente manual de recomendaciones sobre procesos de anonimización en el que, de hecho, se reconoce que "existe un riesgo de que, una vez que se ha anonimizado un conjunto de datos, se pueda revertir esa anonimización, 'reidentificando' a la persona".

"Es poco probable", explican los autores del artículo, "que incluso los conjuntos de datos altamente anonimizados cumplan con los estándares modernos establecidos por el RGPD", algo que supone "un serio desafío para la idoneidad técnica y legal" para la 'desidentificación' de los datos y el modelo de derecho al olvido.

No obstante, la propia Agencia recuerda que han de implementarse medidas de privacidad "por defecto y desde el diseño" en el proceso, así como que existe el principio de responsabilidad proactiva por el que "el responsable debe analizar los riesgos en los tratamientos de datos, en este caso, los de 'reidentificación' derivado de sus procesos de anonimización, y los generados en el proceso posterior y en el enriquecimiento de conjuntos de datos".

Más noticias en Política y Sociedad