Noticias Universidad de Cantabria

Skip Navigation LinksNoticias de la Universidad de Cantabria > Una herramienta online que garantiza la privacidad de nuestros datos

08 FEBRERO 2023
INVESTIGACIÓN Y TRANSFERENCIA

Una herramienta online que garantiza la privacidad de nuestros datos

Un equipo de investigadores del IFCA ha creado una librería de Python disponible para uso público

 

Judith Sáinz-Pardo y Álvaro López, investigadores del grupo de Computación Avanzada y e-Ciencia del Instituto de Física de Cantabria (IFCA, CSIC-UC) han desarrollado pyCANON, una librería de Python que, mediante el uso de técnicas de anonimización, permite al usuario conocer el nivel de anonimato de sus datos y con ello los posibles riesgos de privacidad que pueden sufrir. El trabajo ha sido publicado en la revista Nature Scientific Data.

Las tecnologías que manejan gran cantidad de datos han experimentado un rápido crecimiento en los últimos años, gracias sobre todo al sencillo manejo de grandes volúmenes de datos, los que conocemos como big data. La inteligencia artificial, el machine learning (aprendizaje automático) y el deep learning (aprendizaje profundo) permiten aplicaciones que van desde la visión artificial, el procesamiento del lenguaje natural, o el reconocimiento de la voz. Sin embargo, para producir estos sistemas se necesitan grandes cantidades de datos y entrenar modelos con un buen nivel de precisión. 

Por ello, los investigadores del IFCA han creado pyCANON, una herramienta, que puede utilizar cualquier usuario sin necesidad de amplios conocimientos de técnicas de privacidad ni de programación, y que garantiza conocer el nivel privacidad en los datos de cara a operar con ellos de forma segura.

Judith Sáinz-Pardo explica que "pyCANON se crea para proporcionar al equipo investigador, y en general a cualquiera que quiera publicar un conjunto de datos en acceso abierto o compartirlo con otros, un conocimiento del nivel de anonimización de sus datos, es decir, cómo de anónimos son sus datos". "La herramienta ofrece información sobre los posibles riesgos a los que se expondría esta información, y su resistencia a diferentes ataques", matiza.

Por ejemplo, el caso de una base de datos con información clínica de pacientes, "tendríamos un conjunto muy grande de datos, y entre ellos estarían los quasi identificadores, que son, por ejemplo, el lugar de residencia del paciente, edad, género, etc. Luego los atributos sensibles, es decir, información que no deberíamos conocer del paciente, a la que un atacante, por tanto, no debería poder acceder", afirma la investigadora. "PyCANON lo que haría en este caso es comparar la distribución de estos dos grupos de datos de la base para saber cómo de anónimos son, de acuerdo a 9 técnicas distintas muy útiles, que previenen un tipo distinto de ataque", concluye.


Esquema para obtener el informe de anonimización de los datos, lista de cuasi-identificadores y atributos sensibles. / Nature Scientific Data.

La librería que ya está disponible online, se ha creado para que su uso sea "muy intuitivo y muy sencillo", explica la investigadora del IFCA, "lo hemos preparado de forma que el documento que muestra el nivel de anonimato de los datos del usuario pueda verse en formato PDF, con el que todo el mundo está familiarizado".

pyCANON: Equilibrio entre privacidad e información 

El principal reto a la hora de manejar grandes cantidades de datos es mantener el equilibrio entre la privacidad y la preservación de la mayor cantidad de información posible. Un estudio realizado sobre el censo de Estados Unidos reveló que en el 81% de los casos, tres datos personales como el código postal, el género y la fecha de nacimiento de una persona, son suficientes para identificar a alguien en una base de datos, y permitirían extraer cierta información sensible, como su clase salarial o nivel de estudios.

El problema se agrava, en entornos médicos, cuando se manejan bases de datos que contienen datos clínicos de pacientes, donde hay que encontrar el equilibrio entre preservar la privacidad de los pacientes, y mantener la mayor cantidad de información posible de cara a desarrollar modelos.

"Creemos que es importante poder publicar datos en abierto, o compartir datos entre entidades, sabiendo las garantías de seguridad que tienes", afirma Sáinz-Pardo. 




Noticias relacionadas



Servicio de Comunicación
Difusión de actividades, imagen corporativa…
comunicacion@unican.es
Tel. 942 20 10 62 – 20 10 12