Privacidad en Internet: ingeniería inversa recupera nuestros datos personales
Un estudio de investigadores del Imperial College de Londres demuestra la vulnerabilidad de la privacidad de nuestros datos en Internet ante las técnicas de reidentificación. Imagen: rawpixel.com / Freepik

Un estudio de investigadores del Imperial College de Londres demuestra la vulnerabilidad de la privacidad de nuestros datos en Internet ante las técnicas de reidentificación.

Con las primeras multas importantes por infringir las normas de la Regulación General de Protección de Datos (GDPR), de la Unión Europea, y un escenario en el que el gobierno británico se encuentra a punto de revisar esas pautas, investigadores han demostrado en Nature Communiations que incluso es posible rastrear los conjuntos de datos anónimos hasta llegar a las personas que utilizan el aprendizaje automático.

Los científicos dicen que su trabajo demuestra que permitir el uso de datos, por ejemplo, para entrenar algoritmos de Inteligencia Artificial (AI), al tiempo que preserva la privacidad de las personas, requiere mucho más que añadir conjuntos de datos de muestreo y otras técnicas para impedir la identificación.

También han publicado una herramienta de demostración que les permite descifrar qué probabilidades hay de que sean rastreados, incluso si el conjunto de datos en el que se encuentran es anónimo y solo se comparte una pequeña fracción del mismo.

Estos investigadores opinan que su hallazgo debe ser una llamada de atención para los responsables de la formulación de políticas para reforzar las normas sobre lo que constituye información verdaderamente anónima.

La ingeniería inversa vulnera nuestra privacidad en Internet

Tanto las empresas como los gobiernos recopilan y utilizan de forma rutinaria nuestros datos personales. Nuestros datos y la forma en que se utilizan en Internet se protegen por leyes relevantes como la GDPR o la Ley de Privacidad del Consumidor de California (CCPA), en el caso de EE UU.

Los datos se muestrean y son anónimos, lo que incluye eliminarlos para identificar características como nombres y direcciones de correo electrónico, de modo que los individuos no puedan, en teoría, identificarse. Después de este proceso ya no están sujetos a las regulaciones de protección de datos, por lo que se pueden usar y vender libremente a terceros, como empresas de publicidad.

La nueva investigación demuestra que, una vez comprados, con frecuencia se realiza ingeniera inversa, utilizando el aprendizaje automático, para volver a identificar a las personas, a pesar de las técnicas para mantener el anonimato.

Esto podría exponer información confidencial sobre personas identificadas y permitir la creación de perfiles personales cada vez más completos. De esta manera, este estudio demuestra por primera vez con qué facilidad y precisión se puede hacer, incluso con conjuntos de datos incompletos.

En la investigación, el 99,98% de los estadounidenses fueron re-identificados correctamente en cualquier conjunto de datos anónimos disponibles utilizando solo 15 características, incluido edad, sexo y estado civil.

Internet flaquea en privacidad

El doctor Luc Rocher, uno de los autores del estudio, destaca que “si bien puede haber muchas personas con 30 años, hombres, que viven en la ciudad de Nueva York, son también muchos menos los que nacieron el 5 de enero, conducen un vehículo deportivo rojo y viven con dos niñas y un perro”.

Para demostrar esto, los investigadores desarrollaron un modelo de aprendizaje automático con el fin de evaluar la probabilidad de que las características de un individuo sean lo suficientemente precisas para describir a una sola persona en una población de miles de millones.

También desarrollaron una herramienta online, que no guarda datos y es solo para fines de demostración, para ayudar a las personas a ver qué características los hacen únicos en los conjuntos de datos.

La herramienta primero les solicitó que introdujeran la primera parte de su código postal (Reino Unido) o ZIP (EE UU), sexo y la fecha de nacimiento, antes de darles la posibilidad de que su perfil se pudiera volver a identificar en cualquier conjunto de datos anónimos.

Luego les preguntó, antes de volver a calcular, por su estado civil, número de vehículos, situación de propiedad de la casa y empleo. Al añadir más características, la probabilidad de que una coincidencia sea correcta aumenta de forma dramática.

Los impuestos de Trump, al descubierto

El autor principal del estudio, doctor Yves-Alexandre de Montjoye, del Departamento de Informática de Imperial College y del Instituto de Ciencia de Datos, matiza que “esta es una información bastante estándar para que las empresas la soliciten. Aunque están sujetos a las pautas de la GDPR, son libres de vender los datos. Una vez con la etiqueta de anónimo, para cualquier persona, nuestra investigación muestra con qué facilidad y con qué precisión se puede rastrear a los individuos”.

En su opinión, “las empresas y los gobiernos han minimizado el riesgo de reidentificación, argumentando que los conjuntos de datos que venden siempre están incompletos. Nuestros hallazgos contradicen esto y demuestran que un atacante podría estimar con facilidad y precisión la probabilidad de que el registro que encontró pertenezca a la persona que está buscando”.

La reidentificación de datos anónimos fue el camino que tomaron varios periodistas del New York Times para publicar el pasado mes de mayo las declaraciones de impuestos, entre los años 1985 y 1994, del presidente de EE UU, Donald Trump.

Dejar respuesta

Please enter your comment!
Please enter your name here