Introducción a la protección de datos estadísticos ("anonimización" de datos) - SICA
←
→
Transcripción del contenido de la página
Si su navegador no muestra la página correctamente, lea el contenido de la página a continuación
Introducción al problema
¿Por qué proteger los microdatos?
¿Alcanza con “des-identificar” los registros (casos)?
¿A qué están expuestas las ONE?
Términos y conceptos:
◦ Escenario de divulgación de información.
◦ Intruso o atacante.
◦ Archivos de uso público y archivos con fines de
investigación o uso científico.Revelar información confidencial
Tomar conocimiento de algún dato confidencial
sobre alguien/algo utilizando los datos publicados.
Tipos de revelación de información:
◦ Identidad:
Asociación de la identidad del informante con un registro de los
datos divulgados que contiene información confidencial.
◦ Atributos:
Asociación de un valor de un atributo basado en los datos
divulgados.
◦ Inferencia:
Revelación de identidad o atributos a partir de inferencias
estadísticas (matching no exacto).
Federico Segui StagnoRevelar identidad
Identificadores explícitos: nombre, dirección, cédula
de identidad, teléfono, RUT…
Identificadores implícitos: “Ocupación = Director
del INE”
Valores extremos: ingresos >= 1.000.000
Combinaciones de atributos con valores poco
frecuentes (casos raros):
◦ Localidad = Mariscala (menos de 2.000 personas)
◦ Sexo = Mujer
◦ Edad = 35
◦ Ocupación = Maestra
Unión con un archivo externo.
Federico Segui StagnoRevelar atributos
Número pequeño de celdas con datos categóricos.
Supuesto: todas las personas con los siguientes
atributos se han definido como “cristiano no
católico” desde el punto de vista religioso:
◦ Edad: 45 a 49
◦ Sexo: Hombre
◦ Ascendencia: blanca
◦ Localidad: Tarariras
La combinación de
Edad+Sexo+Ascendencia+Localidad = (45-49, H,
blanca, Tarariras) lleva a revelar la variable “religión”Protección de datos estadísticos
Balance entre necesidades de los usuarios
y proteger la confidencialidad.
protección
de datos
necesidades
de información
Federico Segui StagnoProtección de datos estadísticos (cont.)
2
Peores
datos
1,5
Pérdida de información
1
0,5
Riesgoso
0
0 0,05 0,1 0,15 0,2 0,25
Riesgo de divulgación de info. confidencial
Fuente: Guidelines for Anonymization of Microdata Using R-package sdcMicro, data-analysis OG (2012)
Federico Segui StagnoProtección de datos estadísticos (cont.)
¿Cómo llego al balance ideal?
¿Se puede aplicar el mismo criterio a todas
las encuestas de la ONE?
…y ¿a todos los usuarios?
¿Proteger microdatos implica perder
información?
Cuanto más protejo, más información
pierdo…Pasos para la protección de datos estadísticos
¿Por qué es necesaria la protección?
Marco Legal
(legislación, necesidades de los
usuarios)
Políticas
Evaluar:
Microdatos, Bases de •Características de los datos a
datos, Tablas. proteger.
Personas o Empresas
•Principales usos de los datos.
Análisis del Riesgo Analizar el riesgo de revelar
Prueba y Evaluación información confidencial.
Gestión del Riesgo Evaluar escenarios de revelación de
información.
Aplicar Protección
Aplicar técnicas de protección.
Proteger el archivo Evaluar los resultados (protección vs.
perdida de información)
Documentar protecc.
Proteger el archivo de datos final.
Difusión Documentar las técnicas aplicadas.Técnicas de protección de
datos estadísticos
Varían según su forma de publicación y medio
de acceso:
◦ Bases de datos de consulta en línea.
◦ Tablas o cuadros de datos agregados.
◦ Microdatos:
Archivos de uso público.
Archivos de uso con fines de investigación (generados
para un uso específico por investigadores).
Acceso dentro de las instalaciones del INE (ambiente
controlado).
Ejecución remota. Investigadores envían sintaxis al INE.
Acceso remoto. Investigadores acceder vía VPN.Protección de bases de datos de
consulta en línea
Consultas interactivas por internet, el riesgo
está determinado por las consultas previas
realizadas por los usuarios.
Los resultados de esas consultas previas
podrían ser utilizados para cruzar información
con consultas posteriores para intentar
obtener combinaciones de variables que
determinen “celdas inseguras” y lograr así
información confidencial individual.Protección de bases de datos de
consulta en línea (cont.)
Confidencialidad vía camuflaje
◦ Para las celdas “sensibles” se muestra un rango de
valores en lugar del verdadero valor.
Auditorías de bases de datos
◦ Se registran las consultas previas del mismo
usuario y se determina si hay riesgo de divulgación
de información confidencial.Protección de tablas
Celdas sensibles:
◦ Permiten revelar información sobre registros (casos)
individuales.
◦ Ej. precios promedio para determinado artículo cuando
sólo hay 2 empresas en el mercado.
Reglas para determinar celdas sensibles:
◦ Si unos pocos (n) contribuyentes principales a una celda
son responsables de un porcentaje determinado (k) del
total de esa celda.
◦ El contribuyente de una celda tiene una mayor oportunidad
de estimar a los competidores en esa celda, que uno
externo. Precisión de la estimación = medida de
sensibilidad de la celda.Técnicas de protección de tablas
Celdas sensibles:
◦ Permiten revelar información sobre registros (casos)
individuales.
◦ Ej. precios promedio para determinado artículo cuando
sólo hay 2 empresas en el mercado.
Reglas para determinar celdas sensibles:
◦ Si unos pocos (n) contribuyentes principales a una celda
son responsables de un porcentaje determinado (k) del
total de esa celda.
◦ El contribuyente de una celda tiene una mayor oportunidad
de estimar a los competidores en esa celda, que uno
externo. Precisión de la estimación = medida de
sensibilidad de la celda.Protección de microdatos
Clasificación de variables:
(desde el punto de vista de la protección de datos)
Confidenciales
Identificadores Variables Clave (cuasi-identificadores)
directos
No
Por lo general confidenciales
son eliminados
del archivo
Federico Segui StagnoEscenarios de revelación de información
confidencial:
El intruso intenta hacer “matching” entre una unidad en la muestra s y una
unidad en la población P.Técnicas de protección de microdatos
Software disponible: paquete de “R” sdcMicro.
Métodos de restricción:
◦ No modifican los datos originales.
◦ Limitan la cantidad de información.
Métodos de perturbación:
◦ Modifican los datos originales, pero posibilita el procesamiento
y análisis estadístico.
Información necesaria para determinar el/los método/s a
aplicar:
◦ Necesidades de los usuarios.
◦ Usos principales.
◦ Política de difusión.
Evaluación de la pérdida de información de acuerdo a los
métodos utilizados.Conclusiones La protección de datos estadísticos es un asunto de gestión o políticas institucionales, más que un problema técnico/tecnológico o de aplicación de software estadístico. La protección de microdatos es un proceso iterativo hasta lograr un balance adecuado entre utilidad de los datos (protección de los microdatos) y el riesgo de revelar información confidencial. Hay técnicas estandarizadas, pero cuáles son las más apropiadas se debe determinar en cada caso (escenario), es un procedimiento ad-hoc. Es muy importante evaluar la utilidad de los datos después de aplicar las técnicas de protección.
Muchas gracias
Autor: Federico Segui Stagno
(federico.segui@outlook.com)
Experto internacional en protección de datos
estadísticosTambién puede leer