Introducción a la protección de datos estadísticos ("anonimización" de datos) - SICA
←
→
Transcripción del contenido de la página
Si su navegador no muestra la página correctamente, lea el contenido de la página a continuación
Introducción al problema ¿Por qué proteger los microdatos? ¿Alcanza con “des-identificar” los registros (casos)? ¿A qué están expuestas las ONE? Términos y conceptos: ◦ Escenario de divulgación de información. ◦ Intruso o atacante. ◦ Archivos de uso público y archivos con fines de investigación o uso científico.
Revelar información confidencial Tomar conocimiento de algún dato confidencial sobre alguien/algo utilizando los datos publicados. Tipos de revelación de información: ◦ Identidad: Asociación de la identidad del informante con un registro de los datos divulgados que contiene información confidencial. ◦ Atributos: Asociación de un valor de un atributo basado en los datos divulgados. ◦ Inferencia: Revelación de identidad o atributos a partir de inferencias estadísticas (matching no exacto). Federico Segui Stagno
Revelar identidad Identificadores explícitos: nombre, dirección, cédula de identidad, teléfono, RUT… Identificadores implícitos: “Ocupación = Director del INE” Valores extremos: ingresos >= 1.000.000 Combinaciones de atributos con valores poco frecuentes (casos raros): ◦ Localidad = Mariscala (menos de 2.000 personas) ◦ Sexo = Mujer ◦ Edad = 35 ◦ Ocupación = Maestra Unión con un archivo externo. Federico Segui Stagno
Revelar atributos Número pequeño de celdas con datos categóricos. Supuesto: todas las personas con los siguientes atributos se han definido como “cristiano no católico” desde el punto de vista religioso: ◦ Edad: 45 a 49 ◦ Sexo: Hombre ◦ Ascendencia: blanca ◦ Localidad: Tarariras La combinación de Edad+Sexo+Ascendencia+Localidad = (45-49, H, blanca, Tarariras) lleva a revelar la variable “religión”
Protección de datos estadísticos Balance entre necesidades de los usuarios y proteger la confidencialidad. protección de datos necesidades de información Federico Segui Stagno
Protección de datos estadísticos (cont.) 2 Peores datos 1,5 Pérdida de información 1 0,5 Riesgoso 0 0 0,05 0,1 0,15 0,2 0,25 Riesgo de divulgación de info. confidencial Fuente: Guidelines for Anonymization of Microdata Using R-package sdcMicro, data-analysis OG (2012) Federico Segui Stagno
Protección de datos estadísticos (cont.) ¿Cómo llego al balance ideal? ¿Se puede aplicar el mismo criterio a todas las encuestas de la ONE? …y ¿a todos los usuarios? ¿Proteger microdatos implica perder información? Cuanto más protejo, más información pierdo…
Pasos para la protección de datos estadísticos ¿Por qué es necesaria la protección? Marco Legal (legislación, necesidades de los usuarios) Políticas Evaluar: Microdatos, Bases de •Características de los datos a datos, Tablas. proteger. Personas o Empresas •Principales usos de los datos. Análisis del Riesgo Analizar el riesgo de revelar Prueba y Evaluación información confidencial. Gestión del Riesgo Evaluar escenarios de revelación de información. Aplicar Protección Aplicar técnicas de protección. Proteger el archivo Evaluar los resultados (protección vs. perdida de información) Documentar protecc. Proteger el archivo de datos final. Difusión Documentar las técnicas aplicadas.
Técnicas de protección de datos estadísticos Varían según su forma de publicación y medio de acceso: ◦ Bases de datos de consulta en línea. ◦ Tablas o cuadros de datos agregados. ◦ Microdatos: Archivos de uso público. Archivos de uso con fines de investigación (generados para un uso específico por investigadores). Acceso dentro de las instalaciones del INE (ambiente controlado). Ejecución remota. Investigadores envían sintaxis al INE. Acceso remoto. Investigadores acceder vía VPN.
Protección de bases de datos de consulta en línea Consultas interactivas por internet, el riesgo está determinado por las consultas previas realizadas por los usuarios. Los resultados de esas consultas previas podrían ser utilizados para cruzar información con consultas posteriores para intentar obtener combinaciones de variables que determinen “celdas inseguras” y lograr así información confidencial individual.
Protección de bases de datos de consulta en línea (cont.) Confidencialidad vía camuflaje ◦ Para las celdas “sensibles” se muestra un rango de valores en lugar del verdadero valor. Auditorías de bases de datos ◦ Se registran las consultas previas del mismo usuario y se determina si hay riesgo de divulgación de información confidencial.
Protección de tablas Celdas sensibles: ◦ Permiten revelar información sobre registros (casos) individuales. ◦ Ej. precios promedio para determinado artículo cuando sólo hay 2 empresas en el mercado. Reglas para determinar celdas sensibles: ◦ Si unos pocos (n) contribuyentes principales a una celda son responsables de un porcentaje determinado (k) del total de esa celda. ◦ El contribuyente de una celda tiene una mayor oportunidad de estimar a los competidores en esa celda, que uno externo. Precisión de la estimación = medida de sensibilidad de la celda.
Técnicas de protección de tablas Celdas sensibles: ◦ Permiten revelar información sobre registros (casos) individuales. ◦ Ej. precios promedio para determinado artículo cuando sólo hay 2 empresas en el mercado. Reglas para determinar celdas sensibles: ◦ Si unos pocos (n) contribuyentes principales a una celda son responsables de un porcentaje determinado (k) del total de esa celda. ◦ El contribuyente de una celda tiene una mayor oportunidad de estimar a los competidores en esa celda, que uno externo. Precisión de la estimación = medida de sensibilidad de la celda.
Protección de microdatos Clasificación de variables: (desde el punto de vista de la protección de datos) Confidenciales Identificadores Variables Clave (cuasi-identificadores) directos No Por lo general confidenciales son eliminados del archivo Federico Segui Stagno
Escenarios de revelación de información confidencial: El intruso intenta hacer “matching” entre una unidad en la muestra s y una unidad en la población P.
Técnicas de protección de microdatos Software disponible: paquete de “R” sdcMicro. Métodos de restricción: ◦ No modifican los datos originales. ◦ Limitan la cantidad de información. Métodos de perturbación: ◦ Modifican los datos originales, pero posibilita el procesamiento y análisis estadístico. Información necesaria para determinar el/los método/s a aplicar: ◦ Necesidades de los usuarios. ◦ Usos principales. ◦ Política de difusión. Evaluación de la pérdida de información de acuerdo a los métodos utilizados.
Conclusiones La protección de datos estadísticos es un asunto de gestión o políticas institucionales, más que un problema técnico/tecnológico o de aplicación de software estadístico. La protección de microdatos es un proceso iterativo hasta lograr un balance adecuado entre utilidad de los datos (protección de los microdatos) y el riesgo de revelar información confidencial. Hay técnicas estandarizadas, pero cuáles son las más apropiadas se debe determinar en cada caso (escenario), es un procedimiento ad-hoc. Es muy importante evaluar la utilidad de los datos después de aplicar las técnicas de protección.
Muchas gracias Autor: Federico Segui Stagno (federico.segui@outlook.com) Experto internacional en protección de datos estadísticos
También puede leer