Introducción a la protección de datos estadísticos ("anonimización" de datos) - SICA

Página creada Martina Franco
 
SEGUIR LEYENDO
Introducción a la protección de datos estadísticos ("anonimización" de datos) - SICA
Introducción a la protección de
       datos estadísticos
  (“anonimización” de datos)
Introducción al problema
   ¿Por qué proteger los microdatos?
   ¿Alcanza con “des-identificar” los registros (casos)?
   ¿A qué están expuestas las ONE?
   Términos y conceptos:
    ◦ Escenario de divulgación de información.
    ◦ Intruso o atacante.
    ◦ Archivos de uso público y archivos con fines de
      investigación o uso científico.
Revelar información confidencial
 Tomar conocimiento de algún dato confidencial
  sobre alguien/algo utilizando los datos publicados.
 Tipos de revelación de información:
    ◦ Identidad:
       Asociación de la identidad del informante con un registro de los
        datos divulgados que contiene información confidencial.
    ◦ Atributos:
       Asociación de un valor de un atributo basado en los datos
        divulgados.
    ◦ Inferencia:
       Revelación de identidad o atributos a partir de inferencias
        estadísticas (matching no exacto).

                           Federico Segui Stagno
Revelar identidad
 Identificadores explícitos: nombre, dirección, cédula
  de identidad, teléfono, RUT…
 Identificadores implícitos: “Ocupación = Director
  del INE”
 Valores extremos: ingresos >= 1.000.000
 Combinaciones de atributos con valores poco
  frecuentes (casos raros):
    ◦   Localidad = Mariscala (menos de 2.000 personas)
    ◦   Sexo = Mujer
    ◦   Edad = 35
    ◦   Ocupación = Maestra
   Unión con un archivo externo.
                         Federico Segui Stagno
Revelar atributos
 Número pequeño de celdas con datos categóricos.
 Supuesto: todas las personas con los siguientes
  atributos se han definido como “cristiano no
  católico” desde el punto de vista religioso:
    ◦   Edad: 45 a 49
    ◦   Sexo: Hombre
    ◦   Ascendencia: blanca
    ◦   Localidad: Tarariras
   La combinación de
    Edad+Sexo+Ascendencia+Localidad = (45-49, H,
    blanca, Tarariras) lleva a revelar la variable “religión”
Protección de datos estadísticos

   Balance entre necesidades de los usuarios
    y proteger la confidencialidad.

    protección
     de datos

                               necesidades
                              de información

                 Federico Segui Stagno
Protección de datos estadísticos (cont.)
                             2

                                      Peores
                                      datos
                            1,5
   Pérdida de información

                             1

                            0,5

                                                                                               Riesgoso
                             0
                                  0    0,05              0,1               0,15                0,2               0,25
                                          Riesgo de divulgación de info. confidencial

                                              Fuente: Guidelines for Anonymization of Microdata Using R-package sdcMicro, data-analysis OG (2012)

                                               Federico Segui Stagno
Protección de datos estadísticos (cont.)

   ¿Cómo llego al balance ideal?
   ¿Se puede aplicar el mismo criterio a todas
    las encuestas de la ONE?
   …y ¿a todos los usuarios?
   ¿Proteger microdatos implica perder
    información?
   Cuanto más protejo, más información
    pierdo…
Pasos para la protección de datos estadísticos
                                             ¿Por qué es necesaria la protección?
                         Marco Legal
                                             (legislación, necesidades de los
                                             usuarios)
                           Políticas
                                             Evaluar:
                      Microdatos, Bases de        •Características de los datos a
                          datos, Tablas.          proteger.
                      Personas o Empresas
                                                  •Principales usos de los datos.
                      Análisis del Riesgo    Analizar el riesgo de revelar
Prueba y Evaluación                          información confidencial.
                      Gestión del Riesgo     Evaluar escenarios de revelación de
                                             información.
                      Aplicar Protección
                                             Aplicar técnicas de protección.
                      Proteger el archivo    Evaluar los resultados (protección vs.
                                             perdida de información)
                      Documentar protecc.
                                             Proteger el archivo de datos final.

                           Difusión          Documentar las técnicas aplicadas.
Técnicas de protección de
               datos estadísticos
   Varían según su forma de publicación y medio
    de acceso:
    ◦ Bases de datos de consulta en línea.
    ◦ Tablas o cuadros de datos agregados.
    ◦ Microdatos:
      Archivos de uso público.
      Archivos de uso con fines de investigación (generados
       para un uso específico por investigadores).
      Acceso dentro de las instalaciones del INE (ambiente
       controlado).
      Ejecución remota. Investigadores envían sintaxis al INE.
      Acceso remoto. Investigadores acceder vía VPN.
Protección de bases de datos de
           consulta en línea
 Consultas interactivas por internet, el riesgo
  está determinado por las consultas previas
  realizadas por los usuarios.
 Los resultados de esas consultas previas
  podrían ser utilizados para cruzar información
  con consultas posteriores para intentar
  obtener combinaciones de variables que
  determinen “celdas inseguras” y lograr así
  información confidencial individual.
Protección de bases de datos de
           consulta en línea (cont.)
   Confidencialidad vía camuflaje
    ◦ Para las celdas “sensibles” se muestra un rango de
      valores en lugar del verdadero valor.

   Auditorías de bases de datos
    ◦ Se registran las consultas previas del mismo
      usuario y se determina si hay riesgo de divulgación
      de información confidencial.
Protección de tablas
   Celdas sensibles:
    ◦ Permiten revelar información sobre registros (casos)
      individuales.
    ◦ Ej. precios promedio para determinado artículo cuando
      sólo hay 2 empresas en el mercado.
   Reglas para determinar celdas sensibles:
    ◦ Si unos pocos (n) contribuyentes principales a una celda
      son responsables de un porcentaje determinado (k) del
      total de esa celda.
    ◦ El contribuyente de una celda tiene una mayor oportunidad
      de estimar a los competidores en esa celda, que uno
      externo. Precisión de la estimación = medida de
      sensibilidad de la celda.
Técnicas de protección de tablas
   Celdas sensibles:
    ◦ Permiten revelar información sobre registros (casos)
      individuales.
    ◦ Ej. precios promedio para determinado artículo cuando
      sólo hay 2 empresas en el mercado.
   Reglas para determinar celdas sensibles:
    ◦ Si unos pocos (n) contribuyentes principales a una celda
      son responsables de un porcentaje determinado (k) del
      total de esa celda.
    ◦ El contribuyente de una celda tiene una mayor oportunidad
      de estimar a los competidores en esa celda, que uno
      externo. Precisión de la estimación = medida de
      sensibilidad de la celda.
Protección de microdatos
                    Clasificación de variables:
           (desde el punto de vista de la protección de datos)

                            Confidenciales

                 Identificadores                 Variables Clave (cuasi-identificadores)
                    directos

                                   No
Por lo general               confidenciales
son eliminados
  del archivo

                         Federico Segui Stagno
Escenarios de revelación de información
                   confidencial:

El intruso intenta hacer “matching” entre una unidad en la muestra s y una
unidad en la población P.
Técnicas de protección de microdatos
   Software disponible: paquete de “R” sdcMicro.
   Métodos de restricción:
    ◦ No modifican los datos originales.
    ◦ Limitan la cantidad de información.
   Métodos de perturbación:
    ◦ Modifican los datos originales, pero posibilita el procesamiento
      y análisis estadístico.
   Información necesaria para determinar el/los método/s a
    aplicar:
    ◦ Necesidades de los usuarios.
    ◦ Usos principales.
    ◦ Política de difusión.
   Evaluación de la pérdida de información de acuerdo a los
    métodos utilizados.
Conclusiones
 La protección de datos estadísticos es un asunto de
  gestión o políticas institucionales, más que un
  problema técnico/tecnológico o de aplicación de
  software estadístico.
 La protección de microdatos es un proceso iterativo
  hasta lograr un balance adecuado entre utilidad de
  los datos (protección de los microdatos) y el riesgo
  de revelar información confidencial.
 Hay técnicas estandarizadas, pero cuáles son las más
  apropiadas se debe determinar en cada caso
  (escenario), es un procedimiento ad-hoc.
 Es muy importante evaluar la utilidad de los datos
  después de aplicar las técnicas de protección.
Muchas gracias

      Autor: Federico Segui Stagno
       (federico.segui@outlook.com)
Experto internacional en protección de datos
                 estadísticos
También puede leer