M aquinas Discriminativas Profundas - (Deep Learning) Marcelino L azaro - UC3M

Página creada Alejandro Tornero
 
SEGUIR LEYENDO
M aquinas Discriminativas Profundas - (Deep Learning) Marcelino L azaro - UC3M
Máquinas Discriminativas Profundas
          (Deep Learning)
   http://www.tsc.uc3m.es/˜mlazaro/Docencia/DL.html

                               Marcelino Lázaro
                            Universidad Carlos III de Madrid

  Marcelino Lázaro, 2021                                      1 / 53
M aquinas Discriminativas Profundas - (Deep Learning) Marcelino L azaro - UC3M
Contexto

           Marcelino Lázaro, 2021   Máquinas Discriminativas Profundas 2 / 53
M aquinas Discriminativas Profundas - (Deep Learning) Marcelino L azaro - UC3M
Marcelino Lázaro, 2021   Máquinas Discriminativas Profundas 3 / 53
M aquinas Discriminativas Profundas - (Deep Learning) Marcelino L azaro - UC3M
Índice de contenidos
    Aprendizaje Máquina Adversario
    Aprendizaje Multi-Tarea
    Transferencia de Aprendizaje y Adaptación al Dominio
    Aprendizaje Federado
    Inteligencia Artificial Explicable (XAI)
    Problemas Singulares?

           Marcelino Lázaro, 2021             Máquinas Discriminativas Profundas 4 / 53
M aquinas Discriminativas Profundas - (Deep Learning) Marcelino L azaro - UC3M
Aprendizaje Máquina “Adversario”
 (Adversarial Machine Learning)

  Marcelino Lázaro, 2021   Máquinas Discriminativas Profundas 5 / 53
M aquinas Discriminativas Profundas - (Deep Learning) Marcelino L azaro - UC3M
Riesgos en el Aprendizaje Máquina

                 Diseño                                                                Evaluación
           (Entrenamiento)                                                             (Generalización)

  Strain = {(x1 , y1 ), (x2 , y2 ), · · · , (xN , yN )}                      Stest = {(x01 , y01 ), (x02 , y02 ), · · · , (x0N 0 , y0N 0 )}

                 p(xtrain , ytrain )                                                         p(xtest , ytest )
                 Parámetros w                                                          Prestaciones Pe (o Pa )

           Datos “Envenenados”                                                            Datos “Adversarios”

                                             Entrada                        Salida

                                                          Despliegue
                                                     (Implementación)

                                                          Seguridad del Modelo

                       Marcelino Lázaro, 2021                                         Máquinas Discriminativas Profundas 6 / 53
M aquinas Discriminativas Profundas - (Deep Learning) Marcelino L azaro - UC3M
Tipos de “fallo” en aprendizaje máquina
    El aprendizaje máquina se basa en el uso masivo de datos
      I   Ajuste de los parámetros de la máquina (entrenamiento)
      I   Uso de la máquina sobre nuevos datos (generalización)
    Los datos pueden esconder algunos peligros
      I   Entrenamiento de la máquina : Datos “envenenados”
            F   Se mantienen las prestaciones en entrenamiento
            F   Se puede dañar seriamente la generalización
      I   Evaluación de la máquina : Ejemplos “adversarios”
            F   Modificaciones intencionadas para afectar las decisiones
      I   Despliegue de la red : Seguridad del Modelo
            F   Se pueden generar ejemplos adversarios si se conoce el modelo
                - De forma directa
                - Mediante “ingenierı́a inversa”
            F   Ataques de caja negra (construcción de ejemplos mediante observaciones)

            Marcelino Lázaro, 2021                        Máquinas Discriminativas Profundas 7 / 53
M aquinas Discriminativas Profundas - (Deep Learning) Marcelino L azaro - UC3M
Aprendizaje máquina supervisado - Una limitación

          p(xtrain , ytrain )                                    p(xtest , ytest )
                              p(xtrain , ytrain ) 6= p(xtest , ytest )

       Entrenamiento w                                        Evaluación Pe
          Marcelino Lázaro, 2021                               Máquinas Discriminativas Profundas 8 / 53
M aquinas Discriminativas Profundas - (Deep Learning) Marcelino L azaro - UC3M
Ejemplos “adversarios” - Clasificador lineal (infra-ajuste)

           Marcelino Lázaro, 2021        Máquinas Discriminativas Profundas 9 / 53
M aquinas Discriminativas Profundas - (Deep Learning) Marcelino L azaro - UC3M
Ejemplos “adversarios” - Red Neuronal (sobre-ajuste)

                    El Aprendizaje Máquina es Preciso, pero “Frágil”

          Marcelino Lázaro, 2021                           Máquinas Discriminativas Profundas 10 / 53
Ejemplos “adversarios”

                Fuente: OpenAI https://openai.com/blog/adversarial-example-research/

                 Fuente: Jiefeng Chen, Xi Wu https://deep.ghost.io/robust-attribution/

         Marcelino Lázaro, 2021                                        Máquinas Discriminativas Profundas 11 / 53
Ejemplos “adversarios” - Sistema visual humano

                                                                (Pinna y White, 2002)

                      http://people.csail.mit.edu/alvin/pinnaweb/pinna.html
          Marcelino Lázaro, 2021                                         Máquinas Discriminativas Profundas 12 / 53
Datos “envenenados”

       Se mantiene la precisión en entrenamiento
            pero se daña la generalización

         Marcelino Lázaro, 2021     Máquinas Discriminativas Profundas 13 / 53
Datos “envenenados” - Red Profunda

                     Menor sensibilidad
     Se daña la clasificación de patrones especı́ficos

         Marcelino Lázaro, 2021        Máquinas Discriminativas Profundas 14 / 53
Peligros de los datos “envenenados”
    Datos envenenados en el conjunto de entrenamiento
      I   Mantienen la precisión del clasificador en el conjunto de
          entrenamiento
             F   Dificultad para detectar este tipo de datos
      I   En el conjunto de test
             F   Dañan seriamente la generalización (redes convencionales)
             F   Dañan la clasificación de patrones especı́ficos (redes profundas)
    Riesgos añadidos
      I   Es posible manipular múltiples decisiones con un único patrón
          envenenado
      I   Pueden ser una puerta trasera indetectable para controlar el
          clasificador
                                                               ⊕

                                 ⊗                                                     4

          “Pájaro”               “Vehı́culo”     “Aeronave”                “Planta”

            Marcelino Lázaro, 2021                            Máquinas Discriminativas Profundas 15 / 53
Despliegue : Seguridad del Modelo

  • Acceso al Modelo: Riesgos de Seguridad

                           Entrada                                   Salida
                                     Modelo: Arquitectura + Parámetros w

  • Restricción de Acceso al Modelo
     . No se eliminan todos los riesgos
        ? Robo del Modelo: mediante ingenierı́a inversa
        ? Ataques de Caja Negra: construcción de ejemplos adversarios
                                    a partir de tests

           Marcelino Lázaro, 2021                                          Máquinas Discriminativas Profundas 16 / 53
Entrenamiento Adversario

 • Entrenamiento: Ajuste de los parámetros w
    Función de coste J(w) ≡ J(w, x, y)
        Strain = {(x1 , y1 ), (x2 , y2 ), · · · , (xN , yN )}
                        X                                     ∂J(w, x, y)           ∂J(w, x, y)
                mı́n             J(w, x, y)                      ∂w                    ∂x
                 w
                            (x,y)∈Strain

                                                           Ejemplo Adversario (Peor Caso)

                                                                    máx J(w, x + δ, y)
                                                                    δ∈∆

                                                             Entrenamiento Adversario
                                                                  X
       Entrada                                    Salida
                                                            mı́n       máx J(w, x + δ, y)
           Modelo: Arquitectura + Parámetros w              w                  δ∈∆
                                                                 (x,y)∈Strain

                 Marcelino Lázaro, 2021                            Máquinas Discriminativas Profundas 17 / 53
Aprendizaje adversario vs “Data augmentation”
    Técnica efectiva para mejorar la capacidad de generalización
      I   Sı́ntesis de imágenes con distorsiones “probables”

    El entrenamiento adversario puede interpretarse como una alternativa
    similar
      I   Se entrena con las versiones más problemáticas del conjunto de entrenamiento

    Mejora la robustez, pero no necesariamente la generalización
      I   Existe un compromiso robustez-generalización
             F Entrenamiento convencional: explota la correlación de todas las caracterı́sticas
             F Entrenamiento adversario: potencia la correlación fuerte de un subconjunto de caracterı́sticas

             Marcelino Lázaro, 2021                                      Máquinas Discriminativas Profundas 18 / 53
Caracterı́sticas del aprendizaje adversario
    Proporciona robustez
      I   Entrenamiento: optimización inherentemente más difı́cil
      I   Modelos más grandes
            F   Redunda en el tiempo de entrenamiento
      I   Necesidad de mayor cantidad de datos
      I   Reconsideración de medidas de prestaciones apropiadas
            F   La probabilidad de acierto puede “estar reñida” con la robustez

    Tiene algunos beneficios adicionales
      I   Los modelos pueden ser más significativos semánticamente
            F   Obtención de clasificadores “interpretables”
      I   Aplicación a modelos generativos
            F   Generación de patrones más realistas
      I   Aplicación a adaptación de contexto

            Marcelino Lázaro, 2021                         Máquinas Discriminativas Profundas 19 / 53
Aprendizaje Multi-Tarea
         (Multi-Task Learning)

Marcelino Lázaro, 2021   Máquinas Discriminativas Profundas 20 / 53
Aprendizaje Multi-Tarea (Multi-Task Learning)
    Intenta mejorar la capacidad de generalización
      I   Solución simultánea de tareas relacionadas
      I   Comparte representaciones entre tareas relacionadas
            F   Enfatiza la información especı́fica del dominio

    Distintos tipos de motivación
      I   Biológica (Inspirada en el aprendizaje humano)
            F   Uso de habilidades previas para aprender nuevas tareas
      I   Pedagógica
            F   Aprendizaje de habilidades útiles con otras tareas
                - The Karate Kid: “dar cera, pulir cera”, “ponte la chaqueta, quı́tate la chaqueta”
      I   Aprendizaje Máquina - Transferencia inductiva
            F   Introducción de un sesgo inductivo
            F   Priorización de ciertas hipótesis
                - Regularización L1 : preferencia de soluciones “dispersas”
            F   Multi-Tarea: preferencia de hipótesis que explican más de una tarea

    Exitoso en numerosas aplicaciones
      I   NLP, reconocimiento de voz, visión robótica, diseño de drogas,...

            Marcelino Lázaro, 2021                                         Máquinas Discriminativas Profundas 21 / 53
Arquitecturas de Red para Aprendizaje Multi-Tarea
    Arquitecturas básicas
      I   Compartición “dura” de parámetros
            F   Compartición de parámetros entre todas las tareas
            F   Minimización de múltiples funciones de coste simultáneamente
      I   Compartición “blanda” de parámetros
            F   Cada tarea tiene parámetros separados
            F   Se introduce la “distancia entre parámetros” en la función de coste
    Otras arquitecturas
      I   En cascada
            F   La salida de unas tareas se usa como entrada para otras
      I   Cross-Talk o Cross-Stich
            F   Parámetros separados para cada tarea
            F   Unidades Cross-Stich combinan la información de capas paralelas
                - Flujo de información entre dichas capas
      I   Arquitecturas especı́ficas para algunas aplicaciones
            F   NLP (Natural Language Processing)
                - Recurrentes (LTSM), Transformadores, Adversarial Feature Separation,...
            F   Computer Vision
                - PAD (Prediction And Distillation), TRL (Task Routing Layers),...
      I   Aprendizaje de arquitecturas
            Marcelino Lázaro, 2021                                     Máquinas Discriminativas Profundas 22 / 53
Aprendizaje Multi-Tarea: hard sharing

                                                                       ŷ1

                                                     CE1      CS-T1

                                                                       ŷ2

       x                                             CE2      CS-T2

                                                                       ŷ3

                                                     CE3      CS-T3

                                                                       ŷ4

                                                     CE4      CS-T4
            CO1              CO2     CO3   CO4

                    Capas Compartidas            Capas Especı́ficas
           Marcelino Lázaro, 2021               Máquinas Discriminativas Profundas 23 / 53
Aprendizaje Multi-Tarea: soft sharing (o cross-talk )

                                                                       ŷ1

                                                     CE1      CS-T1

                                                                       ŷ2

      x                                              CE2      CS-T2

                                                                       ŷ3

                                                     CE3      CS-T3

                                                                       ŷ4

                                                     CE4      CS-T4
            CO1              CO2     CO3   CO4

                    Capas Restringidas           Capas Especı́ficas
           Marcelino Lázaro, 2021               Máquinas Discriminativas Profundas 24 / 53
Aprendizaje Multi-Tarea: network cascades

                                                            ŷ1

                                              CE1   CS-T1

                                                                    ŷ2

   x                                                CE2     CS-T2

                                                                              ŷ3

                                                             CE3     CS-T3

                                                                                       ŷ4

                                                                      CE4     CS-T4
       CO1         CO2            CO3   CO4

             Capas Compartidas                      Capas Especı́ficas
              Marcelino Lázaro, 2021                  Máquinas Discriminativas Profundas 25 / 53
¿Por qué funciona el Aprendizaje Multi-Tarea?
    Enfoca la atención en las caracterı́sticas relevantes
      I   Una tarea puede ser “ruidosa”
      I   Datos limitados o de alta dimensionalidad
    Aumento de datos (implı́cito)
      I   Patrón de ruido diferente para cada tarea
      I   Aprendizaje de la representación más general promediando los
          patrones de ruido
    Comparte “pistas”
      I   Algunas caracterı́sticas pueden ser fáciles de aprender en una
          tarea y difı́cil en otra
            F   Interacciones entre caracterı́sticas son complejas
                - Enfoque en las caracterı́sticas relevantes
    Enfatiza la representación
      I   Sesga el modelo hacia representaciones que otras tareas
          prefieren
      I   Puede generalizar para nuevas tareas en el futuro
    Regularización
      I   Introducción de un sesgo inductivo
      I   Reducción del riesgo de sobreajuste
            Marcelino Lázaro, 2021                         Máquinas Discriminativas Profundas 26 / 53
Optimización (entrenamiento) para Aprendizaje Multi-Tarea
    Aprendizaje Multi-Tarea - Regularización
      I   Parámetros comunes a múltiples tareas (compartición dura)
      I   Restricciones de suavidad en la diferencia entre soluciones
          (compartición blanda)
    Ponderación de las funciones de coste
                    J(w) = α1 J1 (w) + α2 J2 (w) · · · + αM JM (w)

      I   Ponderación fija
            F   Importancia relativa entre las tareas auxiliares y la principal
      I   Ponderación adaptativa
            F   Ponderación probabilı́stica (máx. la verosimilitud de la salida)
            F   Ponderación por las prestaciones de cada tarea
            F   Ponderación por la velocidad de convergencia de cada tarea
                - Similar a la anterior (tasa de cambio)
            F   Otras: recompensa, regularización,...

            Marcelino Lázaro, 2021                            Máquinas Discriminativas Profundas 27 / 53
Elección de las tareas auxiliares
    La multi-tarea es evidente en algunas aplicaciones
       I   Economı́a y finanzas
              F Predicción de múltiples indicadores relacionados

       I   Bioingenierı́a
              F Ajuste de sı́ntomas para múltiples enfermedades

       I   Diseño de drogas
              F Predicción de múltiples componentes activos

    En la mayorı́a de aplicaciones: interes en una única tarea
       I   Es necesario buscar tareas auxiliares apropiadas
    Búsqueda de tareas auxiliares apropiadas
       I   Tareas relacionadas
              F Caracterı́sticas de la vı́a en predicción de dirección (piloto automático)
              F Coordenadas de un objeto en clasificación de imágenes

       I   Tareas adversarias
              F Se ha utilizado en adaptación al dominio

       I   Predicción de entradas de interés
              F Útil cuando no hay datos etiquetados para tarea auxiliar

       I   Aprendizaje de la representación
              F Autocodificación

       I   Uso del futuro para predecir el presente
              F Caracterı́sticas disponibles tras realizar las predicciones
                - Ejemplo: predicción de enfermedades (nuevas pruebas médicas)

              Marcelino Lázaro, 2021                                           Máquinas Discriminativas Profundas 28 / 53
Transferencia de Aprendizaje
                    y
         Adaptación al Dominio

(Transfer Learning and Domain Adaptation)

      Marcelino Lázaro, 2021   Máquinas Discriminativas Profundas 29 / 53
Cambio de Dominio
 Aprendizaje Máquina : Aprendizaje a partir de Ejemplos
      Limitación : Los modelos no generalizan bien en nuevos dominios
            Lo que se ve no es igual a lo que se vio al aprender !!!

      Necesidad de adaptar los modelos sin nuevas etiquetas
           Ejemplo: imágenes de nuevo escáner MRI
           Marcelino Lázaro, 2021              Máquinas Discriminativas Profundas 30 / 53
Cambio de Dominio - Transferencia de Aprendizaje
    Dominio ≡ (espacio entrada, espacio salida, distribución)
      I   Dominio fuente u origen (S)
      I   Dominio objetivo o destino (T )
                                      pS (xS , yS ) 6= pT (xT , yT )

    Cambio de Dominio vs Transferencia de Aprendizaje
      I   Cambio de Dominio
            F   Se mantienen los espacios de entrada y de salida
      I   Transferencia de Aprendizaje
            F   Pueden variar los dos espacios y/o la distribución

    Aprovechar aprendizaje previo para resolver una tarea
      I   Carencia de datos etiquetados en el nuevo dominio
            F   Dificultad para adquisición de datos o para su etiquetado manual
            F   Restricciones de privacidad (salud, economı́a,...)
      I   Reducción del tiempo de entrenamiento
            F   Entrenamiento partiendo de cero puede ser costoso

    Obtener una representación “transferible” entre dominios
            Marcelino Lázaro, 2021                             Máquinas Discriminativas Profundas 31 / 53
Categorización de métodos
    Ajuste fino de redes
      I   Etiquetas disponibles en el dominio objetivo
      I   Ajuste fino de redes pre-entrenadas en el dominio fuente
             F Ejemplos: redes VGGNet, ResNet, AlexNet, GoogLeNet (Inception) para imagen

      I   Algunas capas de la red pre-entrenada se “congelan”
             F Factores: tamaño de la base de datos objetivo / similaridad con el dominio fuente

      I   Se puede incluir regularización
             F Criterios estadı́sticos (divergencias)
             F Criterios geométricos (normas tipo L2 )

    Redes Adversarias
      I   Dados etiquetados abundantes en dominio origen, escasos en objetivo
      I   Uso de Redes Adversarias Generativas (GANs)
             F Red generadora: sintetiza ejemplos adversarios falsos
             F Red discriminativa: distingue ejemplos reales y ejemplos falsos
             F Entrenamiento alternativo mejora las prestaciones de ambas
               - Se busca que la distribución aprendida por el generador sea similar a la real
      I   Coste de entrenamiento de la red generativa puede ser elevado
             F Espacios de dimensión alta (como imágenes de alta resolución)

    Reconstrucción de datos
      I   Uso de arquitecturas profundas codificador-decodificador
             F Codificador compartido entre dominios
               - Aprendizaje de representaciones invariantes entre dominios
             F El decodificador se puede tratar como tarea auxiliar

    Soluciones hı́bridas
             Marcelino Lázaro, 2021                                       Máquinas Discriminativas Profundas 32 / 53
Múltiples aplicaciones
    Procesado de imagen
       I   Detección de objetos
       I   Segmentación de imágenes
       I   Etiquetado de imágenes
    Procesado de lenguaje (NLP)
       I   Clasificación de textos
       I   Generación automática de respuestas a preguntas
       I   Estima de la probabilidad de pertenencia de una sentencia a una
           categorı́a
    Reconocimiento de voz
    Procesado de series temporales
       I   Diseño de sistemas avanzados de asistencia
       I   Procesado de información inercial (Motion Transformers)
             F   Transducción de secuencias

             Marcelino Lázaro, 2021              Máquinas Discriminativas Profundas 33 / 53
Aprendizaje Federado
          (Federated Learning)

Marcelino Lázaro, 2021   Máquinas Discriminativas Profundas 34 / 53
Contexto
    ≈ 5 billones de usuarios de terminales móviles
      I   Generación masiva de datos
            F   Sensores: cámaras, micófonos, acelerómetros, GPS,...
      I   Aprovechamiento de los datos : aplicaciones inteligentes
            F   Entrenamiento de métodos de aprendizaje máquina

    Entrenamiento convencional de métodos máquina
      I   Entrenamiento centralizado
            F   En este contexto: necesidad de recolección de datos
      I   Limitaciones
            F   Ancho de banda
            F   Privacidad

    Aprendizaje Federado
      I   Modelos compartidos y entrenados con datos de usuario
      I   Sin necesidad de centralizar los datos
      I   Contribución de una federación de dispositivos (clientes)
      I   Coordinación: servidor central
            F   Se comparte el modelo, no los datos

            Marcelino Lázaro, 2021                        Máquinas Discriminativas Profundas 35 / 53
Aprendizaje Federado

                                                w        ∆w

      w   ∆w(1)                     w   ∆w(2)                    w      ∆w(3)

          Marcelino Lázaro, 2021                   Máquinas Discriminativas Profundas 36 / 53
Aprendizaje Federado - Procedimiento general
  1   Un modelo general se entrena en el servidor
        I   Entrenamiento convencional, con datos genéricos
  2   El servidor comparte el modelo
        I   Clientes seleccionados para colaborar en el ajuste del modelo
  3   El modelo se entrena en cada dispositivo
        I   Se usan datos privados
              F   Se personaliza el modelo, de acuerdo al uso del cliente
  4   Las actualizaciones de cada dispositivo se envı́an al servidor
        I   NO se envı́an los datos del cliente
  5   El servidor agrega las actualizaciones locales
        I   Algoritmo de Aprendizaje Federado
              F   Modelo actualizado
  6   El proceso se repite de forma iterativa
        I   Desde el paso 2 al paso 5

              Marcelino Lázaro, 2021                        Máquinas Discriminativas Profundas 37 / 53
Propiedades de la solución federada
    Uso de datos reales obtenidos de múltiples terminales
      I   Gran variedad de información
            F   Modelo suficientemente genérico para tratar tal variedad

    Personalización: sensación de modelo diseñado para el usuario
      I   Realza la experiencia de usuario
            F   El modelo incluye esta información individual

    Se desacopla el entrenamiento del modelo de la necesidad de
    acceso directo a los datos
      I   No se transmiten datos desde el cliente
            F   Adecuado para datos privados sensibles
            F   No serı́a práctico pedir al usuario enviar grandes cantidades de datos para
                poder personalizar su terminal

    Aprendizaje supervisado
      I   Las etiquetas se pueden inferir de la interacción con el usuario
    Se explota el potencial del Aprendizaje Máquina
      I   El cliente no tiene que ser un experto
      I   La experiencia se aporta desde el servidor
            Marcelino Lázaro, 2021                         Máquinas Discriminativas Profundas 38 / 53
Privacidad y seguridad en el paradigma federado
    El entrenamiento se realiza utilizando datos privados sin
    necesidad de que los datos salgan del dispositivo
      I   Esto no garantiza al 100 % la privacidad
            F   Es posible extraer alguna información de las adaptaciones transmitidas
            F   Se pueden reconstruir los datos a partir de los gradientes

    Mejora de la privacidad
      I   Transmisión de la mı́nima información
            F   Limitada a los gradientes de adaptación
      I   Protección de dicha información
            F   Encriptado y protección frente a “puertas traseras”

    Seguridad (algunos aspectos abiertos)
      I   Se comparte el modelo
            F   Riesgo de que sea interceptado por usuarios no deseados
      I   Usuarios mal-intencionados
            F   Envı́o de adaptaciones que dañen el modelo

            Marcelino Lázaro, 2021                         Máquinas Discriminativas Profundas 39 / 53
Inteligencia Artificial Explicable
(XAI, eXplainable Artificial Intelligence)

     Marcelino Lázaro, 2021   Máquinas Discriminativas Profundas 40 / 53
Necesidad de explicar las decisiones de una máquina
    Explicabilidad
      I   Barrera que limita el uso del aprendizaje máquina (ML), o de la Inteligencia
          Artificial (AI) en general en numerosos sectores
      I   Esfuerzo para definir explicabilidad en este ámbito
             F Tendencia hacia la Inteligencia Artificial Responsable

    Decisiones de AI que afectan a los humanos (medicina, ley, defensa)
      I   Necesidad de comprensión de cómo se han construido las decisiones
      I   Reticencia a adoptar técnicas que no sean interpretables, transparentes y fiables
    La interpretabilidad puede reducir reticencias
      I   Asegura la imparcialidad de la toma de decisiones
      I   Facilita la provisión de robustez
             F Resalta potenciales perturbaciones adversarias que pueden cambiar la decisión

      I   Garantiza que sólo variables relevantes afectan a la decisión
             F Existe una causalidad subyacente (fiable)

    Interpretación práctica de un sistema
      I   Comprensión del mecanismo de toma de decisiones
      I   Visualización de las reglas discriminativas
      I   Indicación de qué podrı́a perturbar las decisiones del modelo
    Normativa
      I   UE : Regulación de las decisiones basadas en algoritmos
             F En vigor desde abril de 2018
             F Incluye el “Derecho a Explicación”

             Marcelino Lázaro, 2021                                    Máquinas Discriminativas Profundas 41 / 53
Explicabilidad
    Terminologı́a varible y confusa en la literatura
        I   Explicabilidad, inteligibilidad, comprensibilidad, interpretabilidad,
            transparencia,...
               F   Understandability, intelligibility, comprehensibility, intepretability,
                   explainability, transparency,...

    D. Gunning: definición de Inteligencia Artificial Explicable (XAI)
    “XAI will create a suite of machine learning techniques that enables human users to
    understand, appropriately trust, and effectively manage the emerging generation of
    artificially intelligent partners”
        I   Comprensión y confianza (understanding and trust)
    Concepto dependiente de la audiencia
        I   Hacer claro o fácil de entender el funcionamiento de una máquina
            a una determinada audiencia

               Marcelino Lázaro, 2021                              Máquinas Discriminativas Profundas 42 / 53
Explicabilidad de modelos de aprendizaje máquina
    Gran variedad de arquitecturas y reglas de decisión
      I   Clasificador lineal, árboles de decisión
            F   Reglas de decisión claras y fáciles de interpretar
      I   Red neuronal profunda
            F   Modelo extremo de tipo “caja negra”: difı́cil de interpretar

    Explicabilidad a posteriori de métodos máquina
    (post-hoc explainability)
      I   Explicación de modelos que no son directamente explicables
      I   Varias formas de explicación
            F   Textual
            F   Visual
            F   Locales (segmentación del espacio de la solución)
            F   Mediante ejemplos
            F   Mediante simplificación
            F   Relevancia de caracterı́sticas

            Marcelino Lázaro, 2021                           Máquinas Discriminativas Profundas 43 / 53
Algunos ejemplos
    Redes Convolucionales (CNNs)
      I   Explicabilidad más sencilla que en otro tipo de redes
            F   Las habilidades cognitivas humanas favorecen la comprensión de datos
                visuales
      I   Dos categorı́as principales
            F   Mapeo de la salida sobre el espacio de entrada
            F   Interpretación de las proyecciones en las capas intermedias
                - A distintos niveles: neurona, canal, capa, red,...
    Redes Perceptrón Multicapa profundas (MLPs)
    (modelo caja-negra)
      I   Simplificación del modelo
            F   Extracción de las reglas de decisión en modelos comprensibles (árboles y
                reglas)
            F   Tarea más compleja a medida que crece la profundidad de la red
      I   Relevancia de caracterı́sticas
            F   Descomposición de las reglas de decisión en contribuciones de los
                elementos de entrada
      I   Estudio de perturbaciones
            F   Uso de aprendizaje adversario para buscar el ejemplo más cercano a la
                frontera
            Marcelino Lázaro, 2021                         Máquinas Discriminativas Profundas 44 / 53
Visualización de caracterı́sticas (CNNs)

              Olah et al. 2017 https://distill.pub/2017/feature-visualization/

                Neurona               Canal          Capa             Clase

        Patrones                         Optimización (con diversidad)

            Marcelino Lázaro, 2021                            Máquinas Discriminativas Profundas 45 / 53
Problemas Singulares

Marcelino Lázaro, 2021    Máquinas Discriminativas Profundas 46 / 53
Problemas sigulares

                            Clasificación M-ária : y ∈ Y = {C1 , C2 , · · · , CM }

                                                              (i)                                        (i)
    Strain = {(x1 , y1 ), (x2 , y2 ), · · · , (xN , yN )}   Strain = {(xj , yj ) | yj = Ci }   Ni = |Strain |

    Problemas desequilibrados
                                                        Ni
Marcelino Lázaro, 2021   Máquinas Discriminativas Profundas 48 / 53
Medidas de prestaciones (figuras de mérito)
    Probabilidad de acierto Pa = Pr(ŷ = y)
      I   No es una medida adecuada para estos problemas singulares
    Probabilidad de acierto equilibrada
                                        M
                                      1 X
                         Pae =            Pa,i , Pa,i = Pr(ŷ = Ci |y = Ci )
                                      M
                                         i=1

    Matriz de confusión
                           pŶ|Y(C |C )            pŶ|Y(C |C )      ···      pŶ|Y(C |C )
                                                                                          
                                    1 1                     2 1                        M 1
                         p
                          Ŷ|Y(C1 |C2 )           pŶ|Y(C |C )      ···      pŶ|Y(C |C ) 
                                                            2 2                        M 2 
                    CM = 
                                ..                      ..          ..             ..     
                                                                                           
                                 .                       .            .             .     
                           pŶ|Y(C |C )            pŶ|Y(C |C )      ···      pŶ|Y(C |C )
                                         1   M              2   M                      M   M

    Coste y Ahorro (Savings) de una decisión
                                         costeT − coste(ŷ)
                  Savings(x) =                              ,         coste(ŷ) = cŷ,y (x)
                                              costeT
                                                    N                                M
                                                 1 X                              1 X 1 X
    Valor absoluto medio MAE =                         |ŷi − yi |   AMAE =                    |ŷk − yk |
                                                 N i=1                            M t=1 Nt (t) k∈S

            Marcelino Lázaro, 2021                                        Máquinas Discriminativas Profundas 49 / 53
Soluciones para estos problemas singulares
    Remuestreo del conjunto de entrenamiento
      I   Equilibrio entre clases
            F   Sub-muestreo de las clases mayoritarias
            F   Sobre-muestreo (sintético) de las clases minoritarias
      I   Poblaciones proporcionales a los costes
    Combinación de clasificadores (ensembles)
                                        Clasificador 1

                x                       Clasificador 2                                               ŷ
                                                                              Combinador
                                              ..
                                               .
                                        Clasificador N

    Ponderación de clases en la función de coste
                                                   M
                                                   X          1 X
                                      Jp (w) =           αi          J(w, xk , yk )
                                                   i=1
                                                              Ni (i)
                                                                 k∈S

    Uso de la formulación Bayesiana
            Marcelino Lázaro, 2021                                          Máquinas Discriminativas Profundas 50 / 53
Formulación Bayesiana

          Clasificación M-ária : y ∈ Y = {C1 , C2 , · · · , CM }

    Riesgo de Bayes para clasificación
                       XX
                  R=            pY (t) cd,t (x) pŶ|Y (d|t)
                                       t∈Y d∈Y

      I   Y: clase correcta Ŷ: clase estimada (decisión)
      I   Costes de decisión cd,t (x): coste de decidir d cuando la clase es t
    Solución de mı́nimo riesgo
                                              (                             )
                                               X
                            ŷ = arg máx              cd,t (x) Pr(Cd |x)
                                          d
                                                 t∈Y

    Uso de la formulación bayesiana con métodos máquina
      I   La salida de la máquina estima Pr(Cd |x)
             F   Función de coste J(w) cumple ciertas condiciones (Div. de Bregman)
      I   Función de coste J(w) = R̂(w)
             Marcelino Lázaro, 2021                             Máquinas Discriminativas Profundas 51 / 53
Red Neuronal Bayesiana para Clasificación Ordinal (1 − D)

          Entrada                            Salida          Entrada                                Salida

            I1         I2         I3                            Ii                              IM
                                                ···                             ···
                 u1         u2          u3               ui−1          ui                uM−1
    Red neuronal para clasificación (salida única)
      I   Salida de la red para un patrón de entrada zk = g(xk , w)                       ŷk = decision(zk )
          g(·, w) depende de la red (a través de los parámetros w)
      I   Decisión basada en umbrales (regiones de decisión)
              F M − 1 umbrales: {u1 , u2 , · · · , uM−1 }
              F yˆk = i si zk ∈ Ii , con Ii = (ui−1 , ui ] (u−1 = −∞, uM = +∞)
                                                        XX
      I   Función de coste J(w) = R̂(w) =                           pY (t) cd,t (x) p̂Ŷ|Y (d|t)
                                                        t∈Y d∈Y
              F Se adaptan los pesos de la red w
              F Se pueden adaptar también los umbrales {u1 , u2 , · · · , uM−1 }

              Marcelino Lázaro, 2021                                        Máquinas Discriminativas Profundas 52 / 53
Otros problemas de interés
    Semi-Supervised Learning
    Novelty Detection
      I One-Class Learning

    One-Shot Learning
    Zero-Shot Learning
    Structured Output Prediction
    ...

           Marcelino Lázaro, 2021   Máquinas Discriminativas Profundas 53 / 53
También puede leer