M aquinas Discriminativas Profundas - (Deep Learning) Marcelino L azaro - UC3M
←
→
Transcripción del contenido de la página
Si su navegador no muestra la página correctamente, lea el contenido de la página a continuación
Máquinas Discriminativas Profundas (Deep Learning) http://www.tsc.uc3m.es/˜mlazaro/Docencia/DL.html Marcelino Lázaro Universidad Carlos III de Madrid Marcelino Lázaro, 2021 1 / 53
Índice de contenidos Aprendizaje Máquina Adversario Aprendizaje Multi-Tarea Transferencia de Aprendizaje y Adaptación al Dominio Aprendizaje Federado Inteligencia Artificial Explicable (XAI) Problemas Singulares? Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 4 / 53
Aprendizaje Máquina “Adversario” (Adversarial Machine Learning) Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 5 / 53
Riesgos en el Aprendizaje Máquina Diseño Evaluación (Entrenamiento) (Generalización) Strain = {(x1 , y1 ), (x2 , y2 ), · · · , (xN , yN )} Stest = {(x01 , y01 ), (x02 , y02 ), · · · , (x0N 0 , y0N 0 )} p(xtrain , ytrain ) p(xtest , ytest ) Parámetros w Prestaciones Pe (o Pa ) Datos “Envenenados” Datos “Adversarios” Entrada Salida Despliegue (Implementación) Seguridad del Modelo Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 6 / 53
Tipos de “fallo” en aprendizaje máquina El aprendizaje máquina se basa en el uso masivo de datos I Ajuste de los parámetros de la máquina (entrenamiento) I Uso de la máquina sobre nuevos datos (generalización) Los datos pueden esconder algunos peligros I Entrenamiento de la máquina : Datos “envenenados” F Se mantienen las prestaciones en entrenamiento F Se puede dañar seriamente la generalización I Evaluación de la máquina : Ejemplos “adversarios” F Modificaciones intencionadas para afectar las decisiones I Despliegue de la red : Seguridad del Modelo F Se pueden generar ejemplos adversarios si se conoce el modelo - De forma directa - Mediante “ingenierı́a inversa” F Ataques de caja negra (construcción de ejemplos mediante observaciones) Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 7 / 53
Aprendizaje máquina supervisado - Una limitación p(xtrain , ytrain ) p(xtest , ytest ) p(xtrain , ytrain ) 6= p(xtest , ytest ) Entrenamiento w Evaluación Pe Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 8 / 53
Ejemplos “adversarios” - Clasificador lineal (infra-ajuste) Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 9 / 53
Ejemplos “adversarios” - Red Neuronal (sobre-ajuste) El Aprendizaje Máquina es Preciso, pero “Frágil” Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 10 / 53
Ejemplos “adversarios” Fuente: OpenAI https://openai.com/blog/adversarial-example-research/ Fuente: Jiefeng Chen, Xi Wu https://deep.ghost.io/robust-attribution/ Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 11 / 53
Ejemplos “adversarios” - Sistema visual humano (Pinna y White, 2002) http://people.csail.mit.edu/alvin/pinnaweb/pinna.html Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 12 / 53
Datos “envenenados” Se mantiene la precisión en entrenamiento pero se daña la generalización Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 13 / 53
Datos “envenenados” - Red Profunda Menor sensibilidad Se daña la clasificación de patrones especı́ficos Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 14 / 53
Peligros de los datos “envenenados” Datos envenenados en el conjunto de entrenamiento I Mantienen la precisión del clasificador en el conjunto de entrenamiento F Dificultad para detectar este tipo de datos I En el conjunto de test F Dañan seriamente la generalización (redes convencionales) F Dañan la clasificación de patrones especı́ficos (redes profundas) Riesgos añadidos I Es posible manipular múltiples decisiones con un único patrón envenenado I Pueden ser una puerta trasera indetectable para controlar el clasificador ⊕ ⊗ 4 “Pájaro” “Vehı́culo” “Aeronave” “Planta” Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 15 / 53
Despliegue : Seguridad del Modelo • Acceso al Modelo: Riesgos de Seguridad Entrada Salida Modelo: Arquitectura + Parámetros w • Restricción de Acceso al Modelo . No se eliminan todos los riesgos ? Robo del Modelo: mediante ingenierı́a inversa ? Ataques de Caja Negra: construcción de ejemplos adversarios a partir de tests Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 16 / 53
Entrenamiento Adversario • Entrenamiento: Ajuste de los parámetros w Función de coste J(w) ≡ J(w, x, y) Strain = {(x1 , y1 ), (x2 , y2 ), · · · , (xN , yN )} X ∂J(w, x, y) ∂J(w, x, y) mı́n J(w, x, y) ∂w ∂x w (x,y)∈Strain Ejemplo Adversario (Peor Caso) máx J(w, x + δ, y) δ∈∆ Entrenamiento Adversario X Entrada Salida mı́n máx J(w, x + δ, y) Modelo: Arquitectura + Parámetros w w δ∈∆ (x,y)∈Strain Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 17 / 53
Aprendizaje adversario vs “Data augmentation” Técnica efectiva para mejorar la capacidad de generalización I Sı́ntesis de imágenes con distorsiones “probables” El entrenamiento adversario puede interpretarse como una alternativa similar I Se entrena con las versiones más problemáticas del conjunto de entrenamiento Mejora la robustez, pero no necesariamente la generalización I Existe un compromiso robustez-generalización F Entrenamiento convencional: explota la correlación de todas las caracterı́sticas F Entrenamiento adversario: potencia la correlación fuerte de un subconjunto de caracterı́sticas Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 18 / 53
Caracterı́sticas del aprendizaje adversario Proporciona robustez I Entrenamiento: optimización inherentemente más difı́cil I Modelos más grandes F Redunda en el tiempo de entrenamiento I Necesidad de mayor cantidad de datos I Reconsideración de medidas de prestaciones apropiadas F La probabilidad de acierto puede “estar reñida” con la robustez Tiene algunos beneficios adicionales I Los modelos pueden ser más significativos semánticamente F Obtención de clasificadores “interpretables” I Aplicación a modelos generativos F Generación de patrones más realistas I Aplicación a adaptación de contexto Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 19 / 53
Aprendizaje Multi-Tarea (Multi-Task Learning) Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 20 / 53
Aprendizaje Multi-Tarea (Multi-Task Learning) Intenta mejorar la capacidad de generalización I Solución simultánea de tareas relacionadas I Comparte representaciones entre tareas relacionadas F Enfatiza la información especı́fica del dominio Distintos tipos de motivación I Biológica (Inspirada en el aprendizaje humano) F Uso de habilidades previas para aprender nuevas tareas I Pedagógica F Aprendizaje de habilidades útiles con otras tareas - The Karate Kid: “dar cera, pulir cera”, “ponte la chaqueta, quı́tate la chaqueta” I Aprendizaje Máquina - Transferencia inductiva F Introducción de un sesgo inductivo F Priorización de ciertas hipótesis - Regularización L1 : preferencia de soluciones “dispersas” F Multi-Tarea: preferencia de hipótesis que explican más de una tarea Exitoso en numerosas aplicaciones I NLP, reconocimiento de voz, visión robótica, diseño de drogas,... Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 21 / 53
Arquitecturas de Red para Aprendizaje Multi-Tarea Arquitecturas básicas I Compartición “dura” de parámetros F Compartición de parámetros entre todas las tareas F Minimización de múltiples funciones de coste simultáneamente I Compartición “blanda” de parámetros F Cada tarea tiene parámetros separados F Se introduce la “distancia entre parámetros” en la función de coste Otras arquitecturas I En cascada F La salida de unas tareas se usa como entrada para otras I Cross-Talk o Cross-Stich F Parámetros separados para cada tarea F Unidades Cross-Stich combinan la información de capas paralelas - Flujo de información entre dichas capas I Arquitecturas especı́ficas para algunas aplicaciones F NLP (Natural Language Processing) - Recurrentes (LTSM), Transformadores, Adversarial Feature Separation,... F Computer Vision - PAD (Prediction And Distillation), TRL (Task Routing Layers),... I Aprendizaje de arquitecturas Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 22 / 53
Aprendizaje Multi-Tarea: hard sharing ŷ1 CE1 CS-T1 ŷ2 x CE2 CS-T2 ŷ3 CE3 CS-T3 ŷ4 CE4 CS-T4 CO1 CO2 CO3 CO4 Capas Compartidas Capas Especı́ficas Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 23 / 53
Aprendizaje Multi-Tarea: soft sharing (o cross-talk ) ŷ1 CE1 CS-T1 ŷ2 x CE2 CS-T2 ŷ3 CE3 CS-T3 ŷ4 CE4 CS-T4 CO1 CO2 CO3 CO4 Capas Restringidas Capas Especı́ficas Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 24 / 53
Aprendizaje Multi-Tarea: network cascades ŷ1 CE1 CS-T1 ŷ2 x CE2 CS-T2 ŷ3 CE3 CS-T3 ŷ4 CE4 CS-T4 CO1 CO2 CO3 CO4 Capas Compartidas Capas Especı́ficas Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 25 / 53
¿Por qué funciona el Aprendizaje Multi-Tarea? Enfoca la atención en las caracterı́sticas relevantes I Una tarea puede ser “ruidosa” I Datos limitados o de alta dimensionalidad Aumento de datos (implı́cito) I Patrón de ruido diferente para cada tarea I Aprendizaje de la representación más general promediando los patrones de ruido Comparte “pistas” I Algunas caracterı́sticas pueden ser fáciles de aprender en una tarea y difı́cil en otra F Interacciones entre caracterı́sticas son complejas - Enfoque en las caracterı́sticas relevantes Enfatiza la representación I Sesga el modelo hacia representaciones que otras tareas prefieren I Puede generalizar para nuevas tareas en el futuro Regularización I Introducción de un sesgo inductivo I Reducción del riesgo de sobreajuste Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 26 / 53
Optimización (entrenamiento) para Aprendizaje Multi-Tarea Aprendizaje Multi-Tarea - Regularización I Parámetros comunes a múltiples tareas (compartición dura) I Restricciones de suavidad en la diferencia entre soluciones (compartición blanda) Ponderación de las funciones de coste J(w) = α1 J1 (w) + α2 J2 (w) · · · + αM JM (w) I Ponderación fija F Importancia relativa entre las tareas auxiliares y la principal I Ponderación adaptativa F Ponderación probabilı́stica (máx. la verosimilitud de la salida) F Ponderación por las prestaciones de cada tarea F Ponderación por la velocidad de convergencia de cada tarea - Similar a la anterior (tasa de cambio) F Otras: recompensa, regularización,... Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 27 / 53
Elección de las tareas auxiliares La multi-tarea es evidente en algunas aplicaciones I Economı́a y finanzas F Predicción de múltiples indicadores relacionados I Bioingenierı́a F Ajuste de sı́ntomas para múltiples enfermedades I Diseño de drogas F Predicción de múltiples componentes activos En la mayorı́a de aplicaciones: interes en una única tarea I Es necesario buscar tareas auxiliares apropiadas Búsqueda de tareas auxiliares apropiadas I Tareas relacionadas F Caracterı́sticas de la vı́a en predicción de dirección (piloto automático) F Coordenadas de un objeto en clasificación de imágenes I Tareas adversarias F Se ha utilizado en adaptación al dominio I Predicción de entradas de interés F Útil cuando no hay datos etiquetados para tarea auxiliar I Aprendizaje de la representación F Autocodificación I Uso del futuro para predecir el presente F Caracterı́sticas disponibles tras realizar las predicciones - Ejemplo: predicción de enfermedades (nuevas pruebas médicas) Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 28 / 53
Transferencia de Aprendizaje y Adaptación al Dominio (Transfer Learning and Domain Adaptation) Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 29 / 53
Cambio de Dominio Aprendizaje Máquina : Aprendizaje a partir de Ejemplos Limitación : Los modelos no generalizan bien en nuevos dominios Lo que se ve no es igual a lo que se vio al aprender !!! Necesidad de adaptar los modelos sin nuevas etiquetas Ejemplo: imágenes de nuevo escáner MRI Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 30 / 53
Cambio de Dominio - Transferencia de Aprendizaje Dominio ≡ (espacio entrada, espacio salida, distribución) I Dominio fuente u origen (S) I Dominio objetivo o destino (T ) pS (xS , yS ) 6= pT (xT , yT ) Cambio de Dominio vs Transferencia de Aprendizaje I Cambio de Dominio F Se mantienen los espacios de entrada y de salida I Transferencia de Aprendizaje F Pueden variar los dos espacios y/o la distribución Aprovechar aprendizaje previo para resolver una tarea I Carencia de datos etiquetados en el nuevo dominio F Dificultad para adquisición de datos o para su etiquetado manual F Restricciones de privacidad (salud, economı́a,...) I Reducción del tiempo de entrenamiento F Entrenamiento partiendo de cero puede ser costoso Obtener una representación “transferible” entre dominios Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 31 / 53
Categorización de métodos Ajuste fino de redes I Etiquetas disponibles en el dominio objetivo I Ajuste fino de redes pre-entrenadas en el dominio fuente F Ejemplos: redes VGGNet, ResNet, AlexNet, GoogLeNet (Inception) para imagen I Algunas capas de la red pre-entrenada se “congelan” F Factores: tamaño de la base de datos objetivo / similaridad con el dominio fuente I Se puede incluir regularización F Criterios estadı́sticos (divergencias) F Criterios geométricos (normas tipo L2 ) Redes Adversarias I Dados etiquetados abundantes en dominio origen, escasos en objetivo I Uso de Redes Adversarias Generativas (GANs) F Red generadora: sintetiza ejemplos adversarios falsos F Red discriminativa: distingue ejemplos reales y ejemplos falsos F Entrenamiento alternativo mejora las prestaciones de ambas - Se busca que la distribución aprendida por el generador sea similar a la real I Coste de entrenamiento de la red generativa puede ser elevado F Espacios de dimensión alta (como imágenes de alta resolución) Reconstrucción de datos I Uso de arquitecturas profundas codificador-decodificador F Codificador compartido entre dominios - Aprendizaje de representaciones invariantes entre dominios F El decodificador se puede tratar como tarea auxiliar Soluciones hı́bridas Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 32 / 53
Múltiples aplicaciones Procesado de imagen I Detección de objetos I Segmentación de imágenes I Etiquetado de imágenes Procesado de lenguaje (NLP) I Clasificación de textos I Generación automática de respuestas a preguntas I Estima de la probabilidad de pertenencia de una sentencia a una categorı́a Reconocimiento de voz Procesado de series temporales I Diseño de sistemas avanzados de asistencia I Procesado de información inercial (Motion Transformers) F Transducción de secuencias Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 33 / 53
Aprendizaje Federado (Federated Learning) Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 34 / 53
Contexto ≈ 5 billones de usuarios de terminales móviles I Generación masiva de datos F Sensores: cámaras, micófonos, acelerómetros, GPS,... I Aprovechamiento de los datos : aplicaciones inteligentes F Entrenamiento de métodos de aprendizaje máquina Entrenamiento convencional de métodos máquina I Entrenamiento centralizado F En este contexto: necesidad de recolección de datos I Limitaciones F Ancho de banda F Privacidad Aprendizaje Federado I Modelos compartidos y entrenados con datos de usuario I Sin necesidad de centralizar los datos I Contribución de una federación de dispositivos (clientes) I Coordinación: servidor central F Se comparte el modelo, no los datos Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 35 / 53
Aprendizaje Federado w ∆w w ∆w(1) w ∆w(2) w ∆w(3) Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 36 / 53
Aprendizaje Federado - Procedimiento general 1 Un modelo general se entrena en el servidor I Entrenamiento convencional, con datos genéricos 2 El servidor comparte el modelo I Clientes seleccionados para colaborar en el ajuste del modelo 3 El modelo se entrena en cada dispositivo I Se usan datos privados F Se personaliza el modelo, de acuerdo al uso del cliente 4 Las actualizaciones de cada dispositivo se envı́an al servidor I NO se envı́an los datos del cliente 5 El servidor agrega las actualizaciones locales I Algoritmo de Aprendizaje Federado F Modelo actualizado 6 El proceso se repite de forma iterativa I Desde el paso 2 al paso 5 Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 37 / 53
Propiedades de la solución federada Uso de datos reales obtenidos de múltiples terminales I Gran variedad de información F Modelo suficientemente genérico para tratar tal variedad Personalización: sensación de modelo diseñado para el usuario I Realza la experiencia de usuario F El modelo incluye esta información individual Se desacopla el entrenamiento del modelo de la necesidad de acceso directo a los datos I No se transmiten datos desde el cliente F Adecuado para datos privados sensibles F No serı́a práctico pedir al usuario enviar grandes cantidades de datos para poder personalizar su terminal Aprendizaje supervisado I Las etiquetas se pueden inferir de la interacción con el usuario Se explota el potencial del Aprendizaje Máquina I El cliente no tiene que ser un experto I La experiencia se aporta desde el servidor Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 38 / 53
Privacidad y seguridad en el paradigma federado El entrenamiento se realiza utilizando datos privados sin necesidad de que los datos salgan del dispositivo I Esto no garantiza al 100 % la privacidad F Es posible extraer alguna información de las adaptaciones transmitidas F Se pueden reconstruir los datos a partir de los gradientes Mejora de la privacidad I Transmisión de la mı́nima información F Limitada a los gradientes de adaptación I Protección de dicha información F Encriptado y protección frente a “puertas traseras” Seguridad (algunos aspectos abiertos) I Se comparte el modelo F Riesgo de que sea interceptado por usuarios no deseados I Usuarios mal-intencionados F Envı́o de adaptaciones que dañen el modelo Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 39 / 53
Inteligencia Artificial Explicable (XAI, eXplainable Artificial Intelligence) Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 40 / 53
Necesidad de explicar las decisiones de una máquina Explicabilidad I Barrera que limita el uso del aprendizaje máquina (ML), o de la Inteligencia Artificial (AI) en general en numerosos sectores I Esfuerzo para definir explicabilidad en este ámbito F Tendencia hacia la Inteligencia Artificial Responsable Decisiones de AI que afectan a los humanos (medicina, ley, defensa) I Necesidad de comprensión de cómo se han construido las decisiones I Reticencia a adoptar técnicas que no sean interpretables, transparentes y fiables La interpretabilidad puede reducir reticencias I Asegura la imparcialidad de la toma de decisiones I Facilita la provisión de robustez F Resalta potenciales perturbaciones adversarias que pueden cambiar la decisión I Garantiza que sólo variables relevantes afectan a la decisión F Existe una causalidad subyacente (fiable) Interpretación práctica de un sistema I Comprensión del mecanismo de toma de decisiones I Visualización de las reglas discriminativas I Indicación de qué podrı́a perturbar las decisiones del modelo Normativa I UE : Regulación de las decisiones basadas en algoritmos F En vigor desde abril de 2018 F Incluye el “Derecho a Explicación” Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 41 / 53
Explicabilidad Terminologı́a varible y confusa en la literatura I Explicabilidad, inteligibilidad, comprensibilidad, interpretabilidad, transparencia,... F Understandability, intelligibility, comprehensibility, intepretability, explainability, transparency,... D. Gunning: definición de Inteligencia Artificial Explicable (XAI) “XAI will create a suite of machine learning techniques that enables human users to understand, appropriately trust, and effectively manage the emerging generation of artificially intelligent partners” I Comprensión y confianza (understanding and trust) Concepto dependiente de la audiencia I Hacer claro o fácil de entender el funcionamiento de una máquina a una determinada audiencia Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 42 / 53
Explicabilidad de modelos de aprendizaje máquina Gran variedad de arquitecturas y reglas de decisión I Clasificador lineal, árboles de decisión F Reglas de decisión claras y fáciles de interpretar I Red neuronal profunda F Modelo extremo de tipo “caja negra”: difı́cil de interpretar Explicabilidad a posteriori de métodos máquina (post-hoc explainability) I Explicación de modelos que no son directamente explicables I Varias formas de explicación F Textual F Visual F Locales (segmentación del espacio de la solución) F Mediante ejemplos F Mediante simplificación F Relevancia de caracterı́sticas Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 43 / 53
Algunos ejemplos Redes Convolucionales (CNNs) I Explicabilidad más sencilla que en otro tipo de redes F Las habilidades cognitivas humanas favorecen la comprensión de datos visuales I Dos categorı́as principales F Mapeo de la salida sobre el espacio de entrada F Interpretación de las proyecciones en las capas intermedias - A distintos niveles: neurona, canal, capa, red,... Redes Perceptrón Multicapa profundas (MLPs) (modelo caja-negra) I Simplificación del modelo F Extracción de las reglas de decisión en modelos comprensibles (árboles y reglas) F Tarea más compleja a medida que crece la profundidad de la red I Relevancia de caracterı́sticas F Descomposición de las reglas de decisión en contribuciones de los elementos de entrada I Estudio de perturbaciones F Uso de aprendizaje adversario para buscar el ejemplo más cercano a la frontera Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 44 / 53
Visualización de caracterı́sticas (CNNs) Olah et al. 2017 https://distill.pub/2017/feature-visualization/ Neurona Canal Capa Clase Patrones Optimización (con diversidad) Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 45 / 53
Problemas Singulares Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 46 / 53
Problemas sigulares Clasificación M-ária : y ∈ Y = {C1 , C2 , · · · , CM } (i) (i) Strain = {(x1 , y1 ), (x2 , y2 ), · · · , (xN , yN )} Strain = {(xj , yj ) | yj = Ci } Ni = |Strain | Problemas desequilibrados Ni
Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 48 / 53
Medidas de prestaciones (figuras de mérito) Probabilidad de acierto Pa = Pr(ŷ = y) I No es una medida adecuada para estos problemas singulares Probabilidad de acierto equilibrada M 1 X Pae = Pa,i , Pa,i = Pr(ŷ = Ci |y = Ci ) M i=1 Matriz de confusión pŶ|Y(C |C ) pŶ|Y(C |C ) ··· pŶ|Y(C |C ) 1 1 2 1 M 1 p Ŷ|Y(C1 |C2 ) pŶ|Y(C |C ) ··· pŶ|Y(C |C ) 2 2 M 2 CM = .. .. .. .. . . . . pŶ|Y(C |C ) pŶ|Y(C |C ) ··· pŶ|Y(C |C ) 1 M 2 M M M Coste y Ahorro (Savings) de una decisión costeT − coste(ŷ) Savings(x) = , coste(ŷ) = cŷ,y (x) costeT N M 1 X 1 X 1 X Valor absoluto medio MAE = |ŷi − yi | AMAE = |ŷk − yk | N i=1 M t=1 Nt (t) k∈S Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 49 / 53
Soluciones para estos problemas singulares Remuestreo del conjunto de entrenamiento I Equilibrio entre clases F Sub-muestreo de las clases mayoritarias F Sobre-muestreo (sintético) de las clases minoritarias I Poblaciones proporcionales a los costes Combinación de clasificadores (ensembles) Clasificador 1 x Clasificador 2 ŷ Combinador .. . Clasificador N Ponderación de clases en la función de coste M X 1 X Jp (w) = αi J(w, xk , yk ) i=1 Ni (i) k∈S Uso de la formulación Bayesiana Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 50 / 53
Formulación Bayesiana Clasificación M-ária : y ∈ Y = {C1 , C2 , · · · , CM } Riesgo de Bayes para clasificación XX R= pY (t) cd,t (x) pŶ|Y (d|t) t∈Y d∈Y I Y: clase correcta Ŷ: clase estimada (decisión) I Costes de decisión cd,t (x): coste de decidir d cuando la clase es t Solución de mı́nimo riesgo ( ) X ŷ = arg máx cd,t (x) Pr(Cd |x) d t∈Y Uso de la formulación bayesiana con métodos máquina I La salida de la máquina estima Pr(Cd |x) F Función de coste J(w) cumple ciertas condiciones (Div. de Bregman) I Función de coste J(w) = R̂(w) Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 51 / 53
Red Neuronal Bayesiana para Clasificación Ordinal (1 − D) Entrada Salida Entrada Salida I1 I2 I3 Ii IM ··· ··· u1 u2 u3 ui−1 ui uM−1 Red neuronal para clasificación (salida única) I Salida de la red para un patrón de entrada zk = g(xk , w) ŷk = decision(zk ) g(·, w) depende de la red (a través de los parámetros w) I Decisión basada en umbrales (regiones de decisión) F M − 1 umbrales: {u1 , u2 , · · · , uM−1 } F yˆk = i si zk ∈ Ii , con Ii = (ui−1 , ui ] (u−1 = −∞, uM = +∞) XX I Función de coste J(w) = R̂(w) = pY (t) cd,t (x) p̂Ŷ|Y (d|t) t∈Y d∈Y F Se adaptan los pesos de la red w F Se pueden adaptar también los umbrales {u1 , u2 , · · · , uM−1 } Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 52 / 53
Otros problemas de interés Semi-Supervised Learning Novelty Detection I One-Class Learning One-Shot Learning Zero-Shot Learning Structured Output Prediction ... Marcelino Lázaro, 2021 Máquinas Discriminativas Profundas 53 / 53
También puede leer