FACULTAD DE ESTUDIOS ESTADÍSTICOS MÁSTER EN MINERÍA DE DATOS E INTELIGENCIA DE NEGOCIOS - E-Prints Complutense

Página creada Jovana Garsés
 
SEGUIR LEYENDO
FACULTAD DE ESTUDIOS ESTADÍSTICOS MÁSTER EN MINERÍA DE DATOS E INTELIGENCIA DE NEGOCIOS - E-Prints Complutense
FACULTAD DE ESTUDIOS ESTADÍSTICOS

 MÁSTER EN MINERÍA DE DATOS E
 INTELIGENCIA DE NEGOCIOS
 Curso 2020/2021

 Trabajo de Fin de Máster

TITULO: ANÁLISIS DE LAS INSPECCIONES
EN LOS RESTAURANTES DE NUEVA YORK.

ALUMNO: JUAN IGNACIO LÓPEZ CELESTER

 TUTOR: ANTONIO SARASA CABEZUELO

 Septiembre de 2021
FACULTAD DE ESTUDIOS ESTADÍSTICOS MÁSTER EN MINERÍA DE DATOS E INTELIGENCIA DE NEGOCIOS - E-Prints Complutense
ÍNDICE
1.- INTRODUCCIÓN 4
1.1- ANTECEDENTES, ESTADO ACTUAL Y JUSTIFICACIÓN DE LA PROPUESTA 4
1.2- MOTIVACIÓN 4
2.- OBJETIVOS 5
3.- ESTADO DEL ARTE 5
4.- METODOLOGÍA EMPLEADA 7
4.1- METODOLOGÍA SEMMA 7
4.2- ALGORITMOS DE MACHINE LEARNING 8
4.2.1- REGRESIÓN LOGÍSTICA 8
4.2.2- REDES NEURONALES 8
4.2.3- BAGGING Y RANDOM FOREST 9
4.2.4- GRADIENT BOOSTING Y EXTREME GRADIENT BOOSTING 10
4.2.5- SUPPORT VECTOR MACHINES 11
4.2.6- ENSAMBLADO 11
4.3- EVALUACIÓN DE MODELOS DE MACHINE LEARNING 12
5.- DESARROLLO DEL TRABAJO Y PRINCIPALES RESULTADOS 13
5.1.- PREPARACIÓN Y DEPURACIÓN DE LOS DATOS 13
5.1.1- FUENTE DE DATOS Y TRATAMIENTO PRELIMINAR 13
5.1.2- DEPURACIÓN DE LOS DATOS 15
5.1.3- SELECCIÓN DE VARIABLES 19
5.2- MODELIZACIÓN 21
5.2.1- REGRESIÓN LOGÍSTICA Y REDES NEURONALES 21
5.2.2- BAGGING 25
5.2.3- RANDOM FOREST 30
5.2.4- GRADIENT BOOSTING 35
5.2.5- EXTREME GRADIENT BOOSTING 41
5.2.6- SUPPORT VECTOR MACHINES 48
5.2.7- ENSAMBLADO 60
5.3- COMPARACIÓN Y EVALUACIÓN DE MODELOS 62
6.- CONCLUSIONES 64
FACULTAD DE ESTUDIOS ESTADÍSTICOS MÁSTER EN MINERÍA DE DATOS E INTELIGENCIA DE NEGOCIOS - E-Prints Complutense
RESUMEN

Las inspecciones en los restaurantes de la ciudad de Nueva York son actualizadas
periódicamente en el portal de la ciudad de Nueva York, para ofrecer transparencia a
los ciudadanos. Estas inspecciones se rigen por un sistema de calificaciones implantado
recientemente. En este trabajo de fin de máster se determinará si este sistema de
calificaciones es eficaz y genera los resultados que se esperaban.
El objetivo del estudio es predecir los parámetros que influyen en los resultados de las
calificaciones de las inspecciones de los restaurantes de la ciudad de Nueva York.
También, se especificará si el sistema de calificaciones es eficaz, se determinará el mejor
modelo y se expondrá la variable que más influye en el modelo ganador.
El estudio se basará en una muestra de 11.682 inspecciones en los restaurantes de la
ciudad de Nueva York; Se pretenderá mediante la metodología SEMMA, realizar un
proceso de depuración preciso. Se utilizará el lenguaje de programación SAS 9.4, el
lenguaje de programación R y la aplicación SAS Enterprise Miner Workstation 14.1, para
realizar el análisis de datos.
 ABSTRACT

Inspections at New York City restaurants are regularly updated on the New York City
portal, to provide transparency to citizens. These inspections are governed by a recently
introduced ratings system. This end-of-master's work will determine whether this
grading system is effective and produces the results that were expected.
The goal of the study is to predict the parameters that influence the ratings results of
inspections of New York City restaurants. It will also specify whether the rating system
is effective, determine the best model and present the variable that most influences the
winning model.
The study will be based on a sample of 11,682 inspections at restaurants in New York
City; The aim of the SEMMA methodology is to perform a precise debugging process.
The SAS 9.4 programming language, the R programming language, and the SAS
Enterprise Miner Workstation 14.1 application will be used for data analysis.
FACULTAD DE ESTUDIOS ESTADÍSTICOS MÁSTER EN MINERÍA DE DATOS E INTELIGENCIA DE NEGOCIOS - E-Prints Complutense
1.- INTRODUCCIÓN

 1.1- ANTECEDENTES, ESTADO ACTUAL Y JUSTIFICACIÓN DE LA PROPUESTA

Desde el año 2012, la legislación de la ciudad de Nueva York permite ofrecer conjuntos
de datos de acceso público, para que puedan ser utilizadas por otros entes con una
finalidad práctica y se mejore de esta forma la transparencia en la ciudad. Entre estos
conjuntos de datos, se encuentran el de los resultados de las inspecciones de los
restaurantes de la ciudad de Nueva York. (Nicosia, G. et al., 2020).
En los últimos años, los negocios de comida del estado de Nueva York han sido
inspeccionados en numerosas ocasiones; En el año 2017, por ejemplo, han sido 40.700
inspecciones totales para un total de 26.101 restaurantes sujetos a inspección. Los
resultados de estas inspecciones fueron 22.185 restaurantes con nota A, 1.256 con nota
B, 315 con nota C, 1.019 restaurantes cerraron por malas condiciones sanitarias y el
resto de restaurantes quedan pendientes de calificación. (The New York Times, 2018).
Las inspecciones de negocios en Nueva York recibirán tres calificaciones en el proceso
de inspección:
 ➢ A; Será la mejor de las calificaciones y estarán exentas de multas desde el 19 de
 enero de 2011. (NYC, 2012).
 ➢ B; Esta calificación indicará que el restaurante cometerá infracciones y tendrá
 que pagar la correspondiente multa.
 ➢ C; Será la peor de las calificaciones e indicará que las infracciones cometidas
 serán un riesgo para la salud pública, por lo que estos restaurantes recibirán
 multas considerables o podrán ser objeto de cierre del negocio.
Actualmente, el departamento de salud del estado de Nueva York publicará en su web
una serie de recomendaciones, en diversos idiomas, para que todos los restaurantes
tengan claro como obtendrán una A. (NYC, 2020).
En el presente trabajo se pretende aplicar la minería de datos y la inteligencia de
negocios a las inspecciones de los restuarantes, para examinar si el sistema de
calificaciones implantado en el estado de Nueva York es eficaz y si ha producido
resultados positivos desde su implantación.

 1.2- MOTIVACIÓN

Los brotes de enfermedades transmitidas por alimentos es una cuestión de salud pública
que se repite año tras año y que se ha intentado paliar en la ciudad de Nueva York
mediante la implantación de un sistema de calificaciones público.
En este trabajo de fin de máster se pretende exponer el problema y ver si el sistema de
calificaciones en los 10 años que va a cumplir en 2022 es eficaz o no ha generado los
resultados que se esperaban de esta propuesta para acabar con el problema de los
brotes de enfermedades transmitidas por alimentos en la ciudad de Nueva York.
En el presente trabajo se pretende aplicar la minería de datos y la inteligencia de
negocios a las inspecciones de los restaurantes, para hallar un modelo en el que se
permita predecir si un restaurante obtendrá una determinada calificación al momento
de la inspección.

2.- OBJETIVOS

El objetivo principal del estudio es predecir los parámetros que influyen en los
resultados de las calificaciones de las inspecciones de los restaurantes de la ciudad de
Nueva York.
Este objetivo se puede desagregar en objetivos secundarios:
 ➢ Determinar si el sistema de calificaciones implantado en la ciudad de Nueva York
 es una herramienta eficaz de control de enfermedades transmitidas por
 alimentos.
 ➢ Realizar varios modelos, para proceder a su comparación y obtener el mejor.
 Analizar los resultados del mejor modelo y obtener conclusiones precisas.
 ➢ Proporcionar la variable que más influye en el mejor modelo.

3.- ESTADO DEL ARTE

En este trabajo de fin de máster se han examinado los diversos trabajos, artículos e
investigaciones que previamente se han hecho sobre el tema del que trata este trabajo
de fin de máster.
En mayo del año 2014, se publicó el artículo “Using Online Reviews by Restaurant
Patrons to Identify Unreported Cases of Foodborne Illness”. Este artículo pretendía
estudiar si las reseñas online podrían ayudar a identificar casos no informados de
enfermedades transmitidas por alimentos. Las conclusiones a las que se llegaron,
indican que se detectaron tres brotes no informados de enfermedades transmitidas por
alimentos con la ayuda de 468 quejas online revisadas por epidemiólogos. (Harrison et
al., 2014).
En marzo del año 2015, se publicó el artículo “Impact of a Letter-Grade Program on
Restaurant Sanitary Conditions and Diner Behavior in New York City”. Este artículo
pretendía estudiar los resultados que se obtendrían mediante el programa de
calificación mediante letras. Las conclusiones a las que se llegaron, indican que el
programa ha sido eficaz y produjo un impacto positivo en la higiene, las prácticas de
seguridad alimentaria y sensibilización pública. (Wong et al., 2015).
En marzo del año 2016, se publicó el artículo “Supplementing Public Health Inspection
via Social Media”. Este artículo pretendía crear un modelo predictivo a partir de las
reseñas online publicadas en la página web Yelp.com. Las conclusiones a las que se
llegaron, indican que los datos recogidos de las redes sociales complementan y mejoran
la detección de restaurantes que presentan prácticas que pueden suponer un riesgo
para la salud pública. (Schomberg et al., 2016).
En octubre del año 2016, se publicó el artículo “Understanding the Relationships
Between Inspection Results and Risk of Foodborne Illness in Restaurants”. Este artículo
pretendía estudiar la relación entre las calificaciones de las inspecciones sanitarias y el
riesgo de brotes de enfermedades transmitidas por alimentos. Las conclusiones a las
que se llegaron, indican que es poco probable que las inspecciones sanitarias detecten
o predigan un brote de enfermedad transmitida por alimentos. (Lee et al., 2016).
En noviembre del año 2018, se publicó el artículo “The Impact of Customer Loyalty and
Restaurant Sanitation Grades on Revisit Intention and the Importance of Narrative
Information: The Case of New York Restaurant Sanitation Grading System”. Este artículo
pretendía estudiar el impacto del programa de calificaciones sobre la lealtad de los
clientes y su predisposición a acudir al mismo restaurante tras la calificación
proporcionada por los inspectores de sanidad del estado de Nueva York. Las
conclusiones a las que se llegaron, indican que los clientes leales se muestran menos
sensibles a las calificaciones obtenidas de los restaurantes independientemente de la
puntuación que obtengan, mientras que, los clientes no leales se muestran
considerablemente sensibles a las bajas calificaciones sanitarias de los restaurantes
frente a los clientes leales. (Kim et al., 2018).
En junio del año 2019, se aplicaron técnicas de machine learning, para identificar a
aquellos restaurantes, de la ciudad de Chicago, que tenían una mayor propensión a
obtener un resultado favorable o no en las inspecciones que realiza sanidad. Este trabajo
de fin de máster denominado “Minería de datos para la mejora de la gestión de las
inspecciones de sanidad en restaurantes de la ciudad de Chicago”, obtuvo que gradient
boosting era el mejor modelo predictivo entre los diversos modelos comparados.
(Ramírez, 2019).
En agosto del año 2019, se publicó el artículo “Scores on doors: restaurant hygiene
ratings and public health policy”. Este artículo pretendía estudiar el alcance de las
inspecciones sanitarias respecto a las enfermedades transmitidas por alimentos. Las
conclusiones a las que se llegaron, indican que un sistema de calificaciones eficaz y
transparente podría reducir las enfermedades transmitidas por alimentos. (Fleetwood,
2019).
En diciembre del año 2019, se publicó el artículo “A for Effort? Using the Crowd to
Identify Moral Hazard in New York City Restaurant Hygiene Inspections”. Este artículo
pretendía estudiar las reseñas en línea que publican los usuarios cuando se encuentran
en un intervalo de tiempo en el que no está programada la inspección sanitaria de los
restaurantes. Las conclusiones a las que se llegaron, indican que el programa de
inspecciones de salud no es tan eficaz y que, por lo tanto, se requiere de un sistema de
control continuo de la higiene de los restaurantes que garantice unas condiciones
mínimas sanitarias. (Mejia et al., 2019).
En mayo del año 2020, se publicó el artículo “Grade pending: the effect of the New York
City restaurant sanitary grades inspection program on Salmonellosis”. Este artículo
pretendía estudiar el impacto del programa de calificaciones sobre las enfermedades
transmitidas por alimentos, y más concretamente sobre la salmonelosis. Las
conclusiones a las que se llegaron, indican que el programa de calificaciones tuvo poco
impacto sobre la sanidad pública del estado de Nueva York y no se redujo la incidencia
de salmonelosis. (Krinsky et al., 2020).
En septiembre del año 2020, se presentó el trabajo de fin de máster “Una herramienta
para mejorar la jerarquización de las inspecciones de sanidad en restaurantes de la
ciudad Nueva York”. El trabajo de fin de máster en cuestión tuvo como principal
objetivo, predecir si un restaurante de la ciudad de Nueva York pasaría una inspección
de sanidad o no, a partir, de diversos algoritmos de machine learning. El mejor modelo
de este trabajo de fin de máster, fue el de regresión logística que tenía como variables
más relevantes la interacción entre la variable total inspecciones y tipo de inspección, el
mes, las inspecciones con calificación A y la descripción de las inspecciones (Olivera,
2020).

4.- METODOLOGÍA EMPLEADA

4.1- METODOLOGÍA SEMMA

Los objetivos se cumplirán mediante el uso del lenguaje de programación SAS 9.4. Se
utilizará la metodología SEMMA, mediante la aplicación SAS Enterprise Miner
Workstation 14.1, para depurar, tratar, modificar y analizar los datos. La metodología
SEMMA que se utilizará, está compuesta por 5 fases; Sample, Explore, Modify, Model y
Asses. (Azevedo et al., 2008).
 ➢ Fase de Muestreo (Sample): Se seleccionará una muestra de los 419.516 datos
 totales, para preparar los datos para la fase de exploración.
 ➢ Fase de Exploración (Explore): Se hará una exploración mediante gráficos para
 detectar los datos anómalos.
 ➢ Fase de Modificación (Modify): Se crearán, seleccionarán y transformarán las
 variables, a la vez que se tratarán los valores faltantes y atípicos para concluir
 con la depuración de los datos.
 ➢ Fase de Modelización (Model): Se generarán varios modelos para predecir los
 resultados que se pretenderán obtener.
 ➢ Fase de Evaluación (Asses): Se compararán los modelos obtenidos para
 seleccionar el mejor modelo. Se analizará el mejor modelo para obtener las
 conclusiones del estudio.
4.2- ALGORITMOS DE MACHINE LEARNING

Machine learning o aprendizaje automático es una rama de la informática y de la
inteligencia artificial, que pretende imitar y mejorar el aprendizaje humano mediante
algoritmos y la utilización de datos. La rama estadística participa, permitiendo que los
algoritmos se entrenen, para obtener información relevante en el campo de la minería
de datos. (IBM, 2020).
En machine learning existen 2 tipos principales de modelos; Por una parte, están los
modelos de aprendizaje supervisado, y por otra, los modelos de aprendizaje no
supervisado. (González, 2015).
En el presente trabajo de fin de máster, se utilizarán algoritmos de aprendizaje
supervisado.

 4.2.1- REGRESIÓN LOGÍSTICA

La regresión logística es un método donde la variable dicotómica dependiente es
cualitativa o categórica. El modelo está compuesto por diversas variables cuantitativas
o cualitativas independientes que permiten predecir la variable dependiente. (Midi et
al., 2010).
 log(p/(1-p)) = b0+b1x1+b2x2+e
Este tipo de algoritmos clásicos permiten predecir (presentan robustez), pero se ven
limitados por la excesiva rigidez en los planteamientos y la complejidad que presentan
los datos actualmente. (Portela, 2021).

 4.2.2- REDES NEURONALES

Las redes neuronales artificiales (RNA) pretenden imitar los sistemas nerviosos de los
seres vivos. Las redes neuronales artificiales son sistemas de procesamiento que se
componen principalmente de una gran cantidad de nodos interrelacionados que
permiten optimizar y resolver cuestiones de aprendizaje. (O'Shea et al., 2015).
Tal como se muestra en la figura 1, se observan 3 elementos (nodos input, nodo output
y capa oculta). Los nodos input son las variables independientes del modelo; Los nodos
output son las variables dependientes del modelo y la capa oculta está compuesta por
los nodos ocultos, que son variables artificiales que no existen en los datos. (Portela,
2021).
Figura 1. Arquitectura de una red neuronal artificial. (Portela, 2021).

En la red neuronal artificial que se observa en la figura 1, la función de combinación (Σ)
permite que la capa input se una a la capa oculta, donde los pesos ( ) son los
parámetros a valorar. La función de activación ( ) es aplicada a cada nodo oculto, donde
la función tangente hiperbólica es la más empleada. Para finalizar, a la capa output se le
aplican las funciones de activación y de combinación de la capa oculta. (Portela, 2021).

 4.2.3- BAGGING Y RANDOM FOREST

Bagging es un método que pretende minimizar las desventajas que posee un árbol de
decisión. (Breiman, 1996). Este algoritmo se caracteriza por generar independencia de
los datos y aportar una mayor estabilidad que un árbol de decisión.
Se realiza el proceso siguiente en paralelo varias veces:
 ➢ “Repetir 1 y 2 m veces:
 1) Sortear observaciones.
 2) Realizar un árbol y obtener predicciones.
 ➢ Promediar las predicciones.” (Portela, 2021).
Random Forest es un método que utiliza una considerable cantidad de árboles de
decisión. Este algoritmo se caracteriza por utilizar dos parámetros (número de
predictores y número de árboles). La principal ventaja de este algoritmo, es que se
obtienen mejores resultados con las combinaciones de resultados de los árboles, frente
a los resultados de los árboles de forma individualizada. (Cánovas-García et al., 2016).
Según Qi (2012), tres son las características principales de random forest:
 ➢ Genera predicciones concisas en una gran variedad de aplicaciones.
 ➢ Permite cuantificar la importancia de cada característica con el entrenamiento
 de modelos.
 ➢ La proximidad por pares entre muestras, puede ser medida en el modelo
 entrenado.
Bagging y Random Forest son dos algoritmos que funcionan de una forma similar, con la
única diferencia de que en Random Forest existe la incorporación de la aleatoriedad.
“Los principales parámetros de estos dos algoritmos son:
 ➢ Mtry = Número de variables a sortear en cada nodo. A mayor mtry, menor sesgo
 y a menor mtry, se hace frente al sobreajuste.
 ➢ Nodesize = Tamaño mínimo de los nodos finales. Refleja la complejidad del árbol,
 si el número es bajo, se reduce el sesgo y si se aumenta el número, se produce
 una bajada de la varianza.
 ➢ Ntree = El número de iteraciones (árboles).
 ➢ Sampsize = El tamaño de cada muestra. A mayor tamaño, se reduce el sesgo y si
 se reduce el tamaño, se produce una bajada de la varianza.
 ➢ Replace = True (reemplazamiento) o False (sin reemplazamiento).” (Portela,
 2021).

 4.2.4- GRADIENT BOOSTING Y EXTREME GRADIENT BOOSTING

Gradient Boosting es un método que intenta minimizar los residuos en la dirección de
decremento mediante la repetición de la construcción de árboles de decisión
transformando levemente las predicciones preliminares. (Natekin et al., 2013).
“Los principales parámetros de este algoritmo son:
 ➢ V = Parámetro de regularización o shrinkage.
 ➢ Ntree = El número de iteraciones (árboles).
 ➢ Nodesize = Tamaño mínimo de los nodos finales. Refleja la complejidad del árbol,
 si el número es bajo, se reduce el sesgo y si se aumenta el número, se produce
 una bajada de la varianza.
 ➢ Sampsize = El tamaño de cada muestra. A mayor tamaño, se reduce el sesgo y si
 se reduce el tamaño, se produce una bajada de la varianza.” (Portela, 2021).

Extreme Gradient Boosting es una modificación del método Gradient Boosting. Este
paquete se utiliza con frecuencia en machine learning, debido a su velocidad de cálculo
y la capacidad de interpretación de los resultados. (Sudakov et al., 2019).
4.2.5- SUPPORT VECTOR MACHINES

Support Vector Machines es un algoritmo en el que se pretende utilizar un hiperplano
de separación que permita resolver el problema de separación lineal de clases. El
problema planteado presenta tres ideas principales: (Portela, 2021).
 1. Maximal Margin, el planteamiento tiene como premisa que las clases están
 perfectamente separadas y se necesita encontrar el hiperplano que permite
 dejar el máximo margen. (Vapnik et al., 1995).

 2. Soft Margin, el planteamiento tiene como premisa que las clases no están
 perfectamente separadas y se necesita encontrar el hiperplano que permite
 dejar el máximo margen aceptando que existen observaciones erróneamente
 separadas. (Fletcher, 2009).

 3. Kernel, el planteamiento tiene como premisa que existen casos en los que no
 existe separación y se necesita generar nuevas dimensiones que permitan
 encontrar separaciones lineales. (Steinwart, 2001).

 4.2.6- ENSAMBLADO

En los métodos de ensamblado se pretende que a partir de la combinación de modelos
se construyan predicciones.
Los principales planteamientos de este algoritmo son:
 1. El promedio de predicciones de diferentes algoritmos.
 2. Uso de la predicción de un algoritmo como variable input de otro algoritmo.
Las principales ventajas del ensamblado son:
 ➢ La eficacia que proporciona, ya que hay técnicas como Gradient Boosting o
 Random Forest que son técnicas de ensamblado.
 ➢ Al reducir la varianza es difícil que empeore modelos con sesgo similar.
Las principales desventajas del ensamblado son:
 ➢ La interpretación es inexistente.
 ➢ Mayor complejidad y posibilidad de combinación. (Portela, 2021).
4.3- EVALUACIÓN DE MODELOS DE MACHINE LEARNING

Se realizarán varios modelos para cada algoritmo explicado en el apartado 4.2 y
seleccionará el mejor modelo. La forma de comparar estos será mediante:
 ➢ Área bajo la curva (AUC). Se pretenden comparar los modelos mediante esta
 métrica por la eficiencia que proporciona y la capacidad de clasificación que
 posee.
 ➢ Tasa de fallos. Se puede definir como el número de predicciones erróneas en
 porcentaje. A mayor tasa de fallos, peor resultado proporcionará el modelo en
 cuestión.
 + 
 =
 + + + 
Una vez se ha obtenido el modelo ganador de cada algoritmo, se utilizará la matriz de
confusión, tal y como se muestra en la figura 2, para generar diversas técnicas a estudiar.

 Figura 2. Matriz de confusión. (Calviño, 2020).

 Valores reales
 VN FP
 Valores de predicción
 FN VP

 = + = + 
 
 = + = + 
5.- DESARROLLO DEL TRABAJO Y PRINCIPALES RESULTADOS

 5.1.- PREPARACIÓN Y DEPURACIÓN DE LOS DATOS

 5.1.1- FUENTE DE DATOS Y TRATAMIENTO PRELIMINAR

Los datos se encuentran en el portal de datos abiertos de la ciudad de Nueva York (NYC
Open Data) (https://data.cityofnewyork.us/Health/DOHMH-New-York-City-Restaurant-
Inspection-Results/43nn-pn8j) en el que se pueden obtener archivos de distintos
ámbitos de la sociedad para realizar análisis de los mismos. La web open data de la
ciudad de Nueva York, se caracteriza por actualizar los conjuntos de datos diariamente,
como se puede apreciar en el data set de las inspecciones de los restaurantes de la
ciudad de Nueva York.
Los datos que ofrece esta web se han complementado con los datos que ofrece el portal
del censo de la ciudad de Nueva York
(https://www.census.gov/quickfacts/fact/table/queenscountynewyork,kingscountyne
wyork,bronxcountynewyork,newyorkcountynewyork,richmondcountynewyork,newyor
kcitynewyork/INC110219) (U.S. Census, 2021) que contiene información sobre los 5
distritos de Nueva York y permitirán crear variables en el apartado del tratamiento
preliminar.
El conjunto de datos de la web open data de la ciudad de Nueva York, contiene 26
variables y 419.516 observaciones. (NYC OpenData, 2021).
Una vez se ha explicado el origen de los datos, se procederá a explicar en la figura 3, las
variables originales del conjunto de datos y las variables que se crearán para
complementar al conjunto de datos original.
 Figura 3. Variables originales y creadas.

 Variable Original/Creada Modificación Valores
 CAMIS Original Eliminada
 DBA Original Eliminada
 BORO Original Eliminada
 BUILDING Original Eliminada
 STREET Original Eliminada
 ZIPCODE Original Eliminada
 PHONE Original Eliminada
 CUISINE 0 Resto de tipos de comida
 Original Transformada
 DESCRIPTION 1 Tipo de comida norteamericana
 INSPECTION
 Original Eliminada
 DATE
 ACTION Original Eliminada
 VIOLATION
 Original Eliminada
 CODE
VIOLATION
 Original Eliminada
 DESCRIPTION
 0 G
 CRITICAL FLAG Original Transformada
 1 C
 SCORE Original Eliminada
 0 A
 GRADE Original Transformada
 1 B C
 GRADE DATE Original Eliminada
 RECORD DATE Original Eliminada
 INSPECTION 0 Cycle Inspection / Re-inspection
 Original Transformada
 TYPE 1 Cycle Inspection / Initial Inspection
 Latitude Original Original
 Longitude Original Original
 Community
 Original Eliminada
 Board
 Council District Original Eliminada
 Census Tract Original Eliminada
 BIN Original Eliminada
 BBL Original Eliminada
 NTA Original Eliminada
 0 Norte Este
 Cardinalidad Creada Transformada
 1 Sur Oeste
 Renta per
 Creada Original
 cápita
 0 01 – 03
 1 04 – 06
 Mes Creada Transformada
 2 07 – 09
 3 10 – 12
 0 Resto de razas/etnias
 Raza/Etnia Creada Transformada
 1 Raza blanca

Se puede observar como las variables transformadas se modificaron para que se
convirtiesen en dummies y se hizo un trabajo previo de eliminación de variables que no
iban a ser útiles para la predicción en Excel, antes de comenzar la fase de depuración en
SAS Enterprise Miner Workstation 14.1.
5.1.2- DEPURACIÓN DE LOS DATOS

En el proceso de depuración, se observa el conjunto de datos y se selecciona la variable
objetivo (Grade), se procede a importar los datos en SAS Enterprise Miner Workstation
14.1.

 Figura 4. Variables dependientes y variable objetivo.

En la figura 4 se observa el rol y la modalidad de las 10 variables.
En la figura 5 que trata sobre la fase de detección de errores, no se encontró ningún
error en las variables de intervalo y de clase, ya que se realizó este trabajo en Excel en
el apartado de tratamiento preliminar de los datos.

 Figura 5. Detección de errores.

En la detección y gestión de datos atípicos, se observa en la figura 6, que las variables
latitude y longitude son asimétricas porque sus coeficientes de asimetría son superiores
a 1 o inferiores a -1; Las medianas son distintas de 0, por lo que se les asignará el método
de límite desviación absoluta. Sin embargo, la variable renta per cápita si es simétrica
porque su coeficiente de asimetría se encuentra entre -1 y 1, por lo que el método de
límite es desviación estándar.
Figura 6. Detección y gestión de datos atípicos.

En la figura 7 que trata sobre el nodo de reemplazo, se observa que las variables a
modificar por el método de límite son las variables input; Las variables input latitude y
longitude se les asigna el método de límite desviación absoluta, mientras que, se
asignará el método de desviación estándar para la variable renta per cápita.

 Figura 7. Asignación método de límite en la detección y gestión de datos atípicos.

Para finalizar el apartado de detección y gestión de datos atípicos, se verifica en la figura
8, si en este conjunto de datos se debería realizar alguna modificación. En este caso, se
detecta que las variables latitude y longitude si superan el 5% del total de observaciones
(0,70*8176=5.723,2*0,05=286,16), por lo que se tendrá que volver al nodo reemplazo y
poner en el método de límite ninguno tal y como se observa en la figura 9.
 Figura 8. Verificación de variables la detección y gestión de datos atípicos.
Figura 9. Verificación de variables en la detección y gestión de datos atípicos.

En el apartado de tratamiento de datos faltantes, se utilizará un nodo de código SAS. Se
ha utilizado el código que aparece en la Figura 10, para generar la variable numMissing.
La variable numMissing funcionará como variable input y se verá si a alguna fila le faltan
más del 50% de los datos. (Calviño, 2020).
 Figura 10. Código SAS tratamiento datos faltantes.
Figura 11. Verificación tratamiento datos faltantes.

Se observa en la figura 11, que el máximo de la variable numMissing es 0, por lo que se
puede asegurar que no supera el 50% de las variables totales.
No hay datos ausentes ni en las variables de clase ni en las variables de intervalo, por lo
que no se tienen que realizar más modificaciones.
Por último, para concluir el proceso de depuración, se procederá a realizar la
transformación de variables de clase. En esta fase se generarán dos variables aleatorias
a partir de un nodo de código SAS, tal y como aparece en el código de la figura 12.
(Calviño, 2020).

 Figura 12. Generación de variables aleatorias.

Tras utilizar el nodo de código SAS, se utilizará un nodo de explorador de estadísticos
para observar los diferentes gráficos con las variables aleatorias. En la preselección de
variables que ha realizado SAS Enterprise Miner Workstation 14.1, se rechazarán
aquellas variables que tengan un valor igual o por debajo de las variables aleatorias.

 Figura 13. V de Cramer.

En la figura 13, se puede observar que las variables con escaso poder predictivo son
latitude, longitude, renta per cápita, raza/etnia y cardinalidad.
Las variables latitude, longitude, renta per cápita, raza/etnia y cardinalidad serán
rechazadas por SAS Enterprise Miner Workstation 14.1 en la preselección de variables,
ya que se encuentran por debajo de las dos variables aleatorias.

 5.1.3- SELECCIÓN DE VARIABLES

Para realizar la selección de variables en SAS, se utilizará el código de “todas macros
logistica v 6.0” (Portela, 2021) y se realizará la selección de variables. En los resultados
se obtiene que hay un conjunto de variables de 3 variables, que coinciden con el que se
proponía en la preselección de Miner, hasta un conjunto de variables de 7 variables. En
SAS se obtiene que mediante el método de selección stepwise no se obtiene ninguna
variable, por el método de selección de backward se obtienen las variables
Cuisine_Description y Critical_Flag y, por último, se obtienen mediante el método de
selección forward, las variables Cuisine_Description, Critical_Flag e Inspection_Type.
Por otra parte, se utilizará el paquete logistic y la macro ramdomselect, para obtener
varios modelos posibles.
En la figura 14, se puede observar que se obtienen 4 modelos con los resultados que
más se repiten para compararlos:

 Figura 14. Posibles modelos a comparar en la selección de variables.
Modelo Método de selección Variables
 1 Forward, preselección Miner y paquete Logistic Cuisine_Description, Critical_Flag e Inspection_Type
 2 Backward Cuisine_Description y Critical_Flag
 3 Paquete Logistic Raza_Etnia, Cuisine_Description, Critical_Flag, Inspection_Type y REP_Renta_per_c_pita
 4 Paquete Logistic Cardinalidad, Cuisine_Description, Critical_Flag e Inspection_Type
Se comparan los modelos expuestos en la figura 14 y se obtiene que de los 4 hay dos
que son los mejores (modelo 1 y modelo 3), tal y como se puede observar en la figura
15.

 Figura 15. Potenciales conjuntos de variables.

Los resultados que se obtienen, indican que los mejores conjuntos de variables son el
de 3 variables (Cuisine_Description Critical_Flag Inspection_Type) y el de 5 variables
(Raza_Etnia Cuisine_Description Critical_Flag Inspection_Type REP_Renta_per_c_pita)
tras haberlos comparado, por lo que se seleccionará el set de variables compuesto por
las variables Cuisine_Description Critical_Flag Inspection_Type que se indicaba en la
preselección de Miner, el método de selección Forward y el paquete Logistic.
5.2- MODELIZACIÓN

 5.2.1- REGRESIÓN LOGÍSTICA Y REDES NEURONALES

En las redes neuronales se trabajará con el software R para generar los mejores
modelos.
En primer lugar, se crea un vector de variables continuas y otro vector de variables
categóricas. Se obtiene el archivo GRADEbis que tiene las variables continúas
estandarizadas y las variables categóricas en dummies. Se convierten los datos “0” y “1”
de la variable objetivo Grade en “No” y “Yes”.
En segundo lugar, lo que se hará será obtener el número de nodos que permita obtener
el mejor modelo. La fórmula que se utilizará es h(k+1) + h+1 y un mínimo de 30
observaciones por parámetro, por lo que se obtiene que como máximo se podrán poner
54 nodos, todo esto teniendo en cuenta las 3 variables input que tiene el mejor set de
variables.
Por último, se establece un grid en avnnet, porque es más sólido que nnet, con número
de nodos (3,6,9,12,15,20,25,30,35,40,45,50) y learning rate de (0.01,0.02, 0.5,
0.1,0.001).

 Figura 16. Resultados grid avnnet.

Se puede observar en la figura 16, que se obtiene una tasa de aciertos por encima de
0.80 en el grid de avnnet. Se observa también, que existe un patrón respecto al learning
rate 0.001 en el que se obtienen mejores resultados que para valores altos de learning
rate y que el número de nodos óptimo es cercano a los 20. Para comprobar esto último,
se decide realizar un nuevo grid con learning rate de 0.001 y 0.0005, con número de
nodos de 10, 15, 20, 25, 30, 35 y 40.
Figura 17. Resultados nuevo grid avnnet.

En la figura 17 se puede observar, que se obtiene que los mejores modelos son los de
tamaño 10 con un learning rate del 0,0005 y 40 con un learning rate de 0,0005. Tras
haber hecho varias pruebas con las semillas 12318 y 12400, se procede a comparar los
distintos modelos obtenidos mediante validación cruzada repetida, tal y como se
observa en la figura 18.

 Figura 18. Modelos a comparar de regresión logística y redes neuronales.
 Modelo Descripción Tamaño Learning rate
Logística sin selección de variables Regresión logística
Logística con selección de variables Regresión logística
 Avnnet1 Red neuronal sin selección de variables 20 0.001
 Avnnet2 Red neuronal sin selección de variables 40 0.0005
 Avnnet3 Red neuronal sin selección de variables 10 0.0005
 Avnnet4 Red neuronal sin selección de variables 35 0.001
Figura 19. Box plot tasa de fallos regresión logística y avnnet.

En la figura 19, se observa que los resultados que se obtienen, permiten afirmar que
redes neuronales como avnnet2 han mejorado la regresión logística sin selección de
variables, aunque, cabe resaltar que el mejor modelo es el de regresión logística con
selección de variables, por lo que habría que quedarse con este último en términos de
tasa de fallos. A destacar de este gráfico, todos los modelos presentan outliers o valores
atípicos excepto el de regresión logística con selección de variables.
Figura 20. Box plot AUC regresión logística y avnnet.

En la figura 20 se observa, que en términos de AUC la regresión logística con y sin
selección de variables ofrecen los mejores resultados, por lo que en este caso habría que
quedarse con la regresión logística con selección de variables. A destacar de este gráfico,
el modelo de regresión logística sin selección de variables presenta una mejor mediana
que el modelo de regresión logística con selección de variables.
El mejor modelo es el de regresión logística con selección de variables, ya que ofrece la
menor tasa de fallos y el segundo mejor resultado en términos de AUC (mejor equilibrio
entre tasa de fallos/AUC).

 5.2.2- BAGGING

Se selecciona el set de 10 variables con dummies obtenido del nodo metadatos de Miner
y se comienzan a realizar pruebas. Se realiza la personalización con las semillas que se
han utilizado a lo largo del trabajo (12318 y 12400) y se fijan los parámetros para mtry
(mtry=c(3,4,5,6,7,8,9)).

 Figura 21. Resultado personalización bagging.

Se obtiene como resultado que el mejor accuracy se encuentra en 8 parámetros, tal y
como se observa en la figura 21. Tras esto, se procede a estudiar cuando se estabiliza el
error como se puede observar en la figura 22.

 Figura 22. Estudio estabilización del error.

En la figura 22, se aprecia que sobre los 800-1000 árboles el error se estabiliza. Por otra
parte, se aprecian unas mínimas fluctuaciones, a partir, de los 1000 árboles.
En la figura 23, se procede a realizar la personalización en el tamaño muestral y en el
tamaño de hoja. En primer lugar, se procede a modificar el sampsize para encontrar el
mejor entre 1000,2000, 4000 y 5000.

 Figura 23. Estudio hiperparámetro sampsize.

 1000 2000

 4000 5000
Se comparan los 4 gráficos y se concluye que el sampsize óptimo es el de 4000 porque
genera decremento del error y lo estabiliza, tal y como se observa en la figura 23.
Por último, en la figura 24 se realiza un estudio del número de nodos o nodesize, para
ello se hará pruebas con 5, 10 15, 20 nodos.

 Figura 24. Estudio hiperparámetro nodesize.
5 10

 15 20
En la figura 24, se obtiene como resultado que el tamaño máximo de nodos finales es
10.
Por último, en la figura 25 se vuelve a utilizar el grid con los mejores parámetros que se
han obtenido en número de árboles, tamaño muestral y el tamaño máximo de nodos
finales.

 Figura 25. Grid mejores modelos bagging.

Los resultados obtenidos indican que hay dos modelos que sobresalen que son el de 8 y
el de 9 variables, por lo que se procederá a realizar una comparación con los 5 mejores
modelos que se han obtenido en el grid, tal y como se observa en la figura 26.

 Figura 26. Modelos a comparar en bagging.
 Modelo Mtry Ntree Nodesize Sampsize
 Bagging1 5 1000 10 4000
 Bagging2 6 1000 10 4000
 Bagging3 7 1000 10 4000
 Bagging4 8 1000 10 4000
 Bagging5 9 1000 10 4000
Figura 27. Box plot tasa de fallos bagging.

 Figura 28. Box plot AUC bagging.

En las figuras 27 y 28, se observa que a medida que aumenta el número de variables se
obtiene una mejora en AUC, pero no en la tasa de fallos. Se decide seleccionar bagging1
(menor varianza y no tiene outliers como el modelo de bagging 3 en términos de tasa
de fallos) porque es el modelo más equilibrado respecto a la tasa de fallos y AUC.
Se hace una comparación con los modelos de regresión logística y se obtienen los
siguientes resultados.
 Figura 29. Box plot tasa de fallos de bagging y regresión logística.

 Figura 30. Box plot AUC de bagging y regresión logística.
En las figuras 29 y 30, se observa como todos los modelos de bagging mejoran a los dos
modelos de regresión logística (se produce una mejora respecto a las medianas que
ofrecen los modelos de regresión logística, pero los modelos de regresión logística
ofrecen mejores resultados en términos de varianza).

 5.2.3- RANDOM FOREST

Se selecciona el set de 10 variables con dummies obtenido del nodo metadatos de Miner
y se comienzan a realizar pruebas. En la figura 31, se observa cómo se realiza la
personalización con las semillas que se han utilizado a lo largo del trabajo (12318 y
12400) y se fijan los parámetros para mtry (mtry=c(3,4,5,6,7,8,9)).

 Figura 31. Resultado personalización Random Forest.

En la figura 31, se obtiene que los mejores modelos son el de 6 y el de 9 variables, por
lo que ahora lo que se hará será escoger las 6 variables por importancia que me indica
R del set de variables que proporcionó Miner para comparar resultados, tal y como
muestra la figura 32.

 Figura 32. Resultado personalización mejores mtry Random Forest.

En la figura 32, se observa que el mejor accuracy se obtiene en el modelo de 3 variables.
Tras esto, se procede a estudiar cuando se estabiliza el error, tal y como se observa en
la figura 33.
Figura 33. Estudio estabilización del error.

En la figura 33, se aprecia que sobre los 100 árboles el error se estabiliza.
En la figura 34, se procede a realizar la personalización en el tamaño muestral y en el
tamaño de hoja. En primer lugar, se procede a modificar el sampsize para encontrar el
mejor entre 25,50, 100 y 1000.

 Figura 34. Estudio hiperparámetro sampsize.

 25 50
100 1000
En la figura 34, se comparan los 4 gráficos y se concluye que el sampsize óptimo es el de
50 porque genera decremento del error y lo estabiliza.
Por último en la figura 35, se realiza un estudio del número de nodos o nodesize, para
ello se harán pruebas con 5, 10, 15 y 20 nodos.

 Figura 35. Estudio hiperparámetro nodesize.

 5 10

 15 20
En la figura 35, se obtiene como resultado que el tamaño máximo de nodos finales es
20.
Por último, en la figura 36 se vuelve a utilizar el grid con los mejores parámetros que se
han obtenido en número de árboles, tamaño muestral y el tamaño máximo de nodos
finales.
Figura 36. Resultado grid con los mejores hiperparámetros.

Los resultados obtenidos, en la figura 36, indican que el modelo de 6 variables es el
mejor, por lo que se procede, en la figura 37, a comparar los modelos de 3,4 y 6 variables
con los modelos de bagging y de regresión logística.

 Figura 37. Mejores modelos Random Forest.
 Modelo Mtry Ntree Nodesize Sampsize
 RF1 6 100 10 50
 RF2 3 100 10 50
 RF3 4 100 10 50

 Figura 38. Box plot tasa de fallos Random Forest, bagging y regresión logística.
Figura 39. Box plot tasa de fallos Random Forest, bagging y regresión logística.

 Figura 40. Box plot AUC Random Forest, bagging y regresión logística.
Figura 41. Box plot AUC Random Forest, bagging y regresión logística.

En las figuras 38, 39, 40 y 41, se observa nuevamente como todos los modelos de
bagging proporcionan mejores resultados que el mejor modelo de ramdom forest,
especialmente en términos de AUC, mientras que en términos de tasa de fallos se
obtienen resultados similares.

 5.2.4- GRADIENT BOOSTING

Se selecciona el set de 10 variables con dummies obtenido del nodo metadatos de Miner
y se comienzan a realizar pruebas. En la figura 42, se realizan la personalización con las
semillas que se han utilizado a lo largo del trabajo (12318 y 12400) y se fijan los
parámetros para shrinkage (shrinkage=c(0.1,0.05,0.03,0.01,0.001,0.005,0.003)),
número de observaciones en las hojas finales (n.minobsinnode=c(5,10,15,20)), número
de iteraciones o de árboles (n.trees=c(100,300,500,1000,5000)) y la profundidad de
iteración (interaction.depth=c(2)).
Figura 42. Resultado personalización gradient boosting.
Figura 43. Resultado personalización gradient boosting.

En la figura 43, se observa en el gráfico que aplicar un número de iteraciones de 5000
proporciona mejores resultados que un número de iteraciones inferior, excepto, en
n.minobsinnode=20. También, se aprecia que a mayor shrinkage se obtienen mejores
resultados, por lo que es preferible utilizar en el parámetro shrinkage el valor 0.1. Por
último, en el número de observaciones en las hojas finales se observa que se alcanza un
máximo en n.minobsinnode=10.
Para completar el análisis, se procede a estudiar el número de iteraciones
(n.trees=c(50,100,300,500,800,1000,1200,2000,3000,4000,5000,7000,10000)),
manteniendo el resto de parámetros inalterados, tal y como se observa en la figura 44.
(shrinkage=0.1, n.minobsinnode=10 y interaction.depth=c(2)).
Figura 44. Early stoping en gradient boosting.

En la figura 44, se observa que el número de iteraciones óptimo, tras las pruebas
realizadas, es de 5000 árboles, por lo que se procede, en la figura 45, a comparar los 4
modelos más interesantes de este apartado con los resultados de los anteriores
apartados.
 Figura 45. Mejores modelos gradient boosting.
 Modelo Shrinkage N.minobsinnode N.trees Interaction.depth
 gbm1 0.1 10 5000 2
 gbm2 0.1 15 5000 2
 gbm3 0.1 5 5000 2
 gbm4 0.05 5 5000 2

 Figura 46. Box plot tasa de fallos Gradient boosting respecto a anteriores modelos.
Figura 47. Box plot tasa de fallos Gradient boosting respecto a anteriores modelos.

En las figuras 46 y 47, se observa que, entre los 4 modelos, la menor tasa de fallos la
obtiene gbm3, aunque tiene un outlier. Si se compara el modelo de gradient boosting 3
con los modelos de los anteriores apartados, se observa que proporciona unos
resultados mejores, ya que se obtiene en este modelo una menor tasa de fallos.
Figura 48. Box plot AUC Gradient boosting respecto a anteriores modelos.

 Figura 49. Box plot AUC Gradient boosting respecto a anteriores modelos.

En las figuras 48 y 49, se observa que, entre los 4 modelos el que obtiene un mayor AUC
es gbm3. Si se compara el modelo de gradient boosting 3 con los modelos de los
anteriores apartados, se observa que proporciona unos resultados mejores, ya que se
obtiene en este modelo un mayor AUC.
El modelo gbm3 mejora a todos los modelos, tanto en términos de tasa de fallos, como
en términos de AUC.

 5.2.5- EXTREME GRADIENT BOOSTING

Se selecciona el set de 10 variables con dummies obtenido del nodo metadatos de Miner
y se comienzan a realizar pruebas. En la figura 50, se realiza la personalización con las
semillas que se han utilizado a lo largo del trabajo (12318 y 12400) y se fijan los
parámetros para eta (eta=c(0.1,0.05,0.03,0.01,0.001)), número de observaciones en las
hojas finales (min_child_weight=c(5,10,15,20)), número de iteraciones o de árboles
(nrounds=c(100,500,1000,5000)) y la profundidad de iteración (max_depth=6).

 Figura 50. Resultado personalización extreme gradient boosting.
Figura 51. Resultado personalización extreme gradient boosting.
En la figura 51, se observa en el gráfico que aplicar un número de iteraciones de 5000
proporciona mejores resultados que un número de iteraciones inferior. También, se
aprecia que, a mayor eta, se obtienen mejores resultados, por lo que es preferible
utilizar en el parámetro eta el valor 0.1. Por último, en el número de observaciones en
las hojas finales se observa que se alcanza un máximo en min_child_weight =5.
Para completar el análisis, en la figura 52, se procede a estudiar el número de iteraciones
(nrounds =c(50,100,300,500,800,1000,1200,2000,3000,4000,5000,7000,10000)),
manteniendo el resto de parámetros inalterados. (eta=0.1, min_child_weight =5 y
max_depth=6). Se probarán varias semillas, para ver si los resultados son precisos.

 Figura 52. Resultado estudio número de iteraciones.

 Semilla 12400
Semilla 12300

 Semilla 12500
En los resultados obtenidos de la figura 52, se observa que cambiando la semilla no se
producen cambios, por lo que el número de iteraciones será 5000.
En la figura 53, se realizará un estudio del sorteo de variables
(colsample_bytree=c(0.25,0.5,0.75,1)), manteniendo el resto de parámetros
inalterados.
Figura 53. Resultado estudio sorteo de variables.

Se obtiene como resultado, que el mejor sorteo de variables u observaciones lo realiza
con el valor 1.
Por último, en la figura 54 se realizará un análisis del parámetro gamma
(c(0,0.25,0.50,0.75,1)).

 Figura 54. Resultado estudio parámetro gamma.
Se observa que el mejor resultado se obtiene con gamma=0, por lo que se procede, en
la figura 55, a comparar los 4 modelos más interesantes de este apartado con los
resultados de los anteriores apartados.

 Figura 55. Mejores modelos extreme gradient boosting.
 Modelo Eta Min_child_weight Nrounds
 xgbm1 0.1 5 5000
 xgbm2 0.1 10 5000
 xgbm3 0.1 15 5000
 xgbm4 0.05 20 5000

 Figura 56. Box plot tasa de fallos extreme gradient boosting y anteriores modelos.
Figura 57. Box plot tasa de fallos extreme gradient boosting y anteriores modelos.

En las figuras 56 y 57, se observa que, entre los 4 modelos, la menor tasa de fallos la
obtiene xgbm1. Si se compara el modelo de extreme gradient boosting 1 con los
modelos de los anteriores apartados, se observa que proporciona unos resultados
mejores, ya que se obtiene en este modelo una menor tasa de fallos.

 Figura 58. Box plot AUC extreme gradient boosting y anteriores modelos.
Figura 59. Box plot AUC extreme gradient boosting y anteriores modelos.

En las figuras 58 y 59, se observa que hay 3 modelos que tienen un AUC similar, pero se
seleccionará xgbm1 porque proporciona mínimas mejorías en términos de AUC entre
los 3 modelos. Si se compara el modelo de extreme gradient boosting 1 con los modelos
de los anteriores apartados, se observa que proporciona unos resultados mejores y
similares al modelo gbm3.
El modelo xgbm1 mejora a todos los modelos en términos de tasa de fallos, pero en
términos de AUC proporciona resultados similares al modelo gbm3.

 5.2.6- SUPPORT VECTOR MACHINES

 SUPPORT VECTOR MACHINES: KERNEL LINEAL
Se selecciona el set de 10 variables con dummies obtenido del nodo metadatos de Miner
y se comienzan a realizar pruebas. En la figura 60, se realiza la personalización con las
semillas que se han utilizado a lo largo del trabajo (12318 y 12400) y se fija el parámetro
C(C=c(0.01,0.05,0.1,0.2,0.5,1,2,5,10)), ya que es el único parámetro que se puede
modificar.
Figura 60. Resultado estudio parámetro C.

Se obtienen resultados similares, por lo que se procede a generar un modelo con una C
de 0.01 que se comparará con el resto de modelos de support vector machines y los
modelos de los apartados anteriores.

 Figura 61. Box plot tasa de fallos Kernel Lineal y anteriores modelos.
En la figura 61, se compara el modelo de support vector machines Kernel Lineal con los
modelos de los anteriores apartados, se observa que proporciona unos resultados
peores, ya que se obtiene la mayor tasa de fallos de todos los modelos comparados.

 Figura 62. Box plot AUC Kernel Lineal y anteriores modelos.

En la figura 62, se compara el modelo de support vector machines Kernel Lineal con los
modelos de los anteriores apartados, se observa que proporciona los peores resultados
en términos de AUC de todos los modelos comparados.

 SUPPORT VECTOR MACHINES: KERNEL POLINOMIAL
Se selecciona el set de 10 variables con dummies obtenido del nodo metadatos de Miner
y se comienzan a realizar pruebas. En la figura 63, se realiza la personalización con las
semillas que se han utilizado a lo largo del trabajo (12318 y 12400) y se fija el parámetro
C(C=c(0.01,0.05,0.1,0.2,0.5,1,2,5,10)), la escala (scale=c(0.1,0.5,1,2,5))) y el número de
grados del polinomio (degree=c(2,3)).
Figura 63. Resultado personalización Kernel Polinomial.
Figura 64. Resultado personalización Kernel Polinomial.

En la figura 64, se observa en los resultados obtenidos, que los modelos de grado 2
generan modelos más estables y con un mayor accuracy que los modelos de grado 3,
por lo que se generará un gráfico, tal y como se observa en la figura 65, donde sólo
aparezcan los resultados de los modelos de grado 2, para proceder a su comparación.
Figura 65. Resultado personalización Kernel Polinomial grado 2.

En la figura 65, se observa una mejora mínima en los modelos con C=0.5, scale=1 y con
C=1, scale=0.5.
En la figura 66, se muestran los modelos más interesantes de este apartado.

 Figura 66. Mejores modelos Kernel Polinomial.
 Modelo C Scale Degree
 SVMPoly1 1 0.5 2
 SVMPoly2 0.5 1 2
Figura 67. Box plot tasa de fallos Kernel Polinomial.

En la figura 67 se observa que, en términos de tasa de fallos, el modelo support vector
machines Kernel Polinomial 1 proporciona mejores resultados que el modelo support
vector machines Kernel Polinomial 2.

 Figura 68. Box plot AUC Kernel Polinomial.
En la figura 68 se observa que en términos de AUC, el modelo support vector machines
Kernel Polinomial 1 proporciona mejores resultados que el modelo support vector
machines Kernel Polinomial 2.

 SUPPORT VECTOR MACHINES: KERNEL RBF
Se selecciona el set de 10 variables con dummies obtenido del nodo metadatos de Miner
y se comienzan a realizar pruebas. En la figura 69, se realiza la personalización con la
semilla que se han utilizado a lo largo del trabajo (12318 y 12400) y se fija el parámetro
C (C=c(0.01,0.05,0.1,0.2,0.5,1,2,5,10,30)) y el parámetro sigma (
c(0.0001,0.005,0.01,0.05,0.1,0.2,0.5,1,2,5,10,30)).

 Figura 69. Resultado personalización Kernel RBF.
Figura 70. Resultado personalización Kernel RBF.

En la figura 70, se observan mejores resultados en C=0.2 con Sigma=10 y Sigma=30, por
lo que se procederán a comparar estos modelos con los de los apartados anteriores.
En la figura 71, se muestran los modelos más interesantes de este apartado.

 Figura 71. Mejores modelos Kernel RBF.
 Modelo C Sigma
 SVMRBF1 0.2 30
 SVMRBF2 0.2 10
Figura 72. Box plot tasa de fallos Kernel RBF.

En la figura 72 se observa que, en términos de tasa de fallos, el modelo support vector
machines Kernel RBF 1 proporciona los mismos resultados que el modelo support vector
machines Kernel RBF 2.

 Figura 73. Box plot AUC Kernel RBF.
También puede leer