Predicción de la Demanda de un Nuevo Producto para una Empresa Importadora, usando Series de Tiempo - MTI
←
→
Transcripción del contenido de la página
Si su navegador no muestra la página correctamente, lea el contenido de la página a continuación
Universidad Técnica Federico Santa María Departamento de Informática Magíster en Tecnologías de la Información Predicción de la Demanda de un Nuevo Producto para una Empresa Importadora, usando Series de Tiempo. José Ignacio Uribe Mujica jose.uribem@sansano.usm.cl Resumen: La habilidad para crear pronósticos y descubrir tendencias es una fuerte ventaja en cualquier industria. Este proyecto considera el problema de una empresa importadora que está frente al desafío de comercializar un nuevo producto, el cual tiene como referencia las ventas pasadas de uno de similares características. Para esto se lleva a cabo una investigación mediante series de tiempo, utilizando la metodología CRISP-DM, que intenta encontrar un modelo que permita realizar pronósticos sobre la tendencia y estacionalidad de las ventas de este nuevo producto. El desarrollo central del trabajo incluye secciones de análisis del negocio y de datos, las que permiten tener una base sólida de conocimiento para enfrentar la tarea. Luego, se realizan varias iteraciones que van intentando mejorar la precisión predictiva a través de distintos métodos como la descomposición, ARIMA, suavizamiento exponencial, árbol de decisión y redes neuronales. Posteriormente se ejecuta una técnica llamada stacking¸ la que propone utilizar más de un método para la obtención de un modelo de pronósticos, permitiendo mejorar de manera considerable la precisión de los resultados obtenidos. Palabras Clave: minería de datos, series de tiempo, CRISP-DM, pronósticos. 1 Introducción 1.1 Contexto La Empresa Las Hermanas (ELH) es una fabricadora e importadora de productos para la industria gastronómica, con presencia en el mercado chileno desde 1980. Desde su creación ha sido un actor importante en su industria, siendo reconocida por sus clientes como una compañía seria, responsable y que ofrece productos de calidad, junto a un servicio técnico personalizado. En sus inicios se dedicaba exclusivamente a la fabricación de máquinas, pero luego la industria y el mercado fueron evolucionando, lo que obligó a ELH a comenzar a importar algunos de sus productos, así como a incorporar otros nuevos a su gama. Junto con este cambio, la empresa también comenzó a incursionar en el mercado de los insumos para la industria en cuestión, abriendo más opciones a la oferta entregada a sus clientes. En el año 2009 se adjudica la representación de una marca de bases para la fabricación de helados QH. Durante nueve años la empresa fue el representante exclusivo de esta marca en el país, hasta que el año 2018 ésta decide instalarse de manera independiente en Chile. Luego de varios meses de investigación, análisis y negociaciones, ELH se adjudicó una nueva representación de otra marca del mismo tipo de producto, llamada MT. 1.2 Definición del Problema MT es un nuevo producto para la empresa ELH; por lo tanto, se ha solicitado hacer una estimación de las ventas que podría tener este nuevo producto. Para hacer este pronóstico de demanda se propone realizar un estudio basado en series de tiempo. Se pretende que este análisis entregue un resultado con mayor precisión que una proyección simple de las ventas actuales, que podrían ser obtenidas, por ejemplo, con modelos de regresión lineal o promedios móviles simples. 1
Universidad Técnica Federico Santa María Departamento de Informática Magíster en Tecnologías de la Información Con los resultados de este ejercicio, ELH podrá hacer estimaciones de ventas para su nuevo producto, el cual se cree que podría tener estacionalidad, ya que los helados se consumen mayormente en verano, como una medida para combatir la sensación de calor. Al finalizar el estudio, se entregará a ELH un patrón de pronóstico que permitirá a la compañía estar un paso adelante al momento de estimar las ventas, a través de un modelo encontrado luego de un minucioso trabajo de investigación. La anticipación a los hechos, sobre todo en materia de estimación de ventas, es un área que comparten probablemente todas las empresas de las distintas industrias, tanto productivas como de servicios, por lo que el problema planteado para el estudio de la presente tesina podría ser de utilidad para otras compañías, realizando los ajustes correspondientes y proponiendo y estudiando las condiciones necesarias para cada una en particular. 1.3 Hipótesis y Metodología de Validación El problema planteado supone estudiar y analizar los datos de ventas actuales y con ellos intentar predecir las ventas futuras del nuevo producto. Por lo tanto, la hipótesis que se plantea validar es la siguiente: “Utilizando análisis de series de tiempo es posible predecir, con un nivel de confianza superior al 75%, la demanda de un nuevo producto, conociendo el comportamiento anterior de uno similar”. Las variables a considerar en el presente estudio serán el agregado de ventas mensuales y la fecha (mes-año). El valor a predecir será la cantidad de producto a vender para uno o más meses en el futuro, dependiendo los resultados que se obtengan en el ejercicio. La metodología seleccionada para enfrentar el problema es CRISP-DM, la cual, como se detalla en el marco teórico, es la que mejor permite ir perfeccionando el modelo, intentando encontrar la solución que de mejor manera permita encontrar una solución satisfactoria al problema, manteniendo el enfoque en el negocio, tanto en sus primeras etapas como en la final. Para construir y validar un modelo de predicción basado en series de tiempo es necesario, en primer lugar, reunir los datos que están almacenados actualmente en la base de datos de la compañía. Luego, con los datos normalizados y preparados para el estudio, se realiza el análisis, para lo cual se considera una porción de los datos existentes, con los cuales se van creando modelos que luego son evaluados y comparados contra los restantes datos reales [1]. De esta forma se va encontrando evidencia de cuál modelo es el que entrega mayor confianza y menor error al momento de hacer la predicción; entre las métricas existentes para medir la confianza se encuentran la correlación, el error relativo, error cuadrático medio y la raíz del error cuadrático medio. Cabe destacar que, en el presente proyecto, se considera que un modelo es exitoso al entregar la predicción con un nivel de confianza superior al 75% [2]. 1.4 Objetivos El objetivo general del presente estudio es utilizar una metodología aceptada ampliamente por la industria, para crear un modelo de predicción de ventas que permita hacer pronósticos confiables, basados en análisis de series de tiempo. Para lograr el objetivo planteado, se establecen los siguientes objetivos específicos: • Entender en su totalidad el negocio general de la empresa ELH y en particular el del nuevo producto MT, con el fin de contar con una base sólida que permita mantener claro el objetivo general de la tesina y trabajar en dirección a éste. • Recolectar, entender y preparar los datos disponibles, para disponer de la mayor y mejor cantidad de información posible en la etapa de desarrollo. • Diseñar y Construir los data mart necesarios, para llevar a cabo la etapa de modelado y descubrimiento de patrones temporales. • Usar los datos ya refinados para encontrar un modelo que permita predecir, con una confianza superior al 75%, la demanda del producto MT. • Entregar el modelo a la Empresa para su uso en un ambiente real, aplicando lo aprendido durante el Magíster a un entorno profesional real de trabajo. 2
Universidad Técnica Federico Santa María Departamento de Informática Magíster en Tecnologías de la Información 1.5 Estructura de la Tesina El proyecto de Tesina está compuesto por 6 capítulos: • Introducción: se explica de manera general el problema planteado, hipótesis, metodología de solución propuesta, objetivos y estructura de la tesina. • Marco Teórico: se muestra la base teórica relacionada con el tema en estudio, con explicación sobre la minería de datos, series de tiempo, modelos y métricas. • Estado del Arte: se presenta algunos estudios publicados por académicos, mostrando distintas visiones, enfoques, resultados y conclusiones sobre los métodos aplicados. • Desarrollo: se llevan a cabo las distintas etapas de la metodología CRISP-DM aplicadas al problema en cuestión. • Validación de Hipótesis: se analizan los resultados obtenidos de la etapa de desarrollo y su aporte hacia la validación de la hipótesis. • Conclusiones: se discuten los resultados de las distintas etapas, evalúan los objetivos, y se presentan consideraciones y sugerencias para futuros estudios similares. 2 Marco Teórico 2.1 Minería de Datos De acuerdo a la Enciclopedia Británica, la minería de datos (MD) es el proceso de descubrir patrones y relaciones útiles e interesantes a partir de grandes volúmenes de datos [w-1]. Este campo combina herramientas de la estadística e inteligencia artificial, con bases de datos, para analizar enormes colecciones de datos en formato digital, también conocidos como data sets. A medida que la capacidad de almacenamiento de los sistemas computacionales comenzó a aumentar drásticamente en la década de 1980, muchas compañías comenzaron a guardar cada vez mayor cantidad de datos de sus transacciones. Pero las colecciones resultantes, llamados data warehouse, resultaron ser muy grandes para ser analizados con herramientas estadísticas tradicionales. Después de un largo tiempo donde se llevaron a cabo conferencias y workshops, en 1997 se lanzó el documento “Minería de Datos y Descubrimiento del Conocimiento” [w-1]. 2.1.1 Modelos y Métodos Existen 2 tipos de análisis que se pueden llevar a cabo en la MD [3]: • Modelos Predictivos: se usan cuando la finalidad del estudio es estimar el valor de un atributo en particular, donde existen datos que son usados como entrenamiento para el modelo y los restantes que sirven para la validación del mismo. Los modelos predictivos son de clasificación, de regresión o de pronóstico, estos últimos también conocidos como series de tiempo. • Modelos Descriptivos: la finalidad es entender y describir los datos disponibles, para formar grupos que sean homogéneos entre sí. Los modelos descriptivos son de visualización, asociación, correlaciones y dependencias, segmentación o detección de anomalías. En cuanto a los métodos utilizados en minería de datos, algunos de ellos son [4]: • Clasificación: los datos son divididos en clases-objetivo. Las técnicas de clasificación predicen la clase- objetivo para cada dato. Algunos de los algoritmos de clasificación son: K-Nearest Neighbour (KNN), Árbol de Decisión, Máquina de Soporte Vectorial, Red Neuronal Artificial y Métodos Bayesianos. • Regresión: es utilizada para encontrar funciones que sean capaces de explicar la correlación entre diferentes variables. Se construye un modelo matemático usando grupos de datos para entrenamiento. Se 3
Universidad Técnica Federico Santa María Departamento de Informática Magíster en Tecnologías de la Información requiere una variable dependiente y al menos una variable independiente. La regresión es un método estadístico que estudia la relación entre estas variables. Estas regresiones pueden ser lineales, para el caso en que el resultado pueda ser representado como una línea en un gráfico, o lógica, la cual permite predecir cuando existen datos en categorías. A su vez, la regresión lógica puede ser binominal, donde el resultado esperado tiene solo dos opciones posibles, o multinominal, donde existen tres o más resultados posibles. • Agrupamiento: es un método de aprendizaje no-supervisado diferente a la clasificación, ya que no cuenta con clases predefinidas. Bases de datos de gran tamaño son separadas en pequeños grupos de datos. Este método es utilizado para identificar similitudes entre distintos éstos. Algunas técnicas de agrupamiento son: partición (se define el número de grupos a priori), jerárquica (no hay grupos predefinidos, los datos se separan por jerarquía en el algoritmo), basado en densidad (para manejar datos más dispersos y difíciles de agrupar) y asociación (para encontrar patrones frecuentes y relaciones). 2.1.2 Metodologías de Trabajo A continuación, se muestran las metodologías más comunes para llevar a cabo un proyecto de MD, las cuales son KDD, SEMMA y CRISP-DM [5]. KDD (Knowledge Discovery in Databases) Un proceso KDD usa métodos de minería de datos para extraer lo que se supone es conocimiento de acuerdo a las especificaciones de medidas y límites, usando una base de datos junto a cualquier pre-proceso requerido, submuestreo y/o transformación de datos. Se consideran cinco etapas en KDD (mostradas en la figura 2.1), las cuales son: Figura 2.1: Etapas del proceso de KDD. Fuente [A]. • Selección: esta etapa consiste en crear un conjunto de datos objetivo o enfocarse en un subconjunto de variables donde el descubrimiento será llevado a cabo. • Procesado: esta etapa se encarga de la limpieza de los datos y de un orden de los mismos con el fin de tener datos consistentes. • Transformación: en esta etapa se transforman los datos usando reducción de dimensiones o métodos de transformación. • Minería de datos: esta etapa consiste en la búsqueda de patrones de interés, dependiendo del objetivo o técnica utilizada. • Interpretación/evaluación: la etapa final del proceso KDD consiste en la interpretación y evaluación de los patrones encontrados. 4
Universidad Técnica Federico Santa María Departamento de Informática Magíster en Tecnologías de la Información SEMMA (Sample, Explore, Modify, Model, Assess) SEMMA se enfoca en el proceso de conducir un proceso de MD. El Instituto SAS1 considera un ciclo de cinco etapas para el proceso SEMMA (las que se muestran en la Figura 2.2): • Muestreo: se selecciona una muestra de los datos, extrayendo una porción de los datos originales, de un tamaño lo suficientemente grande para contener información significante y a la vez lo suficientemente pequeña para que sea fácil de manipular. • Exploración: esta etapa consiste en la exploración de los datos, por medio de la búsqueda de tendencias y anomalías no Figura 2.2: Etapas del proceso de SEMMA. Fuente: [B]. anticipadas para tener mayor entendimiento de los datos. • Modificación: en esta etapa se modifican los datos por medio de la creación, selección y transformación de variables para enfocar el proceso de selección del modelo. • Modelado: esta etapa consiste en modelar los datos permitiendo a un software buscar de manera automática una combinación de datos capaz de predecir de manera confiable un resultado deseado. • Valoración: finalmente, se valorar los datos por medio de la evaluación de la usabilidad y confiabilidad de los descubrimientos realizados por medio del proceso de minería de datos y la estimación de su rendimiento. CRISP-DM (Cross-Industry Standard Process for Data Mining) CRISP-DM [6] es un modelo no-propietario, documentado y de libre disponibilidad de MD. Fue desarrollado por líderes de la industria con información de más de 200 usuarios, herramientas y proveedores de servicios de minería de datos. CRISP-DM fomenta las buenas prácticas y ofrece a las organizaciones la estructura necesaria para obtener mejores resultados en poco tiempo, al usar MD. CRISP-DM consiste en un ciclo de seis etapas, las que son representadas en la Figura 2.3: • Comprensión del Negocio: esta fase inicial se enfoca en el entendimiento y comprensión de los objetivos y requerimientos del proyecto desde una perspectiva de negocios, convirtiendo luego este conocimiento en una definición de problema de MD, junto a un plan preliminar diseñado para alcanzar dichos objetivos. • Comprensión de los Datos: esta fase comienza con una colección inicial de datos y luego procede con actividades con el fin de familiarizarse con los datos, identificar problemas en la calidad de éstos, descubrir algunos primeros indicios sobre los datos o identificar subconjuntos interesantes para formar pequeñas Figura 2.3: Etapas del proceso CRISP-DM. hipótesis sobre la información oculta. Fuente: [C]. 1 https://www.sas.com/en_us/home.html 5
Universidad Técnica Federico Santa María Departamento de Informática Magíster en Tecnologías de la Información • Preparación de los Datos: en esta etapa se desarrollan todas aquellas actividades involucradas en la construcción de un conjunto final de datos, a partir de los datos originales. • Modelado: en esta fase, varias técnicas de modelado son seleccionadas y aplicadas; además los parámetros de las mismas son probados y calibrados para intentar acercarse a resultados con valores óptimos. • Evaluación: ya con uno o más modelos obtenidos en la fase anterior, éstos son evaluados de manera más exhaustiva, y los pasos empleados para construir el modelo son revisados para tener certeza que éste satisface los objetivos de negocios. • Despliegue: la creación de un modelo no es el necesariamente el fin del proyecto. Aun cuando el propósito sea aumentar el conocimiento a partir de los datos, el mismo debe ser organizado y presentado de manera que permita ser útilmente utilizado. La metodología CRISP-DM es extremadamente completa y documentada. Todas sus etapas están debidamente organizadas, estructuradas y definidas, permitiendo que un proyecto sea fácilmente entendido y realizado. Comparación y Elección En la figura 2.4 se muestra un cuadro que compara las etapas de las tres metodologías presentadas anteriormente. CRISP-DM es una herramienta abierta, de libre disposición, usada ampliamente por la industria, que cuenta con una gran documentación y está ampliamente Figura 2.4: Resumen comparativo de las etapas de las metodologías. Fuente: aceptada. También es la única de elaboración propia a partir de [5]. las tres que se preocupa tanto del negocio como de la aplicación de los resultados. Por estas razones, para el desarrollo de la presente tesina se ha optado por la metodología CRISP-DM para encontrar un modelo que pronostique las ventas futuras del producto MT, además de validar la hipótesis planteada. 2.2 Series de Tiempo Desde la publicación de Fayyad en 1996 [7], el área de MD ha generado mucho interés, y hoy en día puede ser considerado un campo de estudio como tal. Las aplicaciones de MD pueden ser encontradas en un diverso campo de aplicaciones. Un importante dominio de la aplicación de MD es el de las series de tiempo [8]. El análisis con series de tiempo provee una solución ideal al problema de correlacionar datos de manera serial [9]. Una serie de tiempo es una colección o conjunto de mediciones de cierto fenómeno o experimento registrados en el tiempo, en forma equiespaciada (a intervalos de tiempos iguales). Las observaciones de una serie de tiempo son denotadas por [10]: x(t1), x(t2), x(t3), …, x(tn) donde x(ti) es el valor tomado por el proceso en el instante de tiempo i. Algunos tipos de series de tiempo que son posibles de analizar son las económicas, meteorológicas, geofísicas, químicas, demográficas, medicas, marketing, telecomunicaciones y transporte. El primer paso en una serie de tiempo consiste en graficar la serie. Una de las razones más importantes e influyentes para representar gráficamente una serie de tiempo es para reducir la dimensión visual de los datos originales [11]. El gráfico de la serie permitirá detectar los siguientes elementos [10]: 6
Universidad Técnica Federico Santa María Departamento de Informática Magíster en Tecnologías de la Información • Tendencia: representa el comportamiento de la serie. Esta puede ser definida como el cambio de la media a lo largo de un extenso período de tiempo. • Variación cíclica o estacional: representa un movimiento periódico de la serie de tiempo. La duración del período puede ser un año, un trimestre, un mes, un día, etc. Se suele hacer una distinción entre cíclica y estacional; estas últimas ocurren con períodos identificables, como la estacionalidad del empleo, o de la venta de ciertos productos, cuyo período es un año, mientras que variación cíclica se suele referir a ciclos grandes, cuyo período no es atribuible a alguna causa; como por ejemplo, fenómenos climáticos que tienen ciclos que duran varios años. • Variaciones aleatorias: los movimientos irregulares (al azar) representan todos los tipos de movimientos de una serie de tiempo que no sean tendencia, variaciones cíclicas o estacionales. • Outliers: se refiere a puntos de la serie que escapan de lo normal. Si se sospecha que una observación es un outlier, se debe reunir información adicional sobre posibles factores que afectaron el proceso y determinar si ésta debe removerse o recalcularse. Los modelos clásicos de series de tiempo suponen que la serie puede ser expresada como suma o producto de las tres componentes; tendencia, variación cíclica o estacional y variaciones aleatorias. La figura 2.5 muestra un ejemplo genérico (sin escala) de una serie de tiempo con modelo aditivo. También existe la descomposición STL (Seasonal and Trend decomposition using Loess), la que se separa en los mismos tres componentes, pero luego hace una interpolación de Loess (interpolación estacionaria) suavizando el ciclo y con esto encontrando el componente estacional. Figura 2.5: Serie aditiva y sus componentes. Fuente: Posteriormente se aplica una nueva interpolación para elaboración propia a partir de [10]. suavizar el componente estacional; y, finalmente, una tercera interpolación para encontrar una estimación de la tendencia. El proceso se repite en varias iteraciones para mejorar la precisión de las estimaciones. En este caso, el período de la estacionalidad debe ser previamente conocido [12]. Existen varias técnicas estadísticas para la predicción con series de tiempo. A continuación, se presentan aquellas que se consideran más efectivas [w-2][13]: • Promedio Móvil Simple (SMA): es la técnica más simple para predicciones. Básicamente, el promedio móvil se calcula al sumar los últimos ‘n’ períodos y luego dividiendo el valor por ‘n’. De esta manera, el promedio encontrado se considera como el valor del siguiente período. Estos promedios pueden ser usados para identificar de manera rápida si es que, por ejemplo, una venta está con una tendencia al alza o a la baja dependiendo del patrón encontrado por el promedio móvil. Figura 2.6: Promedio móvil simple. Fuente: [w-2]. 7
Universidad Técnica Federico Santa María Departamento de Informática Magíster en Tecnologías de la Información • Suavizamiento Exponencial (SE): a diferencia del SMA, esta técnica asigna valores exponencialmente decrecientes a los valores más antiguos de la muestra. Con frecuencia, el modelo es apropiado para los datos que no tienen una tendencia predecible al alza o a la baja. Con el suavizamiento exponencial se reduce el impacto de las variaciones aleatorias, entregando un mejor pronóstico. Para su uso, se utiliza una constante Alpha la cual, a mayor valor, menor suavizamiento entrega. • Suavizamiento Exponencial Ajustado a la Figura 2.7: Suavizamiento exponencial. Fuente: [w-2]. Tendencia (Holt): existen series de tiempo que pueden cambiar de nivel ocasionalmente y el SE no es capaz de captar estos cambios. Este método se utiliza para muestras de datos que muestran tendencias lineales locales que evolucionan con el tiempo. El suavizamiento exponencial de Holt incorpora una nueva constante Beta la cual representa el suavizamiento para la estimación de la tendencia. • Suavizamiento Exponencial Ajustado para Variaciones de Tendencia y Estacionales (Holt-Winters): este método se utiliza cuando una serie de tiempo aparenta tener un patrón estacional. Es una extensión del método anterior pero que incorpora un nuevo parámetro Gamma para suavizar la estacionalidad. • Modelos Autorregresivos (AR): un modelo AR implica que los valores de la variable analizada están relacionados con los mismos valores de períodos anteriores. Así, los valores anteriores al estudiado se consideran variables independentes del valor en cuestión. Un modelo AR expresa un pronóstico como una función de los valores previos de una serie de tiempo. • Promedio Móvil (MA): los modelos de MA proporcionan pronósticos en base a una combinación lineal de un número finito de errores pasados. Cada período pasado tendrá un peso en el modelo para intentar pronosticar el siguiente. • Promedios Móviles Autorregresivos (ARMA): este modelo utiliza los modelos AR y MA de manera combinada. Los modelos ARMA pueden describir una amplia variedad de comportamientos de las series de tiempo. Los pronósticos generados dependerán de los valores reales actuales y anteriores, así como de los errores encontrados. • Promedio Móvil Autorregresivo Integrado (ARIMA): esta técnica utiliza parámetros referidos a la parte autorregresiva (AR), integrada (I) y promedios móviles (MA) de los datos. El análisis Integrado (I) toma las diferencias entre las tendencias, para intentar dejarlas estacionarias. El modelo se presenta como ARIMA(p,d,q), donde ‘p’ representa el número de períodos para el análisis de AR, ‘d’ el número de análisis integrados y ‘q’ el número de períodos para el análisis MA. El modelado mediante ARIMA puede analizar las tendencias, estacionalidades, ciclos, errores y aspectos no estacionarios de los datos al hacer predicciones. La idea detrás de los modelos ARIMA es que el residuo final debiese ser casi imperceptible; es decir, no hay más información que encontrar. ARIMA busca la estacionalidad de los datos, así como una tendencia. Esta técnica se usa principalmente para proyectar valores futuros utilizando datos histórica. • Redes Neuronales Artificiales (RNA): son un tipo de técnica de machine learning que modela de manera semejante al cerebro humano. Su habilidad para aprender mediante el uso de ejemplos, las hacen muy flexibles y poderosas. Las RNA tienen la virtud de encontrar significado a partir de datos complejos o imprecisos, y la mayor parte del tiempo son capaces de identificar patrones y tendencias en los datos, que no pueden ser percibidos fácilmente por el ojo humano u otras técnicas más simples de predicción. • Árboles de Decisión: usan una estructura de árbol para representar un cierto número de posibles caminos de decisiones, cada uno llevando a un resultado específico. El tamaño de éstos depende de la profundidad del árbol, siendo más complejo al tener mayor profundidad. Son modelos fáciles de entender e interpretar. Su categorización más general comprende los árboles de clasificación y los de regresión, siendo estos últimos los que producen resultados numéricos y que son utilizados en el presente estudio [14]. Existen 8
Universidad Técnica Federico Santa María Departamento de Informática Magíster en Tecnologías de la Información técnicas que construyen más de un árbol de decisión para el mismo problema; entre ellas se encuentran Random Forest y Gradient Boosted Trees [w-3]. 2.3 Herramientas de Minería de Datos En esta sección se presentan dos de las herramientas de trabajo más utilizadas en el mundo de MD, así como dos de los lenguajes de programación disponibles en el área [w-4][w-5]. Herramientas de Trabajo RapidMiner es un programa de data science que provee un ambiente gráfico e integrado para preparación de datos, machine learning, deep learning, minería de texto y análisis predictivo [15]. Orange es un programa open source para machine learning y análisis de datos. Cuenta con varias librerías y utiliza scripts programados en Python [w-6]. Lenguajes de Programación R es un lenguaje y un ambiente para procesamiento estadístico y gráficos, entre otras funcionalidades. Provee una amplia variedad de técnicas y es ampliamente extensible. Una de sus fortalezas es la facilidad con la que gráficas de gran calidad pueden ser creadas, incluyendo símbolos matemáticos y fórmulas. R es un conjunto integrado de herramientas de software para manipulación y almacenado de datos, cálculos con arreglos y matrices, análisis de datos y facilidades gráficas para análisis de datos. Es un lenguaje de programación simple y efectivo, con posibilidad de entrada y salidas de datos [w-16]. Para interactuar con R de una manera más sencilla, pero aun trabajando con código, existe RStudio que es una IDE diseñada para el lenguaje de programación R. Incluye una consola, editor de sintaxis y herramientas para gráficos, historia, debugging, entre otras funciones. Una de las características de interés es la función de ajuste automático de funciones, permitiendo entregar parámetros para los modelos ARIMA y SE, que pueden ser un punto de partida interesante para el análisis predictivo [w-7]. Python es un lenguaje de programación interpretativo, interactivo y orientado al objeto. Incorpora módulos, excepciones, tipificación dinámica, tipos de datos de alto nivel y clases. Python combina potencia con una sintaxis clara; tiene interfaces para variadas llamadas de sistema y librerías, así como hacia varios sistemas con ‘ventanas’ y es extensible en C o C++. También puede ser usado como una extensión de lenguaje para aplicaciones que necesitan una interfaz programable, Además, Python es portable; puede ser ejecutado en sistemas Unix, Mac y Windows. Este lenguaje incluye una gran cantidad de librerías que abarcan áreas como procesamiento de texto, protocolos de internet, ingeniería de software e interfaces de sistema operativo [w-8]. 2.4 Métricas de Evaluación A continuación, se presentan algunas de las métricas que permiten evaluar la precisión de una serie de datos estimada, en relación a la serie original: • Error absoluto: es la diferencia entre un valor medido o estimado y el valor considerado como cierto o exacto [w-9]. • Error relativo: es el error absoluto dividido por el valor considerado como cierto o exacto [w-9]. • Error absoluto medio: es el promedio de los diferentes errores absolutos encontrados en una serie de datos [16]. • Error relativo medio: es el promedio de los diferentes errores relativos encontrados en una serie de datos [16]. • Correlación (de Pearson): es una prueba estadística para analizar la relación entre dos variables medidas en un nivel por intervalos o de razón. Se calcula a partir de las puntuaciones obtenidas en una muestra de dos variables. El valor va de –1 a +1, siendo los extremos correlaciones perfectas, y 0 sin correlación. Una correlación mayor a 0.75 es considerable, mientras que superior a 0.9 es muy fuerte [2]. 9
Universidad Técnica Federico Santa María Departamento de Informática Magíster en Tecnologías de la Información • Spearman Rho: es una prueba usada para medir la fuerza de asociación entre dos variables. Así como en la correlación, +1 es un positivo perfecto y -1 es un negativo perfecto. En este caso, una correlación se denomina fuerte cuando es superior a 0.6 [w-10]. • Kendall Tau: es una medida de la fortaleza y dirección de una asociación entre dos variables. Al igual que las correlaciones anteriores, sus valores pueden ir de +1 a -1 [w-11]. • Mean Squared Error (MSE): El error cuadrático medio es una media del promedio de las desviaciones de los valores predichos en relación a los valores reales de una muestra. Al ser cuadrático, suma todos los errores presentes independiente del signo [16]. • Root Squared Mean Error (RMSE): Es la raíz cuadrada del MSE, lo que deja este error en las mismas unidades que aquella de la muestra [16]. 2.5 ANOVA Otra manera de llevar a cabo una comparación entre distintas series de datos es mediante el “Análisis de Varianza” (ANOVA, por sus siglas en inglés), que es una prueba estadística para analizar si dos o más grupos difieren significativamente entre sí en cuanto a sus medias y varianzas. Plantea una hipótesis nula que propone que los grupos no difieren de manera significativa, por lo que la hipótesis de la investigación propone que los grupos sí difieren. El análisis de varianza produce un valor conocido como F o razón F. Si el valor de F es significativo implica que los grupos difieren entre sí en sus promedios [2]. 3 Estado del Arte Una aplicación de MD en la vida real se encuentra en la industria de la medicina. En [4] se muestra su uso para la administración efectiva de los recursos hospitalarios, clasificación de hospitales, mejora de la relación con el cliente, control de las infecciones hospitalarias, mejores técnicas de tratamiento, mejor cuidado del paciente, menor fraude en seguros, reconocimiento de pacientes de alto riesgo y planificación de pólizas de salud. El estudio presenta un resumen de los distintos métodos utilizados en la industria, entre los que destacan los árboles de decisión y las redes neuronales artificiales. Otra área en la cual se emplean estas técnicas en la actualidad es en la educación, según lo analizado por [17] en relación a los datos académicos. La “minería de datos académicos” es un área que está evolucionando y se asocia de cerca con el análisis del aprendizaje, lo que permite descubrir cómo los estudiantes aprenden y entienden y cómo los profesores entregan el contenido correcto en vista de los cambios actuales en los métodos de enseñanza. Además, se presenta el concepto de “minería de datos educacional”, que se encarga de desarrollar métodos para encontrar conocimiento a partir de los datos proveniente del ambiente educacional. En este caso también se presenta un resumen de diferentes métodos utilizados en la industria, obteniendo mejores resultados con los árboles de decisión y las redes neuronales artificiales. En relación a las series de tiempo, el estudio hecho por [18] intenta aplicar estos modelos para pronosticar secuencias de inscripción de patentes. En éste, las técnicas seleccionadas son suavizamiento exponencial y ARIMA, junto a la herramienta RStudio. El estudio comienza con la aplicación de la detección automática de parámetros entregada por la herramienta, aplicada a cada técnica en particular. Luego, para comparar las series, utiliza mediciones de precisión de predicción, como la raíz del error cuadrático medio, el error absoluto medio y el error absoluto medio porcentual. Los resultados muestran que, en este caso, ARIMA muestra resultados algo mejores, pero no con una ventaja evidente. Finalmente, un estudio publicado en el año 2019 [19] analiza el uso de modelos de machine-learning para predecir ventas. En primer lugar, se explica que existen algunas limitantes al usar series de tiempo en predicción de ventas, entre las cuales destacan: usualmente no se cuenta con datos históricos por un período suficiente para captar la estacionalidad, pero sí se cuenta con los datos históricos para un producto similar y se puede esperar que el nuevo se comporte de manera similar; los datos sobre las ventas pueden contar con muchos outliers o 10
Universidad Técnica Federico Santa María Departamento de Informática Magíster en Tecnologías de la Información datos faltantes, para lo cual hay que limpiar y extrapolar datos; es necesario tomar en cuenta factores exógenos que tienen impacto en las ventas. En éste, se consideraron diferentes técnicas de modelado para encontrar patrones de predicción en el tiempo, entre las que destacan random forest, redes neuronales y stacking (varios niveles de distintos métodos combinados). Se concluye que el uso de la regresión para predicción de ventas puede entregar un mejor resultado que un análisis común de series de tiempo. Uno de los principales supuestos de estos modelos es que el patrón de comportamiento histórico de los datos se repetirá en el futuro. 4 Desarrollo del Trabajo Como se detalló en el Marco Teórico, la metodología seleccionada para el presente estudio es CRISP-DM. Ésta cuenta con seis pasos, los que se usarán para presentar las tareas desarrolladas en el trabajo hecho. 4.1 Comprensión del Negocio La Industria Gastronómica [w-13] En relación a la industria gastronómica, es posible afirmar que ésta es una de las que más ha crecido en las últimas dos décadas. La oferta ha ido creciendo, pasando de los restaurantes más clásicos a alternativas más exóticas, las cuales han proliferado en el último tiempo. Al año 2016, Chile se ubica en el sexto lugar del ranking latinoamericano en cuanto al movimiento anual de esta industria. Una de las características que sitúa a Chile bajo sus vecinos de la región en relación a la gastronomía, es el gasto per cápita estimado, el cual se debe a un acotado presupuesto doméstico. No obstante, se han generado alternativas a precios razonables, los cuales permiten a una gran parte de la población probar platos y sabores extranjeros. Los chilenos tenemos cada vez más acceso a alternativas tales como la comida tailandesa, japonesa, peruana o colombiana, solo por mencionar algunas de las ofertas más exitosas de los últimos tiempos. Cabe destacar, en este sentido, que Chile ha sido considerado como uno de los tres países en el mundo en los que la industria gastronómica y alimentaria representa más de un 10 por ciento del PIB2, siendo los otros dos Nueva Zelanda y Bélgica. En resumen, la industria gastronómica de Chile está en vías a convertirse en una importante potencia de la región, siguiendo los pasos de líderes en la materia como Perú. La Industria Gastronómica y Heladera Enfocándose en la industria heladera como tal, Chile ocupa el primer puesto del ranking latinoamericano de consumo de helado per cápita por año, con unos impresionantes 8 kilos. Lleva una diferencia de 1 kilo con su competidor más cercano, que en el caso latinoamericano está disputado entre Costa Rica y Argentina, con más de 7 kilos en ambas naciones. En Chile el consumo está muy distribuido entre los diversos estratos sociales, encontrando opciones para todos los bolsillos, lo que favorece (y mucho) el consumo masivo. De acuerdo a diversas estadísticas, los chilenos gastan cerca de $35.000 al año, mientras que, en términos de ventas globales, los helados generan un movimiento de 700 millones de dólares [w-14]. Pero es un mercado en constante evolución; como la mayoría de aquellos negocios que sobreviven en el mundo, deben adaptarse a los modismos y nuevas tendencias que cobran fuerza entre los consumidores. Ahora es el turno del “helado gourmet”, un movimiento que celebra los nuevos sabores que escapan a los convencionales y que utilizan productos más refinados para la producción de helados artesanales. Algunos de estos nuevos sabores en el mercado son la frambuesa artesanal, en la que lograron preservar algo de fruta fresca para darle mejor sabor. Otra incorporación significativa, y muy requerida en el país, son la sandía, melón y vainilla de Madagascar [w-14]. 2 Producto Interno Bruto 11
Universidad Técnica Federico Santa María Departamento de Informática Magíster en Tecnologías de la Información Una de las razones que ha permitido que las compañías experimenten altas tasas de crecimiento, es que han sabido combatir la estacionalidad del producto que comercializan. De esta forma, según cuentan desde ‘Palettas’, para la temporada de invierno se esfuerzan en "la producción y venta de todos los sabores altos en vitamina C". En tanto, desde ‘Grido’ aseguran que para los meses de invierno se enfocan en la venta de postres envasados y, además, incorporan otros canales de distribución, como el delivery, "donde facilitamos al cliente la compra de postres helados sin que tengan que salir de su casa". En este mismo contexto, plantean que "el consumo de helados en los chilenos ha ido cambiando, pues ya no es solo un producto estacional, sino que se consume todo el año, sobre todo en los centros comerciales cerrados"[w-15]. La Heladería en ELH. El negocio de la heladería surgió como una opción de nuevo negocio para ELH luego de analizar el mercado gastronómico y heladero en particular y observar en éste un fuerte potencial de crecimiento. Desde su incorporación, QH fue incrementando sus ventas, consolidándose como el producto más fuerte de la compañía luego de algunos años. Esta condición se mantuvo constante, aumentando las ventas por varios años. Con el problema que significó perder la representación, la compañía emprendió de inmediato la misión de buscar un nuevo proveedor, ya que no podían perder el impulso existente ni las relaciones con los clientes. Por esta razón, se incorpora el producto MT y de inmediato se empieza a promocionar entre los clientes, algunos de los cuales recibieron el cambio sin problema, pero con algunas preocupaciones por parte de otros, quienes no creen que el producto mantiene la calidad. Se espera que en dos años, el producto MT pueda superar las ventas registradas en el mejor año de QH y que se consolide como el producto más fuerte de la compañía. 4.2 Comprensión de los Datos La información de las ventas está disponible desde el año 2003, varios años antes de la introducción del producto QH, en noviembre del año 2009. Estos datos son las ventas en cantidad de unidades y cantidad de dinero neto. Por razones de privacidad de los datos, solo se trabajará con las unidades vendidas. Los datos provienen de cinco tablas de la base de datos de ventas de la compañía, siendo estas tablas las siguientes: Productos, Ventas con Factura, Ventas con Boleta, Notas de Crédito y Notas de Débito. La información útil dentro de la tabla Productos, la cual tiene más de 30 campos, son el código del producto y el nombre del mismo. El código es necesario porque este es el dato que se usa en cada uno de los registros en las restantes cuatro tablas; y el nombre es necesario porque aquí se indica la cantidad de kilos de producto que significa la venta de una unidad de éste. Las cuatro tablas de ventas tienen una composición similar entre ellas, siendo útil para el presente estudio tres de éstos: un campo para el código del producto, uno para la fecha de la transacción y un último campo para la cantidad de unidades. En la tabla 4.1 se muestra un resumen con los siguientes atributos de los datos originales, para cada tabla mencionada: • Registros: número total de registros existentes. • Cantidad mínima/máxima: valores mínimo y máximo de ‘cantidad de unidades’ encontrado en los registros. • Cantidad media: promedio de ‘cantidad de unidades’ por registro. • Registros QH: número y porcentaje de registros correspondientes al producto QH, del total de registros. • Cantidad mínima/máxima QH: valores mínimo y máximo de ‘cantidad de unidades’ encontrado entre los registros correspondientes al producto QH. • Cantidad media QH: promedio de ‘cantidad de unidades’ por registro correspondiente al producto QH. 12
Universidad Técnica Federico Santa María Departamento de Informática Magíster en Tecnologías de la Información Tabla 4.1: Resumen de los datos originales Cantidad Cantidad Cantidad Cantidad Registros Registros QH mínima/máxima mínima/máxima media media QH QH Ventas con 64693 1 / 80000 462 10151 / 16 % 1 / 1524 3,84 Factura Ventas con 1605 1 / 3000 62 71 / 4,4 % 1/3 1,14 Boleta Notas de 1608 0 / 20000 560 273 / 17 % 0 / 93 2,39 crédito Notas de 0 - - - - - débito En la figura 4.1 se muestra un resumen de las ventas promedio registradas en cada mes desde el año 2003. En ella se puede observar que las ventas muestran una cierta homogeneidad, con las únicas excepciones de junio y noviembre, meses que muestran ventas notoriamente más altas y más bajas que el resto de los meses, respectivamente. Con las tablas y datos ya mencionados, es posible ya tener todos los datos necesarios para el estudio, pero éstos deben ser analizados, estudiados y ajustados, ya que no es posible Figura 4.1: Ventas por mes. Fuente: elaboración propia. utilizarlos de manera directa. Para esto se procede a la siguiente etapa de CRISP-DM, la cual consiste en preparar los datos y dejarlos listos para el estudio. 4.3 Preparación de los Datos En primer lugar, es necesario ajustar la tabla Productos, ya que tiene muchos campos que no sirven al estudio, y hay que crear un nuevo campo ‘Cantidad’ donde se guarde la unidad de venta, en kilos, del producto, dato que debe ser obtenido del campo ‘Nombre’. Este procedimiento se realiza de manera manual, ya que son solo 305 registros los que corresponden a los productos en estudio, y crear un programa que sea capaz de automatizar esta tarea podría requerir más tiempo que el necesario al hacer esta acción manualmente. A modo de ejemplo, para el producto ‘Pasta Chocolate Blanco 1.1Kg”, el campo ‘Cantidad’ asociado es ‘1.1’, que equivale a la unidad de venta de este producto. En segundo lugar, se debe eliminar de las cuatro tablas de ventas todos aquellos registros que no tengan relación con el producto QH. Posteriormente, se crea una tabla auxiliar que agrupará las ventas por período mes-año desde las cuatro anteriormente nombradas, permitiendo obtener una agrupación final de datos para la venta en cada período mes-año. Para esto, se suman los valores de las tablas Ventas con Facturas, Ventas con Boleta y Notas de Débito y se restan las Notas de Crédito. Finalmente, se agregan las ventas de los distintos productos para cada período mes-año. Para estos procedimientos se realizó un algoritmo en VB.NET que se muestra en el Anexo 1. El resultado final en la tabla auxiliar, que se llama “VentasTotales”, representa las ventas netas por kilos de la marca QH para cada período mes-año del estudio. Este período tiene datos desde noviembre del 2009 hasta 13
Universidad Técnica Federico Santa María Departamento de Informática Magíster en Tecnologías de la Información junio del 20193. La última compra del producto QH fue en septiembre del año 2018 y estos productos se continúan vendiendo hasta acabar el stock o hasta que el producto alcance su fecha de vencimiento. En consecuencia, el período de estudio será desde noviembre del 2009 hasta junio del 2019; es decir, 115 meses, cada uno con la cantidad de kilogramos de producto QH vendido. El siguiente paso consiste en estudiar los nuevos datos para llevar a cabo el entendimiento. En primer lugar, se muestra en la figura 4.2 un histograma para tener una primera impresión de éstos. Se puede observar un cierto sesgo hacia la izquierda, con una media bastante menor al mayor valor observado. Así mismo, se observan los rangos en los cuales existe únicamente un dato, los que habrá que analizar en una siguiente etapa. De los datos originales se pueden encontrar algunas mediciones estadísticas básicas. La media de la muestra es de 647 Kg, con una desviación estándar de 424 Kg. El valor mínimo encontrado es 0, el cual se repite en dos ocasiones. El valor máximo encontrado es de 2.354, correspondiente al mes de octubre del año 2013. En una siguiente etapa se lleva a cabo el análisis de estos datos que corresponden a los extremos de la muestra, ya que podrían Figura 4.2: Histograma. Fuente: elaboración propia. corresponder a outliers. En el proceso anterior se encontraron dieciocho registros con errores, los que se muestran en el Anexo 2. Es posible observar que, de los errores encontrados, el código del producto se repite en la mayoría de ellos, resumiéndose en que los problemas se generan por dos códigos que no están en la tabla de productos y otros dos que no tienen información de cantidad en esta tabla. Los códigos de producto con problemas son: 2003 y 1008 sin registro en tabla, y 5244 y 2515 sin cantidad en tabla. Luego de revisar el archivo de facturas y de entrevistar al personal encargado del producto, se pudo obtener la cantidad de kilos que corresponden a los códigos 5244 (1 Kg.) y 2515 (3 Kg.), pero no fue posible encontrar información sobre los otros productos, por lo que estos datos tendrán que ser desechados. Considerando que son ventas registradas en el año 2009 y 2010, con solo 1 y 2 unidades vendidas de cada uno, se establece que la pérdida de estos datos no será perjudicial para el estudio. En este punto, ya es posible hacer el primer gráfico mostrando un correlativo temporal de los datos de la serie, el cual, como ha sido mencionado anteriormente, es un paso esencial al momento de trabajar con series de tiempo. La figura 4.3 muestra el gráfico con los datos históricos de ventas. Figura 4.3: Datos históricos. Fuente: elaboración propia. 3 En julio 2019 comenzó el análisis y modelado de la presente Tesina. 14
Universidad Técnica Federico Santa María Departamento de Informática Magíster en Tecnologías de la Información En primer lugar, es posible observar fácilmente que hay unos datos que podrían ser outliers, por lo que se procede a estudiar más a fondo el dato de ventas para los meses: noviembre 2010, octubre 2013 y noviembre 2016. Este estudio se realiza analizando los documentos emitidos en ese período, buscando las causas de estos valores extraños y consultando con los vendedores asignados a cada cliente involucrado. Para Figura 4.4: Datos históricos corregidos. Fuente: elaboración propia. los períodos de noviembre 2010 y octubre 2013, se encontraron facturas únicas por valores excesivos. Se consultó con los vendedores respectivos y se encontró que para ambos casos los casos fueron excepciones y no ventas recurrentes en el tiempo. Por el contrario, el caso de noviembre 2016 es una suma de una gran cantidad de ventas pequeñas a varios clientes frecuentes; por esta razón, este dato sí se acepta. En consecuencia, del período noviembre 2010 se restan el total de la suma de dos facturas emitidas el mismo día al mismo cliente, por un total de 1261 Kg. Así mismo, del período octubre 2013 se resta una factura de un cliente que nunca más compró, por un total de 1.402 Kg. También cabe destacar que hacia fines del 2017 y durante los años 2018 y 2019 hay una baja considerable en las ventas, registrándose ventas casi nulas en mayo y junio del 2019. Considerando que ya en estos meses se vendía el nuevo producto, se procede a eliminar de la muestra estos últimos dos datos, para no interferir en el estudio con valores exagerados a la baja. La figura 4.4 muestra el gráfico con los datos históricos de ventas luego de las correcciones realizadas a los datos. Habiendo corregidos los datos, se muestra en el Anexo 3 el registro final de éstos, los que serán utilizados en la siguiente fase. 4.3.1 Detección Automática de Outliers RStudio incorpora una función que permite detectar y ajustar en la muestra los puntos que parecieran estar fuera de lógica, los llamados outliers. Este paso permite comprobar que la detección realizada anteriormente por intuición y estudio analítico de los datos también cuente con apoyo estadístico. La figura 4.5 muestra dos series de tiempo, la original y la modificada. En ésta se puede observar que la herramienta detecta los mismos puntos como outliers, lo que confirma Figura 4.5: Serie original y corregida. Fuente: RStudio con datos propios. que el ajuste de estos datos tiene lógica. En consecuencia, se procede a trabajar con los datos obtenidos luego de la limpieza de la sección anterior. 15
También puede leer