El uso del Big Data para la producción estadística. La experiencia de BBVA Research

Página creada Xenia Sanchez
 
SEGUIR LEYENDO
El uso del Big Data para la producción estadística. La experiencia de BBVA Research
24 OCTUBRE 2021 TEMA DE PORTADA

El uso del Big Data para la
producción estadística. La
experiencia de BBVA Research
Fernando Bolívar García                             cuya gestión y análisis es todo un reto y brinda
Sirenia Vázquez Báez                                la oportunidad de enriquecer las bases de datos
BBVA Research                                       tradicionales con datos de alta dimensión.
                                                        La velocidad, se entiende como la rapidez
                                                    con que los datos son generados, almacenados
Introducción                                        y procesados. Cada vez más, el tiempo es una
                                                    variable fundamental para la comprensión y an-
La era digital y la innovación tecnológica están    ticipación de eventos en el entorno económico
revolucionando el paradigma industrial, inclu-      y financiero. La alta frecuencia se convierte en
yendo el sector financiero. El flujo de informa-    una importante herramienta de diagnóstico y
ción procedente de la actividad cotidiana de        aler­ta temprana para detectar rápidamente
los individuos genera un manantial de datos         cambios de comportamiento, especialmente
que ofrece la oportunidad de ampliar nuestra        en el cambiante panorama actual.
comprensión sobre el comportamiento de los              Por último, y no menos importante, el con-
individuos, la economía y la sociedad. Cuando       cepto de variedad recoge la amplia gama de
leemos las noticias en internet, buscamos algún     información disponible en nuestro entorno. Los
término o palabra en algún buscador, partici-       datos clásicos en formato fila-columna han de-
pamos en redes sociales, hacemos una compra         jado de ser los protagonistas, actualmente los
o transacción financiera de manera electrónica,     datos desestructurados como el texto, imáge-
añadimos información a este universo de da-         nes, videos o audios están ganando terreno.
tos. Una vez anonimizados y procesados, estos       Esta diversidad supone un in­cremento cuanti-
datos masivos plantean nuevos retos y ofrecen       tativo y cualita­tivo de la información disponi­
soluciones de valor e innovadoras a preguntas       ble tanto para el análisis social, económico o
relevantes que no podían ser respondidas por        financiero.
datos tradicionales. Esto es lo que denomina-           Estos tres pilares básicos del Big Data re-
mos en BBVA Research cono “Economía en              quieren además de ciertos atributos que tras-
Tiempo Real y Alta Definición”.                     laden su potencial en utilidad para el analista.
                                                    Entre ellos, podemos añadir conceptos como
                                                    los de veracidad, valor y visualización. A me-
Volumen, Velocidad y Variedad                       dida que los datos crecen, es necesario contro-
                                                    lar la integridad y fiabilidad de la información
Las características principales de volumen, ve-     recogida ya que de esto dependerá principal-
locidad y variedad, son claves en la definición     mente el acierto de las decisiones. Asimismo,
y en el entendimiento del Big Data. El volumen      la abundancia de datos puede difuminar el pro-
hace referencia a la cantidad de información        pósito de cualquier estrategia Big Data, por lo
recopilada no solo por las organizaciones, sino     que es primordial mantener el foco de conver-
toda la generada por redes sociales, búsquedas      tir la información en conocimiento como factor
online, datos geolocalizados, interacciones con     diferencial de manera rentable y a la vez efi-
los clientes, datos recogidos durante los proce-    ciente. Finalmente, uno de los puntos clave y
sos de negocio, etc. En definitiva, un tamaño in-   definitivos es el modo en el que la información
menso de datos estructurado y no estructurado       obtenida es presentada y transmitida ya que de
TEMA DE PORTADA OCTUBRE 2021 25

esto dependerá mayoritariamente el alcance y         del hogar. Los investigadores pueden contro-
el valor agregado generado.                          lar mejor por posibles variables de confusión
                                                     y rechazar explicaciones alternativas para una
                                                     pregunta determinada”[1].
Ventajas y desafíos                                     Por otro lado, la infraestructura tecnológica
                                                     actual está democratizando el dato permitien-
El crecimiento explosivo de datos recogidos          do la colaboración entre distintas disciplinas,
y el avance tecnológico imparable brindan un         la combinación de fuentes y de formatos con-
sinfín de oportunidades que conllevan una serie      siguiendo un conocimiento más profundo del
de ventajas competitivas, pero no están ajenos       mercado. Estas ventajas de aplicación empie-
a inconvenientes.                                    zan a experimentarse no solo entre organiza-
   A nivel agregado, dicha información puede         ciones privadas sino por organismos públicos
transformarse en indicadores que midan sen-          como institutos nacionales de estadística, ban-
timiento, comportamiento o actividad econó-          cos centrales y centros académicos de inves-
mica. Dichos indicadores permiten conocer en         tigación pues complementan y enriquecen la
tiempo real lo que está ocurriendo, lo que pro-      información que recaban con métodos más
porciona un margen extraordinario a las auto-        “tradicionales”.
ridades, empresas e individuos para la toma
de decisiones . Además, nos indican con eleva-
do detalle los grupos de individuos que nece-
sitan una respuesta individualizada (Políticas          El crecimiento explosivo de datos recogidos
Inteligentes). La crisis sanitaria del Covid-19 es
un buen ejemplo de ello, pues la información
                                                        y el avance tecnológico imparable brindan
generada a gran escala fue de vital importan-           un sinfín de oportunidades que conllevan
cia para, entre otras cosas, observar en tiempo
real el impacto de las medidas de contención
                                                        una serie de ventajas competitivas,
de la pandemia sobre hogares, empresas y la             pero no están ajenos a inconvenientes
economía en su conjunto. De hecho, ha sido
durante esta crisis del Covid que se ha desen-
cadenado una mayor demanda de información
en tiempo real y alta granularidad, ya sea para         Sin embargo, como toda tecnología, el Big
contar con indicadores alternativos o generar        Data conlleva una serie de desafíos que deben
modelos de alta frecuencia.                          ser tenidos en cuenta. Uno de los principales
   Además de la inmediatez, a un coste me-           retos es la calidad o la escasez de los datos, así
nor que otros procedimientos se puede obte-          como el muestreo y la representatividad de los
ner una imagen con alta granularidad, en alta        mismos. Otros factores relevantes a tener en
definición, en términos geográficos, sectoria-       cuenta, además del problema de la dimensio-
les o temporales. Esto abre la posibilidad de        nalidad, son la multicolinealidad y el sesgo in-
plantearse preguntas que hasta ahora era im-         trínseco, ya que los grandes volúmenes de da-
posible responder empíricamente. Un ejemplo          tos no eluden directamente los problemas de
de ello es la información generada a través de       inferencia habituales de estadística. Por último,
las transacciones financieras, la cual ha abierto    trabajar con datos diarios hace que el problema
nuevos caminos para entender mejor el com-           de desestacionalización de los datos sea más
portamiento de hogares, empresas e indivi-           complejo. Existen también desafíos “no técni-
duos. Como mencionan Baker y Kueng (2021),           cos” como garantizar en todo momento la pri-
“la granularidad de los datos y el hecho de          vacidad y la confidencialidad de los datos que
que a menudo están emparejados con otras
cuentas financieras de las que es titular el in-
                                                     1	Baker, S. R., & Kueng, L. (2021). Household Financial
dividuo, permiten formular preguntas sobre la           Transaction Data (No. w29027). National Bureau of
totalidad del balance o los flujos financieros          Economic Research.
26 OCTUBRE 2021 TEMA DE PORTADA

    juegan un papel fundamental en la seguridad          internas o externas. Nada ha cambiado aquí, el
    jurídica de los individuos. Finalmente, existen      principal reto al que se enfrenta el investigador
    desafíos de seguridad, dada la exposición de         es el de plantearse la pregunta adecuada.
    los datos a potenciales ciberataques.                   Una vez que la pregunta y los datos están
       Con todas estas y otras ventajas y desven-        disponibles, comenzamos la fase de procesa-
    tajas, ¿cómo podemos los economistas bene-           miento, tratamiento y validación. La duración
    ficiarnos de la revolución del Big Data?, ¿abre      de esta etapa dependerá de la calidad de la
    el Big Data nuevos temas de investigación para       información (existencia de nulos, dispersión o
    los economistas financieros? o ¿nos permiten         baja calidad del dato). Hay que tener en cuen-
    responder preguntas tradicionales de forma           ta que en muchos casos no existe un horizonte
    novedosa y más reveladora?                           temporal lo suficientemente largo, ya sea para
                                                         aplicar técnicas estadísticas convencionales a
                                                         una serie de tiempo generada con Big Data o
    Aplicaciones BBVA Research                           para incorporar estos datos a los modelos de
                                                         pronósticos que suelen utilizar horizontes de
    En BBVA Research llevamos varios años ha-            tiempo amplios. Así, para lidiar con ello es ne-
    ciendo uso de la información y herramientas          cesario aplicar no solo los métodos estadísti-
    disponibles para ilustrar la utilidad del Big Data   cos tradicionales sino también nuevas metodo-
    dentro del campo social, económico y financie-       logías, como por ejemplo análisis de lenguaje
    ro. El potencial es grande, pero las dificultades    natural, regularización, reducción de la dimen-
    no son menores, pues para hacerlos útiles, los       sionalidad, modelos de aprendizaje automáti-
    datos deben pasar por distintas etapas, con re-      co, entre otros. La última etapa del proceso co-
    tos en cada una de ellas y siempre preservando       rresponde a la narrativa y visualización que son
    la anonimidad de los individuos que realizan         fundamentales para explicar lo que hacemos y
    estas operaciones.                                   por qué lo hacemos.
                                                            El resultado del proceso mencionado son al-
                                                         gunos de los indicadores en tiempo real y alta
                                                         definición como los de consumo e inversión en
                                                         tiempo real. En el primer caso, utilizando las
  Nada ha cambiado aquí, el principal                    transacciones financieras estudiamos el com-
                                                         portamiento agregado de los consumidores
reto al que se enfrenta el investigador                  gracias a la información agregada y anonimiza-
       es el de plantearse la pregunta                   da de los pagos con tarjeta BBVA y tarjetas aje-
                                                         nas en terminales de punto de venta españoles.
                                    adecuada             Concretamente, dicha información nos ha per-
                                                         mitido analizar el impacto del gasto en España
                                                         durante la actual pandemia de la Covid-19, así
                                                         como las políticas aplicadas para controlarlo a
                                                         nivel diario. Los metadatos de las transacciones
       El primer reto al que se enfrenta BBVA Re-        también nos permiten estudiar la variación de
    search al trabajar con Big Data es asegurar una      los comportamientos en función de la geogra-
    buena materia prima. En esencia, esto supone         fía, los sectores y el modo de venta (por ejem-
    mantener una infraestructura adecuada para           plo, online/offline). Llegamos a la conclusión
    ingestar, gestionar, procesar y anonimizar la in-    de que estos datos son capaces de captar las
    formación. Este proceso es complejo y costoso        tendencias relevantes de gasto y, lo que es más
    aunque una vez garantizado los resultados su-        importante, lo hacen en tiempo real.
    peran con creces el coste. Una vez que la in-           En el segundo caso, podemos utilizar las tran-
    formación está disponible, el siguiente reto es      sacciones entre empresas para desarrollar un ín-
    identificar exactamente el dato que se está bus-     dice para medir la inversión en tiempo real y alta
    cando, procesarlo y extraerlo, ya sea de fuentes     definición. Este indicador es innovador pues utili-
TEMA DE PORTADA OCTUBRE 2021 27

za datos agregados de transferencias financieras                                  de políticas de sostenibilidad y de asignación de
empresa-empresa e individuo-empresa. En par-                                      recursos para la inversión, como es el caso de los
ticular, se utilizan aquellas transferencias en las                               Fondos de Recuperación para Europa.
cuales las empresas vendedoras son productoras                                       Pero también hemos desarrollado estudios
de bienes y servicios de inversión. Dado que la                                   temáticos o focalizados en un tipo de consumo.
información está desagregada por sector de acti-                                  Como aplicación derivada del gasto de consu-
vidad económica y está geolocalizada, podemos                                     mo, podemos estimar el gasto turístico nacio-
conocer con detalle el tipo de inversión (Cons-                                   nal en España mediante el gasto realizado con
trucción, Maquinaria y Equipo o Bienes Intangi-                                   tarjetas BBVA fuera de la provincia habitual de
bles) y la región donde esta se produce.                                          residencia. Esto nos permite monitorizar los flu-
   Estos indicadores tienen una alta correlación                                  jos de gasto turístico dentro de España a nivel
(de 0.60 o superior) con los componentes de la                                    agregado, por comunidades autónomas y por
inversión de cuentas nacionales y, dada la alta                                   provincias, de forma diaria. De nuevo, la alta
frecuencia de los datos utilizados, es posible co-                                frecuencia y granularidad de los datos de tarje-
nocer la evolución de la inversión con anticipa-                                  ta permiten avanzar y complementar las cifras
ción. Gracias a ello, se pudo observar el impacto                                 oficiales de turismo nacional, que como se está
que tuvo sobre la inversión la interrupción de las                                demostrando, está siendo clave en el proceso de
cadenas globales de valor generada por la pan-                                    recuperación. Del mismo modo, conseguimos
demia. Del mismo modo, conforme se ha norma-                                      detectar los efectos permanentes y temporales
lizado la situación, se observa una recuperación.                                 de la crisis en las preferencias de los turistas es-
   Una aplicación especial de estos indicadores                                   pañoles durante las limitaciones de movilidad,
es el caso de la inversión en bienes intangibles,                                 así como la llegada de turistas extranjeros.
para los cuales existe escasa información pública                                    Además de los datos propios del banco, uti-
para medir su composición y comportamiento.                                       lizamos un conjunto amplio de información no
Este componente puede tener, para el caso de Es-                                  estructurada que nos permite entender mejor
paña, un gran potencial para monitorear el efecto                                 el entorno mediante la aplicación de técnicas

 FIGURA 1. INDICADORES DE INVERSIÓN BIG DATA: INVERSIÓN TOTAL.
 (% interanual acumulado 28 días)

                                        Nominal                                                                      Real*
     150%                                                                        150%

    100%
                                                                                  50%
      50%                                                                         25%
      25%
                                                                                   0%
       0%
                                                                                 -25%
     -25%
    -50%                                                                        -50%
    -70%                                                                        -70%

                Apr 2020 Aug 2020 Dec 2020 Apr 2021 Aug 2021                               Apr 2020 Aug 2020 Dec 2020 Apr 2021 Aug 2021
                                          Spain               Turkey                Mexico               Colombia

 Indicadores de inversión estimados a partir de las transacciones monetarias entre empresas y hogares a las empresas nacionales que producen los activos
 fijos definidos por el código NACE. “Series reales deflactadas por los precios de producción, excepto Perú, cuyo deflactor es el índice de precios mayoristas
 y España, que utiliza el deflactor implícito del componente de la inversión del PIB por el lado de la demanda. Forthcoming (Carvalho et al. 2021).

                                                                                                                            Fuente: BBVA Research.
28 OCTUBRE 2021 TEMA DE PORTADA

                                                               ción publicada en la web, por ejemplo, el aná-
                                                               lisis de la narrativa de los bancos centrales en
     Como aplicación derivada del gasto de                     sus comunicados de prensa y actas de política
consu­mo, podemos estimar el gasto turístico                   monetaria nos ayuda a entender las estrategias
                                                               de comunicación, y a anticipar sus decisiones.
       nacio­nal en España mediante el gasto
     realizado con tarjetas BBVA fuera de la
                                                               Reflexión
              provincia habitual de residencia
                                                               Los indicadores mencionados son solo un ejem-
                                                               plo del uso de datos masivos de transacciones
                                                               financieras. BBVA Research ya ha trabajado en
           de analítica avanzada. Para entender la evolu-      otras aplicaciones, como la medición de impac-
           ción y percepción de algunos eventos sociales       to de la política monetaria en tiempo real, el
           o geopolíticos empleamos información proce-         desarrollo de indicadores para medir la evolu-
           dente de redes sociales (Twitter), medios de        ción del sector exterior y de los distintos sec-
           comuni­cación a escala mundial (GDELT) o el         tores de actividad económica, o la construcción
           volumen de búsquedas realizadas en internet         de tablas insumo producto en alta frecuencia.
           (Google Trends). Estos datos generados por la       Asimismo, desde BBVA Research entendemos
           interacción social nos han permitido estudiar       estas fuentes como un activo clave para tener
           temas económicos de gran calado como el es-         respuestas rápidas a eventos de interés dada
           tancamiento del comercio mundial y el retro-        su alta frecuencia, así como para comprender
           ceso de la globalización, así como entender el      la percepción social de los mismos, puesto que
           marco de la sostenibilidad o el universo Fintech.   recogen la opinión generada por la sociedad,
           Del mismo modo, hacemos uso de la informa-          actores particulares, empresas e instituciones. l

            FIGURA 2. FLUJOS DE GASTO PRESENCIAL CON TARJETA REALIZADO FUERA
            DE LA PROVINCIA HABITUAL DE RESIDENCIA DE COMUNIDAD ORIGEN A DESTINO
            (Porcentaje de gasto sobre el total, Julio-Agosto 2021)

                      Andalucía
                                                                                                  Andalucía
                          Aragón
                         Asturias                                                                 Aragón
                    Illes Balears                                                                 Asturias
                         Canarias
                       Cantabria                                                                  Illes Balears
                  Castilla y León                                                                 Canarias
                                                                                                  Cantabria
              Castilla-La Mancha
                                                                                                  Castilla y León
                                                                                                  Castilla-La Mancha
                       Cataluña

                                                                                                  Cataluña
                          Ceuta
            Comunitat Valenciana                                                                  Ceuta
                    Extremadura                                                                   Comunitat Valenciana
                         Galicia
                                                                                                  Extremadura
                                                                                                  Galicia
                         Madrid                                                                   Madrid
                                                                                                  Melilla
                         Melilla                                                                  Región de Murcia
               Región de Murcia                                                                   Navarra
                       Navarra                                                                    País Vasco
                      País Vasco                                                                  La Rioja
                        La Rioja                                                                  Extranjero

                                                                           Fuente: BBVA Research a partir de BBVA.
También puede leer