INVESTIGACIÓN EN (JNIC2021 LIVE) - Manuel A. Serrano - Eduardo Fernández-Medina Cristina Alcaraz - Noemí de Castro - Guillermo Calvo - Repositorio ...

Página creada Alvaro Cabestany
 
SEGUIR LEYENDO
INVESTIGACIÓN EN (JNIC2021 LIVE) - Manuel A. Serrano - Eduardo Fernández-Medina Cristina Alcaraz - Noemí de Castro - Guillermo Calvo - Repositorio ...
EDITORES:
  Manuel A. Serrano - Eduardo Fernández-Medina
Cristina Alcaraz - Noemí de Castro - Guillermo Calvo

        Actas de las VI Jornadas Nacionales
                   (JNIC2021 LIVE)

          INVESTIGACIÓN EN
Investigación en Ciberseguridad
 Actas de las VI Jornadas Nacionales
         ( JNIC2021 LIVE)

     Online 9-10 de junio de 2021
   Universidad de Castilla-La Mancha
Investigación en Ciberseguridad
  Actas de las VI Jornadas Nacionales
          ( JNIC2021 LIVE)

       Online 9-10 de junio de 2021
    Universidad de Castilla-La Mancha

                Editores:
           Manuel A. Serrano,
       Eduardo Fernández-Medina,
             Cristina Alcaraz
            Noemí de Castro
            Guillermo Calvo

                Cuenca, 2021
© de los textos e ilustraciones: sus autores
© de la edición: Universidad de Castilla-La Mancha

Edita: Ediciones de la Universidad de Castilla-La Mancha.

Colección JORNADAS Y CONGRESOS n.º 34
© de los textos: sus autores.
© de la edición: Universidad de Castilla-La Mancha.
© de los textos e ilustraciones: sus autores
© de la edición: Universidad de Castilla-La Mancha
Edita: Ediciones Esta
                 de la Universidad
                       editorial esdemiembro
                                     Castilla-Lade
                                                 Mancha
                                                   la UNE, lo que garantiza la difusión y
comercialización de sus publicaciones a nivel nacional e internacional
Colección JORNADAS
Edita: Ediciones     de YlaCONGRESOS
                           Universidad de n.º Castilla-La
                                              34          Mancha.

Colección JORNADAS Y CONGRESOS n.º 34
I.S.B.N.: 978-84-9044-463-4
          Esta editorial es miembro de la UNE, lo que garantiza la difusión y comercialización de sus publi-
          caciones a nivel nacional e internacional.
D.O.I.: http://doi.org/10.18239/jornadas_2021.34.00

                 Esta editorial es miembro de la UNE, lo que garantiza la difusión y
I.S.B.N.: 978-84-9044-463-4
comercialización      de sus publicaciones a nivel
                                                nacional e internacional
D.O.I.: http://doi.org/10.18239/jornadas_2021.34.00

I.S.B.N.:
Esta obra 978-84-9044-463-4
          se encuentra bajo una licencia internacional Creative Commons CC BY 4.0.
D.O.I.: http://doi.org/10.18239/jornadas_2021.34.00
Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta
Esta obra se encuentra bajo una licencia internacional Creative Commons CC BY 4.0.
obra no incluida en la licencia Creative Commons CC BY 4.0 solo puede ser realizada con la
Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta obra no incluida
autorización
en               expresa
   la licencia Creative    de los CC
                        Commons   titulares,  salvopuede
                                      BY 4.0 solo    excepción     prevista
                                                         ser realizada con la por la ley. Puede
                                                                              autorización         Vd.
                                                                                           expresa de losacceder
                                                                                                          titulares, al
texto    completo    de la licencia  en este  enlace:
salvo excepción prevista por la ley. Puede Vd. acceder al texto completo de la licencia en este enlace: https://
https://creativecommons.org/licenses/by/4.0/deed.es
creativecommons.org/licenses/by/4.0/deed.es

Esta obra se encuentra bajo una licencia internacional Creative Commons CC BY 4.0.
Hecho en España (U.E.) – Made in Spain (E.U.)
Hecho   en España
Cualquier  forma de(U.E.)  – Made indistribución,
                    reproducción,     Spain (E.U.)comunicación pública o transformación de esta
obra no incluida en la licencia Creative Commons CC BY 4.0 solo puede ser realizada con la
autorización expresa de los titulares, salvo excepción prevista por la ley. Puede Vd. acceder al
texto completo de la licencia en este enlace:
https://creativecommons.org/licenses/by/4.0/deed.es

Hecho en España (U.E.) – Made in Spain (E.U.)
Bienvenida del Comité Organizador

    Tras la parada provocada por la pandemia en 2020, las VI Jornadas Nacionales de Investiga-
ción en Ciberseguridad ( JNIC) vuelven el 9 y 10 de Junio del 2021 con energías renovadas, y por
primera vez en su historia, en un formato 100% online. Esta edición de las JNIC es organizada
por los grupos GSyA y Alarcos de la Universidad de Castilla-La Mancha en Ciudad Real, y
con la activa colaboración del comité ejecutivo, de los presidentes de los distintos comités de
programa y del Instituto Nacional de Ciberseguridad (INCIBE). Continúa de este modo la
senda de consolidación de unas jornadas que se celebraron por primera vez en León en 2015 y
le siguieron Granada, Madrid, San Sebastián y Cáceres, consecutivamente hasta 2019, y que,
en condiciones normales se habrían celebrado en Ciudad Real en 2020.
    Estas jornadas se han convertido en un foro de encuentro de los actores más relevantes en
el ámbito de la ciberseguridad en España. En ellas, no sólo se presentan algunos de los trabajos
científicos punteros en las diversas áreas de ciberseguridad, sino que se presta especial atención
a la formación e innovación educativa en materia de ciberseguridad, y también a la conexión
con la industria, a través de propuestas de transferencia de tecnología. Tanto es así que, este año
se presentan en el Programa de Transferencia algunas modificaciones sobre su funcionamiento
y desarrollo que han sido diseñadas con la intención de mejorarlo y hacerlo más valioso para
toda la comunidad investigadora en ciberseguridad.
   Además de lo anterior, en las JNIC estarán presentes excepcionales ponentes (Soledad
Antelada, del Lawrence Berkeley National Laboratory, Ramsés Gallego, de Micro Focus y
Mónica Mateos, del Mando Conjunto de Ciberdefensa) mediante tres charlas invitadas y se
desarrollarán dos mesas redondas. Éstas contarán con la participación de las organizaciones
más relevantes en el panorama industrial, social y de emprendimiento en relación con la ciber-
seguridad, analizando y debatiendo el papel que está tomando la ciberseguridad en distintos
ámbitos relevantes.
    En esta edición de JNIC se han establecido tres modalidades de contribuciones de inves-
tigación, los clásicos artículos largos de investigación original, los artículos cortos con investi-
gación en un estado más preliminar, y resúmenes extendidos de publicaciones muy relevantes
y de alto impacto en materia de ciberseguridad publicados entre los años 2019 y 2021. En el
caso de contribuciones de formación e innovación educativa, y también de transferencias se
han considerado solamente artículos largos. Se han recibido para su valoración un total de 86

                                                 7
Bienvenida del Comité Organizador

contribuciones organizadas en 26, 27 y 33 artículos largos, cortos y resúmenes ya publicados,
de los que los respectivos comités de programa han aceptado 21, 19 y 27, respectivamente. En
total se ha contado con una ratio de aceptación del 77%. Estas cifras indican una participación
en las jornadas que continúa creciendo, y una madurez del sector español de la ciberseguridad
que ya cuenta con un volumen importante de publicaciones de alto impacto.
    El formato online de esta edición de las jornadas nos ha motivado a organizar las jornadas
de modo más compacto, distinguiendo por primera vez entre actividades plenarias (charlas
invitadas, mesas redondas, sesión de formación e innovación educativa, sesión de transfe-
rencia de tecnología, junto a inauguración y clausura) y sesiones paralelas de presentación de
artículos científicos. En concreto, se han organizado 10 sesiones de presentación de artículos
científicos en dos líneas paralelas, sobre las siguientes temáticas: detección de intrusos y gestión
de anomalías (I y II), ciberataques e inteligencia de amenazas, análisis forense y cibercrimen,
ciberseguridad industrial, inteligencia artificial y ciberseguridad, gobierno y riesgo, tecnologías
emergentes y entrenamiento, criptografía, y finalmente privacidad.
    En esta edición de las jornadas se han organizado dos números especiales de revistas con
elevado factor de impacto para que los artículos científicos mejor valorados por el comité de
programa científico puedan enviar versiones extendidas de dichos artículos. Adicionalmente, se
han otorgado premios al mejor artículo en cada una de las categorías. En el marco de las JNIC
también hemos contado con la participación de la Red de Excelencia Nacional de Investigación
en Ciberseguridad (RENIC), impulsando la ciberseguridad a través de la entrega de los premios
al Mejor Trabajo Fin de Máster en Ciberseguridad y a la Mejor Tesis Doctoral en Ciberseguridad. Tam-
bién se ha querido acercar a los jóvenes talentos en ciberseguridad a las JNIC, a través de un CTF
(Capture The Flag) organizado por la Universidad de Extremadura y patrocinado por Viewnext.
    Desde el equipo que hemos organizado las JNIC2021 queremos agradecer a todas aquellas
personas y entidades que han hecho posible su celebración, comenzando por los autores de
los distintos trabajos enviados y los asistentes a las jornadas, los tres ponentes invitados, las
personas y organizaciones que han participado en las dos mesas redondas, los integrantes de
los distintos comités de programa por sus interesantes comentarios en los procesos de revisión
y por su colaboración durante las fases de discusión y debate interno, los presidentes de las
sesiones, la Universidad de Extremadura por organizar el CTF y la empresa Viewnext por
patrocinarlo, los técnicos del área TIC de la UCLM por el apoyo con la plataforma de comu-
nicación, los voluntarios de la UCLM y al resto de organizaciones y entidades patrocinadoras,
entre las que se encuentra la Escuela Superior de Informática, el Departamento de Tecnologías
y Sistemas de Información y el Instituto de Tecnologías y Sistemas de Información, todos ellos
de la Universidad de Castilla-La Mancha, la red RENIC, las cátedras (Telefónica e Indra)
y aulas (Avanttic y Alpinia) de la Escuela Superior de Informática, la empresa Cojali, y muy
especialmente por su apoyo y contribución al propio INCIBE.

                                            Manuel A. Serrano, Eduardo Fernández-Medina
                                                            Presidentes del Comité Organizador
                                                                                 Cristina Alcaraz
                                                 Presidenta del Comité de Programa Científico
                                                                                Noemí de Castro
                   Presidenta del Comité de Programa de Formación e Innovación Educativa
                                                                        Guillermo Calvo Flores
                                           Presidente del Comité de Transferencia Tecnológica

                                                 8
Índice General

Comité Ejecutivo..............................................................................................       11
Comité Organizador........................................................................................           12
Comité de Programa Científico.......................................................................                 13
Comité de Programa de Formación e Innovación Educativa...........................                                    15
Comité de Transferencia Tecnológica...............................................................                   17

Comunicaciones
Sesión de Investigación A1: Detección de intrusiones y gestión de anomalías I                                        21
Sesión de Investigación A2: Detección de intrusiones y gestión de anomalías II                                       55
Sesión de Investigación A3: Ciberataques e inteligencia de amenazas.............                                     91
Sesión de Investigación A4: Análisis forense y cibercrimen.............................                             107
Sesión de Investigación A5: Ciberseguridad industrial y aplicaciones..............                                  133
Sesión de Investigación B1: Inteligencia Artificial en ciberseguridad...............                                157
Sesión de Investigación B2: Gobierno y gestión de riesgos..............................                             187
Sesión de Investigación B3: Tecnologías emergentes y entrenamiento en
ciberseguridad...................................................................................................   215
Sesión de Investigación B4: Criptografía..........................................................                  235
Sesión de Investigación B5: Privacidad.............................................................                 263
Sesión de Transferencia Tecnológica................................................................                 291
Sesión de Formación e Innovación Educativa..................................................                        301

Premios RENIC..............................................................................................         343

Patrocinadores.................................................................................................     349

                                                                 9
Comité Ejecutivo

Juan Díez González                 INCIBE
Luis Javier García Villalba        Universidad de Complutense de Madrid
Eduardo Fernández-Medina Patón     Universidad de Castilla-La Mancha
Guillermo Suárez-Tangil            IMDEA Networks Institute
Andrés Caro Lindo                  Universidad de Extremadura
Pedro García Teodoro               Universidad de Granada. Representante
                                   de red RENIC
Noemí de Castro García             Universidad de León
Rafael María Estepa Alonso         Universidad de Sevilla
Pedro Peris López                  Universidad Carlos III de Madrid

                                    11
Comité Organizador

Presidentes del Comité Organizador
   Eduardo Fernández-Medina Patón       Universidad de Castilla-la Mancha
   Manuel Ángel Serrano Martín          Universidad de Castilla-la Mancha

Finanzas
   David García Rosado                  Universidad de Castilla-la Mancha
   Luis Enrique Sánchez Crespo          Universidad de Castilla-la Mancha

Actas
  Antonio Santos-Olmo Parra             Universidad de Castilla-la Mancha

Difusión
   Julio Moreno García-Nieto            Universidad de Castilla-la Mancha
   José Antonio Cruz Lemus              Universidad de Castilla-la Mancha
   María A Moraga de la Rubia           Universidad de Castilla-la Mancha

Webmaster
  Aurelio José Horneros Cano            Universidad de Castilla-la Mancha

Logística y Organización
  Ignacio García-Rodriguez de Guzmán    Universidad de Castilla-la Mancha
  Ismael Caballero Muñoz-Reja           Universidad de Castilla-la Mancha
  Gregoria Romero Grande                Universidad de Castilla-la Mancha
  Natalia Sanchez Pinilla               Universidad de Castilla-la Mancha

                                       12
Comité de Programa Científico

Presidenta
   Cristina Alcaraz Tello                 Universidad de Málaga

Miembros
  Aitana Alonso Nogueira                  INCIBE
  Marcos Arjona Fernández                 ElevenPaths
  Ana Ayerbe Fernández-Cuesta             Tecnalia
  Marta Beltrán Pardo                     Universidad Rey Juan Carlos
  Carlos Blanco Bueno                     Universidad de Cantabria
  Jorge Blasco Alís                       Royal Holloway, University of London
  Pino Caballero-Gil                      Universidad de La Laguna
  Andrés Caro Lindo                       Universidad de Extremadura
  Jordi Castellà Roca                     Universitat Rovira i Virgili
  José M. de Fuentes García-Romero
  de Tejada                               Universidad Carlos III de Madrid
  Jesús Esteban Díaz Verdejo              Universidad de Granada
  Josep Lluis Ferrer Gomila               Universitat de les Illes Balears
  Dario Fiore                             IMDEA Software Institute
  David García Rosado                     Universidad de Castilla-La Mancha
  Pedro García Teodoro                    Universidad de Granada
  Luis Javier García Villalba             Universidad Complutense de Madrid
  Iñaki Garitano Garitano                 Mondragon Unibertsitatea
  Félix Gómez Mármol                      Universidad de Murcia
  Lorena González Manzano                 Universidad Carlos III de Madrid
  María Isabel González Vasco             Universidad Rey Juan Carlos I
  Julio César Hernández Castro            University of Kent
  Luis Hernández Encinas                  CSIC
  Jorge López Hernández-Ardieta           Banco Santander
  Javier López Muñoz                      Universidad de Málaga
  Rafael Martínez Gasca                   Universidad de Sevilla
  Gregorio Martínez Pérez                 Universidad de Murcia

                                     13
David Megías Jiménez               Universitat Oberta de Cataluña
Luis Panizo Alonso                 Universidad de León
Fernando Pérez González            Universidad de Vigo
Aljosa Pasic                       ATOS
Ricardo J. Rodríguez               Universidad de Zaragoza
Fernando Román Muñoz               Universidad Complutense de Madrid
Luis Enrique Sánchez Crespo        Universidad de Castilla-La Mancha
José Soler                         Technical University of Denmark-DTU
Miguel Soriano Ibáñez              Universidad Politécnica de Cataluña
Victor A. Villagrá González        Universidad Politécnica de Madrid
Urko Zurutuza Ortega               Mondragon Unibertsitatea
Lilian Adkinson Orellana           Gradiant
Juan Hernández Serrano             Universitat Politécnica de Cataluña

                              14
Comité de Programa de Formación e Innovación Educativa

Presidenta
   Noemí De Castro García                Universidad de León

Miembros
   Adriana Suárez Corona                 Universidad de León
   Raquel Poy Castro                     Universidad de León
   José Carlos Sancho Núñez              Universidad de Extremadura
   Isaac Agudo Ruiz                      Universidad de Málaga
   Ana Isabel González-Tablas Ferreres   Universidad Carlos III de Madrid
   Xavier Larriva                        Universidad Politécnica de Madrid
   Ana Lucila Sandoval Orozco            Universidad Complutense de Madrid
   Lorena González Manzano               Universidad Carlos III de Madrid
   María Isabel González Vasco           Universidad Rey Juan Carlos
   David García Rosado                   Universidad de Castilla - La Mancha
   Sara García Bécares                   INCIBE

                                          15
Comité de Transferencia Tecnológica

Presidente
   Guillermo Calvo Flores        INCIBE

Miembros
   José Luis González Sánchez    COMPUTAEX
   Marcos Arjona Fernández       ElevenPaths
   Victor Villagrá González      Universidad Politécnica de Madrid
   Luis Enrique Sánchez Crespo   Universidad de Castilla – La Mancha

                                        17
Sesión de Investigación A3: Ciberataques e inteligencia de amenazas
                                        http://doi.org/10.18239/jornadas_2021.34.17

         Extended Abstract – AV CLASS 2:
  Massive Malware Tag Extraction from AV Labels
                                               Silvia Sebastián∗§ , Juan Caballero∗
                               ∗ IMDEA    Software Institute      § Universidad   Politécnica de Madrid
                                         0000-0001-7675-0535, 0000-0003-2962-1348
                                   silvia.sebastian@imdea.org, juan.caballero@imdea.org

   Abstract—Tags can be used by malware repositories and                 Detection labels by anti-virus engines (i.e., AV labels) are
analysis services to enable searches for samples of interest across   an instance of the above problem. An AV label can be seen
different dimensions. Automatically extracting tags from AV           as a serialization of the tags an AV engine assigns to the
labels is an efficient approach to categorize and index massive
amounts of samples. Recent tools like AV CLASS and E UPHONY           sample. Since tags are selected by each AV vendor rather
have demonstrated that, despite their noisy nature, it is possible    independently, inconsistencies among labels from different
to extract family names from AV labels. However, beyond the           vendors are widespread, as frequently observed in malware
family name, AV labels contain much valuable information such         family names [4]–[9]. Recent tools like AV CLASS [8] and
as malware classes, file properties, and behaviors.                   E UPHONY [9] demonstrate that, despite their noisy nature,
   This work presents AV CLASS 2, an automatic malware tagging        it is possible to extract accurate family tags from AV labels.
tool that given the AV labels for a potentially massive number
                                                                      However, beyond the family name, AV labels may also contain
of samples, extracts clean tags that categorize the samples.
AV CLASS 2 uses, and helps building, an open taxonomy that orga-      much valuable information such as the class of malware
nizes concepts in AV labels, but is not constrained to a predefined   (e.g., ransomware, downloader, adware), file properties (e.g.,
set of tags. To keep itself updated as AV vendors introduce new       packed, themida, bundle, nsis) and behaviors (e.g., spam,
tags, it provides an update module that automatically identifies      ddos, infosteal).
new taxonomy entries, as well as tagging and expansion rules that
capture relations between tags. We have evaluated AV CLASS 2             Automatically extracting malware tags from AV labels is
on 42M samples and showed how it enables advanced malware             an important, but challenging, problem. It enables to cheaply
searches and to maintain an updated knowledge base of malware         categorize and index massive amounts of samples without
concepts in AV labels.                                                waiting for those samples to be statically analyzed or executed
   Index Terms—AV labels, Tag Malware, Taxonomy.                      in a sandbox. And, since different AV vendors may execute
  Type of contribution: Published research.The full version           a sample, the extracted tags may accumulate behaviors ob-
of this paper appears in the Proceedings of the 2020 Annual           served under different conditions. Furthermore, AV labels may
Computer Security Applications Conference (ACSAC 36)                  encode domain knowledge from human analysts that is not
                                                                      produced by automated tools. Once obtained, the tags can be
                                                                      used to enable efficient search of samples of a specific class,
                       I. I NTRODUCTION                               type, family, or with a specific behavior. And, the identified
                                                                      samples can then be used as ground truth for machine learning
   Tags are keywords assigned to data objects (e.g., docu-            approaches [10]–[13].
ments, videos, images) to categorize them and to enable effi-
                                                                         This work presents AV CLASS 2, an automatic malware
cient searches along different dimensions such as properties,
                                                                      tagging tool that given the AV labels for a potentially massive
ownership, and origin. Tags can be used by malware reposi-
                                                                      number of samples, extracts for each input sample a clean
tories and malware analysis services for enabling searches for
                                                                      set of tags that capture properties such as the malware class,
samples of interest. Malware tags can be manually produced
                                                                      family, file properties, and behaviors. AV CLASS 2 ships with
by analysts, or output by analysis tools such as sandboxes
and signature-matching engines. In both cases, each analyst           a default open taxonomy that classifies concepts in AV labels
and tool developer may use its own vocabulary, i.e., their            into categories, as well as default tagging rules and expansion
own custom set of tags. This is similar to user tagging, or           rules that capture relations between tags. In contrast to closed
folksonomies, in Web services [1], [2], which are known to            taxonomies, AV CLASS 2 does not mandate a predefined set
lead to issues such as tags produced by different entities            of tags. Instead, unknown tags in AV labels, e.g., a new
being aliases (or synonyms) for the same concept, some tags           behavior or family name, are also considered. AV CLASS 2
being highly specific to the entity producing them, and a tag         has an update module that uses tag co-occurrence to identify
from an entity corresponding to multiple tags from another            relations between tags. Those relations are a form of general-
entity. To address these issues, standards such as Malware            ized knowledge that the update module uses to automatically
Attribute Enumeration and Characterization (MAEC) [3] de-             generate taxonomy updates, tagging, and expansion rules to
fine a language for sharing malware analysis results. However,        keep the tool updated as AV vendors introduce new tags.
they have low adoption due to their use of rigid controlled           Thus, AV CLASS 2 can maintain an updated knowledge base
vocabularies (i.e., predefined tags) that may not always match        of malware concepts in AV labels.
analyst needs, require frequent updates, and are necessarily             AV CLASS 2 builds on AV CLASS [8]. The goal is to evolve
incomplete.                                                           from a malware labeling tool, focused exclusively on malware

                                                                 95
Sesión de Investigación A3: Ciberataques e inteligencia de amenazas

                                                                       obfuscations); new families are introduced with their corre-
                                                                       sponding aliases; and novel malware classes are occasionally
                                                                       created. The update module tackles the challenge of keeping
                                                                       AV CLASS 2 up-to-date with this natural evolution. The update
                                                                       module takes as input co-occurrence statistics output by the
                                                                       labeling module, tagging rules, expansion rules, and taxon-
                                                                       omy. It first identifies strong relations between tags, which
                  Fig. 1: AV CLASS 2 architecture.                     generalize knowledge beyond individual samples, e.g., that a
                                                                       family is ransomware or sends SMS. Then, it uses inference
families, to a malware tag extraction tool that provides rich          rules on the relations to automatically propose new tagging
threat intelligence by extracting and structuring all useful in-       rules, new expansion rules, and taxonomy updates, which are
formation in AV labels. Thus, AVClass2 inherits AVClass ma-            then fed back to the labeling.
jor properties: scalability, AV engine independence, platform-
agnostic, no access to samples required (only to their labels),                                  III. E VALUATION
and open source.
                                                                          We have evaluated AV CLASS 2 on 42M samples and com-
   We have evaluated AV CLASS 2 on 42M samples and com-                pared it with AV CLASS and E UPHONY, the two state-of-the-
pared it with AV CLASS and E UPHONY, the two state-of-the-             art malware family labeling tools. We have also evaluated
art malware family labeling tools. We show how the tags                the update module for updating the taxonomy, tagging, and
AV CLASS 2 extract enable rich searches on malware samples,            expansion input files. For more details about AV CLASS 2 and
not possibly with existing tools, how the extracted tags are           its evaluation, we refer the reader to the full publication [15].
complementary to those already in use by popular malware
repositories such as VirusTotal [14], and how the update                                            R EFERENCES
module can be used to maintain an updated knowledge base
                                                                        [1] H. Halpin, V. Robu, and H. Shepherd, “The Complex Dynamics of
of malware concepts in AV labels.                                           Collaborative Tagging,” in International Conference on World Wide
  The main properties of AV CLASS 2 are:                                    Web, 2007.
                                                                        [2] C. Körner, D. Benz, A. Hotho, M. Strohmaier, and G. Stumme,
  •   Automatically extracts tags from AV labels that catego-               “Stop thinking, start tagging: Tag semantics emerge from collaborative
                                                                            verbosity,” in International Conference on World Wide Web, 2010.
      rize malware samples according to their malware class,            [3] “Malware Attribute Enumeration and Characterization 5.0,” 2017, https:
      family, behaviors, and file properties.                               //maec.mitre.org/.
  •   Uses and builds an open taxonomy that does not use                [4] M. Bailey, J. Oberheide, J. Andersen, Z. M. Mao, F. Jahanian, and
                                                                            J. Nazario, “Automated Classification and Analysis of Internet Mal-
      a closed set of tags, and thus can handle new tags                    ware,” in International Symposium on Recent Advances in Intrusion
      introduced over time by AV vendors.                                   Detection, 2007.
  •   Can expand the input taxonomy, tagging rules, and                 [5] J. Canto, M. Dacier, E. Kirda, and C. Leita, “Large Scale Malware
                                                                            Collection: Lessons Learned,” in IEEE SRDS Workshop on Sharing
      expansion rules, by generalizing relations found in AV                Field Data and Experiment Measurements on Resilience of Distributed
      labels, allowing to maintain over time an up-to-date                  Computing Systems, 2008.
      knowledge base of malware concepts in AV labels.                  [6] F. Maggi, A. Bellini, G. Salvaneschi, and S. Zanero, “Finding Non-
                                                                            Trivial Malware Naming Inconsistencies,” in International Conference
  •   Evaluated on 42M samples and compared with the two                    on Information Systems Security, 2011.
      state-of-the-art malware family labeling tools [8], [9].          [7] A. Mohaisen and O. Alrawi, “AV-Meter: An Evaluation of Antivirus
  •   Open source1 .                                                        Scans and Labels,” in Detection of Intrusions and Malware, and
                                                                            Vulnerability Assessment, 2014.
                                                                        [8] M. Sebastián, R. Rivera, P. Kotzias, and J. Caballero, “AVClass: A
                             II. A PPROACH                                  Tool for Massive Malware Labeling,” in International Symposium on
                                                                            Research in Attacks, Intrusions and Defenses, 2016.
                                                                        [9] M. Hurier, G. Suarez-Tangil, S. K. Dash, T. F. Bissyandé, Y. Le Traon,
   The architecture of AV CLASS 2 is shown in Figure 1. It                  J. Klein, and L. Cavallaro, “Euphony: Harmonious Unification of
comprises of two modules: labeling and update. The labeling                 Cacophonous Anti-Virus Vendor Labels for Android Malware,” in
module takes as input the AV labels assigned by multiple                    International Conference on Mining Software Repositories, 2017.
                                                                       [10] U. Bayer, P. M. Comparetti, C. Hlauschek, C. Kruegel, and E. Kirda,
AV engines to the samples, an optional list of AV engines                   “Scalable, Behavior-Based Malware Clustering,” in Network and Dis-
whose labels to use, a set of tagging rules, an optional set                tributed System Security, 2009.
of expansion rules, and a taxonomy that classifies tags into           [11] R. Perdisci, W. Lee, and N. Feamster, “Behavioral Clustering of HTTP-
                                                                            Based Malware and Signature Generation Using Malicious Network
categories and captures parent-child relationships between                  Traces,” in USENIX Symposium on Networked Systems Design and
tags in the same category. For each input sample, it outputs a              Implementation, 2010.
set of tags ranked by the number of AV engines. AV CLASS 2             [12] K. Rieck, P. Trinius, C. Willems, and T. Holz, “Automatic Analysis
                                                                            of Malware Behavior using Machine Learning,” Journal of Computer
ships with default tagging rules, default expansion rules, and              Security, vol. 19, no. 4, 2011.
a default taxonomy. Thus, AV CLASS 2 can be used out-of-               [13] D. Arp, M. Spreitzenbarth, M. Huebner, H. Gascon, and K. Rieck,
the-box without the need for any configuration. However,                    “Drebin: Efficient and Explainable Detection of Android Malware in
                                                                            Your Pocket,” in Network and Distributed System Security, 2014.
AV CLASS 2 is fully configurable, so the analyst can easily            [14] 2020, https://virustotal.com/.
plug-in its own tagging rules, expansion rules, and taxonomy.          [15] S. Sebastin and J. Caballero, “AVClass2: Massive Malware Tag Extrac-
                                                                            tion from AV Labels,” in Proceedings of the 2020 Annual Computer
  Malware is an ever-evolving ecosystem. Over time, known                   Security Applications Conference, Virtual Event, December 2020.
families exhibit new behaviors and file properties (e.g., novel
  1 https://github.com/malicialab/avclass.

                                                                  96
También puede leer