Fiero: Asistente virtual para la captaci on de insultos - CEUR-WS
←
→
Transcripción del contenido de la página
Si su navegador no muestra la página correctamente, lea el contenido de la página a continuación
Fiero: Asistente virtual para la captación de insultos Fiero: A virtual assistant for collecting insults Beatriz Botella Gil1 , Flor Miriam Plaza del Arco2 , Ana Belén Parras Portillo2 , Yoan Gutiérrez1 1 Instituto Universitario de Investigación Informática, Universidad de Alicante, España {beatriz.botella, ygutierrez}@dlsi.ua.es 2 Departamento de Informática, CEATIC, Universidad de Jaén, España {fmplaza, abparras}@ujaen.es Resumen: Fiero es un asistente virtual orientado a la recopilación de insultos, ex- presiones vulgares, comentarios ofensivos o cualquier forma de lenguaje no aceptable a través de la aplicación de mensajerı́a Telegram. A través de esta aplicación, los usuarios pueden tener una conversación real con Fiero donde se incita a que lo insul- temos de forma humorı́stica y sarcástica. Se ha puesto a disposición de la población obteniendo una gran variedad de improperios utilizados en español. La recopila- ción de estos insultos será fundamental para la creación de recursos lingüı́sticos que podrán ser posteriormente utilizados para ser integrados en sistemas computacio- nales con el fin de identificar comportamientos inapropiados en la Web como, por ejemplo, el ciberacoso o el discurso del odio en sus diferentes formas. Palabras clave: Aistente virtual, Bot, Lenguaje ofensivo, Telegram. Abstract: Fiero is a virtual assistant aimed at collecting insults, vulgar expressions, offensive comments or any form of unacceptable language across the messaging ap- plication Telegram. Users can chat with Fiero where it encourages them to insult in a humorous and sarcastic way. It has been made available to the Spanish population obtaining a wide variety of expletives used in Spanish. The collection of these in-sults will be essential for the creation of linguistic resources in Spanish. In addition, their integration in systems based on Human Language Technologies could help to identify social problems present on the Web such as cyberbullying or hate speech in its different manifestations. Keywords: Virtual Assistant, Bot, Offensive Language, Telegram. 1 Introducción y Motivación como refleja en las últimas estadı́sticas reali- Las TICS (Tecnologı́as de la Información y zada en 2020 (INE, 2020). la Comunicación) se han asentado en nuestra Al mismo tiempo, este problema también sociedad cambiando la forma de comunicar- implica a los gobiernos y las plataformas di- se entre las personas. Es una realidad que la gitales. Por ello, para combatir la difusión del era digital está aportando grandes beneficios lenguaje ofensivo en la Web, continuamente a la sociedad, pero también el aumento de las se están desarrollando leyes y polı́ticas de lu- interacciones sociales digitales y el anonima- cha contra la incitación al odio. Desde 2013, to, ha promovido la presencia de conductas y el Consejo Europeo ha promovido el movi- mensajes violentos en las Web. miento “No Hate Speech”, con el objetivo de En referente al ciberacoso, según la en- movilizar a los jóvenes para combatir el dis- cuesta (Sanjuán et al., 2019) realizada por curso de odio y defender los derechos huma- Save the children , el 40 % de los jóvenes han nos en Internet. En 2016, la Comisión Euro- sufrido este tipo de acoso y la recepción de pea llegó a un acuerdo con Facebook, Micro- estos mensajes violentos empezó a los 8 y 9 soft, Twitter y YouTube para crear un “Códi- años. Esta edad temprana se debe al acce- go de conducta sobre la lucha contra el dis- so en aumento que tienen los menores en Es- curso de odio ilegal en Internet”1 . Según un paña, en concreto, según el INE, la población 1 entre 16 y 24 años usa las TICS en un 99,8 % https://cutt.ly/Hj5EsAh Copyright © 2021 for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0). 29
informe español de 2019 sobre la evolución de la edad (mayor o menor de 18 años) y el los delitos de odio en España 2 , las amenazas, sexo (hombre o mujer) al iniciar la apli- los insultos y la discriminación se contabili- cación, con el objetivo de identificar los zan como los actos delictivos más repetidos, comentarios utilizados para la expresión siendo Internet (54,9 %) y las redes sociales del lenguaje ofensivo por diferentes sec- (17,2 %) los medios más utilizados para come- tores de la población. ter estas acciones. Este informe llevó al parla- Anonimización. Al tratarse de un pro- mento español a aprobar en 2020 un proyecto grama diseñado para comunicarse con de ley para evitar la propagación del odio en personas y recopilar un gran volumen de la red3 . datos, es necesario asegurar a los usua- El Procesamiento del Lenguaje Natural rios su privacidad para un uso seguro y (PLN) desempeña un papel fundamental en confiable de la aplicación. Por ello, Fiero la detección de este tipo de contenido en solo recopila su género y edad, garanti- la Web ya que permite desarrollar sistemas zando la preservación de la privacidad y computacionales que ayuden a procesar e in- el derecho a la protección de datos per- terpretar el lenguaje humano. Para entrenar sonales en todo momento. estos sistemas, es necesario disponer de recur- sos especı́ficos para la tarea objetivo, en es- Diálogo. Fiero establece los diálogos te caso, la identificación del lenguaje ofensivo apoyándose en una lista de preguntas- (Plaza-del Arco et al., 2019), (Plaza-Del-Arco respuestas en un único contexto de Dia- et al., 2020a). En los últimos años, la comuni- logFLow. Se trata de una herramienta de dad cientı́fica del PLN ha invertido conside- creación de chatbots capaz de entender rables esfuerzos en la creación de este tipo de el lenguaje natural y que provee infra- recursos (Zampieri et al., 2019), (Wiegand y estructura para recrear conversaciones y Siegel, 2018), (Plaza del Arco et al., 2020b). construir diálogos con el fin de inter- Sin embargo, la mayorı́a están disponibles pa- actuar con el usuario de manera fluida ra el inglés, lo que conlleva la necesidad de (Sabharwal y Agrawal, 2020). Los con- crear recursos lingüı́sticos en otros idiomas textos de Dialogflow son similares al con- cuya presencia es notable en la Web, como el texto del lenguaje natural. Las conversa- español. ción entre el usuario y Fiero consiste en En este artı́culo se presenta Fiero, un asis- los siguientes pasos: tente virtual que mantiene una conversación • El usuario escribe una entrada: el con el usuario animándolo a expresar impro- mensaje. perios a través de Telegram. Esta aplicación es popularmente conocida en el ambiente pro- • El agente (o módulo de compre- pio del uso de herramientas digitales por par- sión de lenguaje natural) extrae ca- te de la población. El diálogo recopilado ser- da uno de los parámetros de dicha virá para generar recursos lingüı́sticos que se entrada. En este paso es donde se le puedan usar en sistemas automáticos de in- solicita al usuario una serie de pre- teligencia artificial para combatir problemas guntas del tipo demográfico y a con- sociales como el ciberacoso o la propagación tinuación se le anima de forma hu- del discurso del odio. morı́stica y sarcástica para que es- criba insultos. 2 Fiero • El agente devuelve la respuesta 2.1 Caracterı́sticas (previamente programada) gracias a DialogFlow que se corresponde El asistente virtual Fiero se ha desarrollado con la entrada del usuario. teniendo en cuenta diferentes caracterı́sticas en base a su utilización por parte de los usua- 2.2 Arquitectura rios: El componente principal en la arquitectura Recopilación de datos demográficos de Fiero es un componente que actúa como del usuario. Se recopilan dos variables, controlador, u orquestador, de procesos me- diante el cual el flujo de información entre el 2 https://cutt.ly/ej5EgU7 usuario y la parte servidora de la aplicación. 3 https://cutt.ly/5j5Ejum A través de este componente: 30
Figura 1: Arquitectura de Fiero la parte servidora interactúa con la pla- taforma de Telegram. se construyen los diálogos. Para esto con- tamos con un diccionario de secuencia de diálogos afines con distintos tipos de pre- guntas. En este proceso técnicas simples de PLN se aplican para emparejar in- Figura 2: Interfaz de usuario de Fiero sultos de los usuarios con determinadas respuesta del sistema que utilizan jergas un total de 150.754 comentarios debido a la populares, logrando motivar al usuario a gran difusión y repercusión de Fiero en los insultar al bot. medios de comunicación de radio, prensa y televisión nacional. Finalmente, se obtiene un se almacena información proveniente del total de 164.467 comentarios en el periodo de usuario en el repositorio, los datos de- tiempo mencionado (2019-2021). mográficos y los comentarios provenien- Con respecto a las variables demográficas, tes del diálogo. se han recopilado el número de comentarios obtenidos por mujeres y hombres menores y Los módulos de la parte servidora utilizan mayores de 18 años (Tabla 2). Cabe destacar NodeJS4 como tecnologı́a de programación. que la población masculina mayor de 18 años 2.3 Interfaz de Usuario ha realizado una mayor interacción con Fiero recopilando un total de 95.513 comentarios. El usuario activamente puede mantener una La población más joven (
Sexo Edad #Comentarios nisterio de Economı́a y Competitividad del Gobierno de España, a través de los pro- >18 51.917 yectos LIVING-LANG (RTI2018-094653-B- Mujer 18 95.513 METEU/2018/089), e INTEGER (RTI2018- Hombre
También puede leer