Tar antula - ara na - animal : asignaci on de - CORE

Página creada Gonzalo Espina
 
SEGUIR LEYENDO
View metadata, citation and similar papers at core.ac.uk                                                                                                       brought to you by     CORE
                                                                                                                           provided by Repositorio Institucional de la Universidad de Alicante

                Procesamiento del Lenguaje Natural, Revista nº 64, marzo de 2020, pp. 29-36            recibido 08-11-2019 revisado 15-01-2020 aceptado 18-01-2020

                     Tarántula –> araña –> animal : asignación de
                  hiperónimos de segundo nivel basada en métodos de
                                 similitud distribucional
                        Tarantula –> spider –> animal: second level hypernymy
                         discovery based on distributional similarity methods
                                         Rogelio Nazar, Javier Obreque, Irene Renau
                                           Instituto de Literatura y Ciencias del Lenguaje
                                            Pontifica Universidad Católica de Valparaı́so
                              rogelio.nazar@pucv.cl, j.obrequezamora@gmail.com, irene.renau@pucv.cl

                          Resumen: La asignación automática de hiperónimos sigue presentando problemas
                          para el procesamiento del lenguaje natural. En particular, los sustantivos polisémicos
                          se vinculan a distintos hiperónimos y por ello pueden causar problemas estructurales
                          en una taxonomı́a léxica. Por ejemplo, el sustantivo tarántula puede ser registrado
                          como hipónimo de araña y, como este es un sustantivo polisémico (puede denotar a
                          un ser vivo o a un tipo de lámpara), es necesario determinar cuál es el hiperónimo
                          siguiente en la cadena: animal o artefacto. En el presente artı́culo exploramos méto-
                          dos para resolver este problema utilizando el cálculo de la similitud entre sustantivos
                          utilizando como variable predictora los verbos con los que coocurren. Los mejores
                          resultados (84 % de acierto) se obtienen con un método simple que solo mide coocu-
                          rrencia, sin tener en cuenta información sintáctica.
                          Palabras clave: hiperonimia, polisemia, similitud distribucional, taxonomı́a
                          Abstract: Automatic hypernymy discovery continues to present challenges for na-
                          tural language processing. Polysemous nouns are linked to more than one hypernym
                          and can therefore cause structural damage on a lexical taxonomy. For instance, the
                          Spanish noun tarántula (‘tarantula’) is a hyponym of araña (‘spider’), but this is
                          also a polysemous noun, as it means ‘chandelier’ as well. It is thus necessary to
                          determine the next hypernym in the chain, that is animal (‘animal’) or artefacto
                          (‘artifact’). In this paper we explore methods to solve this problem using a simila-
                          rity measure that uses verb-noun co-occurrence as a predictor variable. Best results
                          (84 % success) are obtained with a simple method that only measures co-occurrence,
                          irrespective of any syntactic information.
                          Keywords: distributional similarity, hypernymy, polysemy, taxonomy

                1      Introducción                                                          2015; Klapaftis y Manandhar, 2010). Eso es
                                                                                              ası́, al menos, en el caso de las taxonomı́as se-
                El establecimiento de relaciones de hiperoni-                                 masiológicas, es decir, aquellas que se basan
                mia entre unidades léxicas continúa siendo                                  en unidades léxicas, como es usual en lexico-
                un desafı́o en el campo del procesamiento del                                 grafı́a, y no en conceptos, que es lo propio de
                lenguaje natural. Actualmente, las estrate-                                   las ontologı́as (Baldinger, 1977; Sager, 1990).
                gias que existen alcanzan promedio de pre-                                        La polisemia es el fenómeno por el cual
                cisión que fluctúa en torno al 80 % (Velardi,                               una palabra tiene más de un significado, y
                Faralli, y Navigli, 2013; Bordea, Lefever, y                                  ocurre cuando uno de los significados da ori-
                Buitelaar, 2016), lo cual deja un amplio mar-                                 gen a otro u otros, por metáfora, metonimia
                gen de mejora.                                                                u otro mecanismo, sin que el significado ori-
                    En el marco de la inducción automática de                               ginal se anule (Ullmann, 1972; Lyons, 1977;
                taxonomı́as léxicas, es decir, las estructuras                               Kilgarriff, 1992; De Miguel, 2016). Ası́, de
                que emergen de las relaciones de hiperonimia-                                 araña ‘animal’ se deriva araña ‘lámpara’ por
                hiponimia (Lyons, 1977), uno de los proble-                                   la similitud formal entre ambas entidades.
                mas pendientes es cómo tratar adecuadamen-                                       En este trabajo se aborda especı́ficamen-
                te el fenómeno de la polisemia (Bordea et al.,                               te el problema de la herencia semántica en la
                ISSN 1135-5948. DOI 10.26342/2020-64-3                                          © 2020 Sociedad Española para el Procesamiento del Lenguaje Natural
Rogelio Nazar, Javier Obreque, Irene Renau

                                                             fuente del proyecto, implementado en el
                                                             lenguaje Perl, se encuentra disponible en
                                                             la página web que acompaña el artı́culo:
                                                             http://www.tecling.com/hat

                                                             2     La asignación automática de
                                                                   hiperónimos
                                                             La hiperonimia es una de las relaciones
                                                             semánticas de inclusión que acontecen en la
Figura 1: Estructura taxonómica con un hi-                  estructura léxica de una lengua (Garcı́a y
perónimo de nivel 1 y 2 de nivel 2.                         Pascual, 2009). Leech (1985) la describió co-
                                                             mo el fenómeno por el cual una palabra inclu-
                                                             ye semánticamente a otra. Ası́, un hiperóni-
                                                             mo se define como una unidad léxica cuyo sig-
cadena de relaciones de hiperónimo-hipóni-                 nificado está en un nivel de abstracción más
mo en una taxonomı́a léxica. Con el fin de                  alto que el de su hipónimo.
ilustrar la problemática, imaginemos el caso                    Una taxonomı́a léxica debe presentar las
de un algoritmo de asignación de hiperónimos               siguientes tres caracterı́sticas fundamentales:
que establece correctamente la relación de hi-                  1. Herencia: un nodo inferior (hipónimo) he-
ponimia del sustantivo tarántula con respec-                       reda las propiedades de su nodo superior (hi-
to a araña. Tal como se muestra en la Figu-                        perónimo).
ra 1, serı́a necesario entonces determinar de                    2. Asimetrı́a: una unidad léxica no puede ser
qué significado especı́fico del sustantivo araña                  superior (hiperónimo) e inferior (hipónimo)
se trata, ya sea el de animal (solución correc-                    de otra unidad léxica al mismo tiempo.
ta) o el de artefacto (solución incorrecta). En                 3. Transitividad: si un hipónimo a tiene un
este trabajo, se llamará hiperónimo de nivel                      hiperónimo directo (a → b ) y este, a su vez,
1 al hiperónimo del tipo araña (inmediata-                        tiene otro (b → c), entonces el primero es
mente superior en la cadena hiperonı́mica al                        hipónimo del último (a → c).
hipónimo, en este caso tarántula), e hiperóni-                En lingüı́stica computacional se utilizaron
mo de nivel 2 al hiperónimo del tipo animal                 términos como red semántica u ontologı́a pa-
o artefacto (de los cuales solo uno de ellos es              ra referirse a estructuras de datos relaciona-
correcto, en este caso animal ).                             dos formalmente aplicadas al procesamiento
    El objetivo de esta investigación es, enton-            automático de grandes cantidades de datos
ces, proponer un algoritmo para resolver los                 (Sowa, 2000). Cabe aclarar, sin embargo, que
casos de ambigüedad de hiperónimos de nivel                una taxonomı́a léxica es algo distinto a las
2. El método está basado en medidas de co-                 anteriores estructuras, ya que solo establece
ocurrencia léxica, a través de las cuales es po-           relaciones de hiperonimia y además lo hace
sible seleccionar el significado correcto entre              entre unidades léxicas, no entre conceptos.
los que ofrece un hiperónimo polisémico. Para              Una ontologı́a no deberı́a presentar proble-
ello, en esta investigación empleamos la co-                mas derivados de la polisemia porque pue-
ocurrencia sustantivo-verbo. Ası́, los verbos                de identificar sus nodos conceptuales con un
con los que frecuentemente coocurre el sus-                  código arbitrario, tal como un identificador
tantivo tarántula proporcionarán pistas sobre              numérico. Esto le permite, además, asociar
si se debe clasificar como animal o como arte-               términos distintos para un mismo concepto,
facto. Consideramos que la conformación de                  con lo cual se evita también el problema de la
este método representa un avance en el mar-                 sinonimia, otra de las complicaciones de las
co de la inducción automática de taxonomı́as               taxonomı́as semasiológicas.
y puede contribuir a solucionar el problema                      Los primeros intentos para construir taxo-
de la polisemia en hiperónimos de segundo                   nomı́as y ontologı́as se desarrollaron de for-
nivel.                                                       ma manual, en casos como los de CyC (Le-
    A continuación, se presenta un breve es-                nat, 1995), WordNet (Fellbaum, 1998), Euro-
tado de la cuestión (apartado 2), la me-                    WordNet (Vossen, 2004), Snomed (Stearns et
todologı́a (apartado 3), los resultados y                    al., 2001), entre otros. Por supuesto, el desa-
evaluación (apartado 4) y las conclusiones                  rrollo en forma manual de estas estructuras
y trabajo futuro (apartado 5). El código                    de datos presenta limitaciones. Por un lado,
                                                       30
Tarántula -> araña -> animal: asignación de hiperónimos de segundo nivel basada en métodos de similitud distribucional

son propensas a inconsistencias, incluso con                           los verbos con los que están asociados sin-
protocolos rigurosos. Por otro lado, se vuel-                          tagmáticamente los sustantivos. Presentamos
ven obsoletas con relativa rapidez debido al                           primero la versión más básica del método y
dinamismo de la lengua, problema que se agu-                           luego una serie de variantes que van añadien-
diza en el caso de las taxonomı́as especializa-                        do complejidad.
das, que tienen una acelerada evolución ter-                              La sección abre con la descripción del pro-
minológica.                                                           ceso de selección de la muestra para experi-
    Estas limitaciones han sido motivo sufi-                           mentación (3.1). Luego se presenta el méto-
ciente para emprender la tarea de la genera-                           do más básico, llamado binario, que utiliza
ción automática de taxonomı́as. Una prime-                           vectores binarios y solo mide la frecuencia de
ra lı́nea de investigación consistió en la ex-                       coocurrencia entre verbos y sustantivos (3.2).
tracción de relaciones de hiperonimia a través                       A continuación, se describe el resto de las va-
del procesamiento automático de diccionarios                          riantes del método: ponderado, que también
(Calzolari, 1984; Chodorow, Byrd, y Heidorn,                           utiliza vectores binarios pero con verbos se-
1985; Guthrie et al., 1990; Agirre et al., 1994).                      leccionados mediante una medida de asocia-
Estos trabajos se basan fundamentalmente                               ción (3.3); euclidiano, que en lugar de vecto-
en la elaboración de sistemas de reglas que                           res binarios utiliza números reales obtenidos
puedan analizar las definiciones y extraer pa-                         a partir de la medida de asociación (3.4) y, fi-
res hipónimo-hiperónimo. Una regla de este                           nalmente, dependencias, que utiliza vectores
tipo puede ser que el primer sustantivo en la                          binarios pero con verbos que se obtienen por
definición de un sustantivo será su hiperóni-                       relaciones de dependencia sintáctica (3.5).
mo.
    Más tarde se aplicó una idea similar, es de-                     3.1      Selección de la muestra para
cir, la utilización de listas de patrones prees-                               experimentación
tablecidos, no ya sobre diccionarios sino so-                          Con el objeto de obtener trı́adas como las
bre texto libre (Hearst, 1992). Se realizaron                          mostradas en la Figura 1 (es decir, hipóni-
múltiples variantes de este enfoque, tales co-                        mo + hiperónimo de nivel 1 + dos posi-
mo el intento de extraer estos patrones direc-                         bles hiperónimos de nivel 2), implementamos
tamente del mismo corpus de manera induc-                              un script Perl que interroga la base de da-
tiva (Snow, Jurafsky, y Ng, 2006).                                     tos WordNet en castellano (Vossen, 2004). El
    En la actualidad, la inducción de taxo-                           script detecta la presencia de sustantivos en
nomı́as sigue enfrentando, entre otros, pro-                           más de un synset, lo que puede ser interpreta-
blemas de estructura y polisemia. En este                              do como indicador de polisemia, y que mues-
marco, el presente estudio contribuye a me-                            tren a la vez por lo menos un hipónimo. Esto
jorar los resultados de la inducción de taxo-                         permitió encontrar 26 casos que satisficieran
nomı́as mediante una propuesta metodológi-                            el requerimiento de una frecuencia mı́nima de
ca que se fundamenta en dos ámbitos: por                              100 ocurrencias en el corpus de trabajo (v.
una parte, en los principios de la semántica                          apartado 3.2.1). Como se puede ver en la Ta-
léxica, utilizando unidades léxicas de contex-                       bla 1, en cada trı́ada tenemos el hipónimo,
tos sintagmáticos de los sustantivos en estu-                         que es el sustantivo objetivo (como laucha),
dio; por otra parte, en la estadı́stica de corpus                      el sustantivo polisémico es el hiperónimo de
fundada, en nuestro caso, en la aplicación de                         primer nivel (ratón) y el resto son los candi-
una medida de similitud distribucional (Gre-                           datos a hiperónimo de nivel 2 (animal o arte-
fenstette, 1994; Lin, 1998) que permitirá ope-                        facto), entre los cuales el sistema debe elegir
racionalizar la similitud semántica entre pa-                         uno.
labras con el fin de obtener mediciones cuan-
tificables y comprobables empı́ricamente.                              3.2      El método base: binario
                                                                       3.2.1   Extracción de contextos de
3   Metodologı́a                                                               aparición de los sustantivos
En esta sección detallamos la propuesta me-                           Por cada sustantivo analizado tomamos una
todológica para asignar relaciones de hiper-                          muestra de contextos de aparición. Para ello
onimia de segundo nivel en los casos de poli-                          utilizamos el corpus esTenTen (Kilgarriff y
semia, utilizando para ello una medida de si-                          Renau, 2013), versión 2011 (9.500 millones
militud distribucional entre sustantivos. Co-                          de palabras). Hicimos muestreos aleatorios de
mo variable para la comparación, utilizamos                           un máximo de hasta 5.000 concordancias por
                                                                 31
Rogelio Nazar, Javier Obreque, Irene Renau

     Sust.        Hiper.          Hiper.                          tivos analizados, como absolutismo, coocurre
    objetivo      nivel 1         nivel 2
    asaltante     ladrón   humano — artefacto                    con frecuencia con el verbo abandonar, lo que
     caniche       perro     animal — artefacto                   también sucede con el sustantivo caniche pe-
   chimpancé      mono       animal — prenda                     ro no ası́ con tarántula.
     laucha        ratón    animal — artefacto
    tarántula     araña    animal — artefacto                                       abandonar     abarcar      abogar     ...
        ...          ...             ...                             absolutismo           1            0           0       ...
                                                                       caniche             1            0           0       ...
                                                                      tarántula           0            0           0       ...
                                                                          ...             ...          ...         ...      ...
Tabla 1: Ejemplos del tipo de trı́ada en estu-
dio, con la opción correcta en negrita.
                                                                  Tabla 3: Ejemplificación de la matriz de co-
cada sustantivo, aunque en muchos casos la                        ocurrencia sustantivo-verbo.
muestra fue menor debido a que no todos tie-
nen tanta frecuencia de aparición en el cor-                        En esta variante del método optamos por
pus. Utilizamos una ventana de contexto de                        valores binarios, como se muestra en la Tabla
10 palabras a derecha e izquierda, teniendo en                    3. El valor de la celda se define en (1), don-
cuenta la distancia variable en que se puede                      de la frecuencia de coocurrencia f r(i, j) debe
presentar la coocurrencia verbo-argumento y,                      superar un umbral u (u = 5).
en esta variante del método, nos limitamos a                                            
                                                                                             1 f r(i, j) > u)
medir la frecuencia de coocurrencia. Para ello                                  Mi,j =                                           (1)
                                                                                             0 otherwise
basta el etiquetado morfosintáctico del cor-
pus EsTenTen. La Tabla 2 muestra un frag-                         3.2.4    Formación de vectores clase
mento de contexto del sustantivo tarántula                                para hiperónimos de segundo
con el etiquetado del corpus.                                              nivel
    Forma        Categorı́a gramatical       Lema                 Los hiperónimos de segundo nivel utilizados
       Si              CSUBX                    si                en la muestra (por ejemplo evento, animal,
      una                ART                   un                 máquina, etc.) resultan demasiado abstractos
   tarántula             NC               tarántula
      pica              VLfin                picar
                                                                  para crear un vector de coocurrencia directa-
        a               PREP                    a                 mente como se explica en el apartado 3.2.3.
      una                ART                   un                 Esto motivó que la construcción de vectores
    persona               NC                persona               se llevara a cabo de manera indirecta, a través
       ...                 ...                 ...
                                                                  de la suma de vectores de varios sustantivos
                                                                  pertenecientes a esas categorı́as. La Tabla 4
Tabla 2: Ejemplo de contexto de aparición del                    muestra algunos ejemplos de dicha selección,
sustantivo tarántula.                                            donde se ve la categorı́a y 10 sustantivos per-
                                                                  tenecientes a ella. La selección de sustantivos
3.2.2 Extracción de los verbos                                   es arbitraria, pero se trata en todos los casos
                                                                  de miembros prototı́picos de cada categorı́a,
Por cada uno de los sustantivos analizados,
                                                                  y que tendrán frecuencia alta en el corpus.
se recorrieron sus contextos de aparición re-
gistrando la frecuencia de los verbos con los                         Hiper. nivel 2      Hipónimos
que coocurren. De este modo, conservamos                                 animal           caballo,     canario,     canguro,
                                                                                          delfı́n, elefante, gorrión, jirafa,
los verbos en los que se observa una frecuen-                                             león, lobo, ornitorrinco
cia de coocurrencia de mı́nimo 5 casos, um-                               máquina        aspiradora, automóvil, cocina,
bral arbitrario sobre el que es más improba-                                             cortadora, estufa, horno, ju-
                                                                                          guera, motocicleta, refrigera-
ble que la observación sea fruto de accidente                                            dor, soldadora
o error.                                                                   prenda         blusa, calcetı́n, calzón, cami-
                                                                                          sa, chaleco, cinturón, corbata,
3.2.3    Conformación de una matriz de                                                   pantalón, polera, sudadera
         coocurrencia con verbos                                              ...         ...
Una vez obtenidos los listados de coocurren-
cia sustantivo-verbo, se conformó una matriz
                                                                  Tabla 4: Ejemplo de construcción de vectores-
Mi,j en la que los sustantivos son dispuestos
                                                                  clase.
en las filas y los verbos con los que coocu-
rren en las columnas. La Tabla 3 muestra la                          Por cada sustantivo de estas categorı́as se
estructura de esta matriz. Uno de los sustan-                     extrajeron sus contextos de aparición tal co-
                                                            32
Tarántula -> araña -> animal: asignación de hiperónimos de segundo nivel basada en métodos de similitud distribucional

mo se describe en (3.2.1) y se construyó una                            puede ser animal y V~Ci artefecto. Siempre se
matriz de coccurrencia sustantivo-verbo co-                              elige una de las opciones.
mo en (3.2.3). La Tabla 5 muestra la forma
en que se suman los vectores-miembro para
                                                                                          V ~Ck J(~o, V ~Ck ) > J(~o, V~Ci )
                                                                                      
obtener un vector-clase. Al igual que en la                                 h(~o) =                                                (3)
Tabla 4, los sustantivos se disponen en las fi-                                           V~Ci otherwise
las y los verbos en las columnas. La diferencia
aquı́ está en que estos sustantivos (Hi ) son
los diez miembros elegidos de cada categorı́a.
                                                                         3.3      Aplicación de una medida de
La última fila, señalada con el sı́mbolo V C,                                   asociación: la variante
representa el vector-clase, y consiste en la su-                                  ponderada
ma de los vectores de cada uno de sus hipóni-                           Tal como anticipamos al comienzo de la sec-
mos. Esto significa que cada componente de                               ción, experimentamos con distintas variantes
V C tendrá valor 1 si existe al menos una                               del método principal con el fin de contrastar
celda con valor 1 en la columna correspon-                               resultados.
diente. De esta manera, por cada uno de esos                                 La variante ponderada del método es muy
tipos semánticos más abstractos, obtenemos                             similar a la anterior, y sigue utilizando vecto-
un vector clase, representado por los verbos                             res binarios. La única diferencia es que aho-
con los que coocurren sustantivos hipónimos                             ra poblamos esos vectores mediante una me-
de estos hiperónimos más abstractos.                                   jor selección de los verbos, utilizando para
            V1      V2     V3      V4     V5     ...   Vn
                                                                         ello una medida de asociación sintagmática
    H1        0       1      1       0      0    ...    0                (Ecuación 4). De forma similar a la Ecuación
    H2        0       0      1       0      1    ...    0                1, solo tendrán valor 1 los pares sustantivo-
    H3        0       1      1       0      0    ...    1
    H4        0       0      1       0      1    ...    0
                                                                         verbo que tengan una ponderación mayor a
    ...      ...     ...    ...     ...    ...   ...   ...               un umbral mı́nimo que, a diferencia del caso
    Hn        0       1      1       0      0    ...    0                anterior, ahora tiene otro valor (u = 0,01).
    VC        0       1      1       0      1    ...    1
                                                                                                       f (s, v)
                                                                                       cooc(s, v) = p      p                       (4)
                                                                                                     f (s). f (v)
Tabla 5: Esquematización de la suma de vec-
tores para la conformación del vector-clase.                               El resto del procedimiento es idéntico al
                                                                         método básico.
3.2.5   Cálculo de similitud entre
        vectores                                                         3.4      Uso de vectores con números
Una vez poblada la matriz de los sustantivos                                      reales en lugar de binarios: la
objetivo (Tabla 3) y la de los vectores-clase                                     variante euclidiana
(Tabla 5), el siguiente paso consiste en aplicar                         Esta tercera variante del método está basada
una medida de similitud entre el vector que                              en la anterior (ponderada), pero en lugar de
corresponde a este sustantivo objetivo (~o) y                            utilizar valores binarios ahora son vectores de
cada uno de los vectores-clase (V~C) que re-                             números reales, cuyos valores se obtienen de
presentan a los hiperónimos de segundo nivel.                           la ponderación definida en la Ecuación 4. El
Como medida de similitud aplicamos el ı́ndi-                             uso de valores reales en lugar de binarios obli-
ce de Jaccard (2), que es apropiado para la                              ga a hacer ajustes en el método básico, como
comparación de vectores binarios. Dados dos                             la conformación de los vectores-clase (apar-
vectores A y B, la similitud se obtiene opo-                             tado 3.2.4). En este caso, los valores de los
niendo la intersección a la unión.                                     vectores-clase se obtienen sumando las pon-
                                  |A ∩ B|                                deraciones de los verbos asociados a cada sus-
                   J(A, B) =                                 (2)         tantivo, como se indica en la Ecuación 5.
                                  |A ∪ B|
                                                                                                        |V C|
   Ası́, en el caso de tarántula, la selección                                                         X
                                                                                              V Cj =            Hi,j               (5)
entre animal y artefacto (sus dos hiperóni-                                                             i=1
mos de segundo nivel) se realiza por medio
de una función h según el valor de similitud                              Otra de las diferencias en esta variante del
recién explicado, tal como se muestra en la                             método es que al utilizar vectores con núme-
Ecuación 3, donde ~o puede ser tarántula, V ~Ck                        ros reales podemos optar por otras medidas
                                                                   33
Rogelio Nazar, Javier Obreque, Irene Renau

                                                              Lı́nea    Forma          Lema        POS         Dep.   Func.
de similitud. En este caso optamos por la uti-                  93         Si             si      SCONJ        102    mark
                                                                94        una           uno        DET          95     det
lización de la distancia euclidiana, definida en               95     tarántula    tarántula   NOUN         102    nsubj
la Ecuación 6.                                                 96
                                                                97
                                                                          pica
                                                                            a
                                                                                        pico
                                                                                          a
                                                                                                   ADJ
                                                                                                   ADP
                                                                                                                95
                                                                                                                99
                                                                                                                      amod
                                                                                                                       case
                     v                                          98        una           uno        DET          99     det
                     u n                                        99      persona       persona     NOUN          95    nmod
                     uX                                          ...       ...           ...        ...         ...     ...
           d(A, B) = t (Ai − Bi )2              (6)
                        i=1
                                                            Tabla 6: Ejemplo de análisis de dependencias
    Esta variante permite captar la idea según             con UDPipe en que se produce un error en la
la cual un sustantivo objetivo o y un hiperóni-            detección del verbo picar.
mo de segundo nivel V Ck correcto deberı́an
tener un similar perfil de coocurrencia con
verbos, siendo algunos verbos más significa-               4     Resultados
tivos que otros. Con esta medida se seleccio-               La Tabla 7 muestra los resultados del método
na un hipónimo de la misma forma que en la                 en sus distintas variantes, sobre la muestra de
Ecuación 3, solo que en este caso el signo <               sustantivos objetivo. La cobertura es igual a
se invierte a >, ya que se trata de una medida              la precisión debido a que forzamos al sistema
de distancia en lugar de similitud.                         a elegir siempre una de las opciones.
3.5    Uso de un parser sintáctico                                              Variante         Precisión
       para extraer relaciones                                                     binaria          69 %
                                                                                 ponderada          84 %
       verbo-sustantivo: la variante                                             euclidiana         73 %
       dependencias                                                             dependencias        57 %
                                                                                  aleatoria         50 %
La última variante, y la más compleja, involu-
cra la utilización de un analizador de depen-
dencias sintácticas para determinar la fun-                Tabla 7: Resultados del método en sus dis-
ción gramatical que se produce entre sustan-               tintas variantes
tivos y verbos. El parser permite limitar la
selección a las parejas sustantivo-verbo que                   Los mejores resultados se obtuvieron con
efectivamente contraen una relación sintácti-             la variante ponderada. Atribuimos este resul-
ca, como puede ser el caso de la relación                  tado a una mejor selección de los verbos co-
sujeto-verbo, verbo-objeto directo, etc.                    ocurrentes, a través de una medida de aso-
    Utilizamos para ello UDPipe, uno de los                 ciación sintagmática. Esto suprimió el ruido
mejores y más recientes analizadores de de-                que introducı́an en la variante binaria los
pendencias (Straka y Straková, 2017). La                   verbos que tienen alta frecuencia de coocu-
Tabla 6 muestra el resultado del análisis                  rrencia con muchos sustantivos diferentes. La
sintáctico del mismo fragmento de contexto                 variante euclidiana, con la incorporación de
del sustantivo tarántula que se mostró en la              la medida de distancia euclidiana, también
Tabla 2. En este caso se produce un error,                  mejora la variante binaria, pero con resul-
ya que el verbo picar no es reconocido co-                  tados más modestos. Finalmente, la variante
mo tal (lı́nea 96) y se etiqueta como adjetivo,             dependencias, que extrae los verbos median-
perdiéndose ası́ la información relativa a que            te análisis sintáctico y es la de mayor com-
tarántula es el sujeto del verbo picar. Dada               plejidad, tuvo el peor desempeño, con solo 7
la mayor complejidad de este tipo de análi-                puntos por encima de una clasificación alea-
sis, cabe esperar que se produzca una alta                  toria. Esto puede ser atribuible al hecho de
tasa de error. Sin embargo, al mismo tiem-                  que los textos del corpus, tomados de pági-
po resulta razonable suponer también que la                nas web, contienen una sintaxis y ortografı́a
gran cantidad de contextos de aparición de                 relajadas propias de los textos de Internet.
los sustantivos compense esta tasa de error.                Solucionar este problema queda fuera del al-
    En este caso optamos nuevamente por la                  cance de la presente investigación.
utilización de vectores binarios, pero no apli-                La Tabla 8 muestra los resultados con las
camos un lı́mite de frecuencia por ser ya esta              primeras 9 unidades analizadas por orden al-
variante muy selectiva. De este modo, si se                 fabético en el caso de la variante ponderada,
observa al menos una vez que existe una re-                 que fue la que produjo mejores resultados.
lación sintáctica entre un sustantivo y un ver-           La primera columna indica la evaluación: 1
bo, el valor correspondiente a esa celda será 1.           si el ensayo es exitoso y 0 si no lo es. La si-
                                                      34
Tarántula -> araña -> animal: asignación de hiperónimos de segundo nivel basada en métodos de similitud distribucional

 E        d               h1               h2            S                 Además del método básico, hemos ex-
 1   absolutismo       sistema         concepto        16.46
                                       máquina        8.47            plorado distintas variantes. Utilizamos vec-
 0    acueducto         canal         institución     11.55           tores binarios que indican la coocurrencia
                                         lugar         8.12            sustantivo-verbo, y también vectores con va-
 0     albahaca         planta           lugar         14.15
                                        servivo        11.09
                                                                       lores reales; probamos el uso de simple fre-
 1   ametrallador       cañón          arma          5.56            cuencia de coocurrencia y luego una medida
                                         lugar         2.58            de asociación estadı́stica y, finalmente, hemos
 1     asaltante        ladrón         humano         11.46           explorado también la posibilidad de extraer
                                       artefacto       8.07
 1     caniche          perro           animal         6.26            los verbos por medio de un analizador de de-
                                       artefacto       3.84            pendencias sintácticas.
 1     cencerro       campana       instr. musical     3.07
                                       máquina        2.97                Nuestros resultados permiten concluir que
 1    chimpancé        mono            animal         10.47           la mejor variante es la que utiliza vectores
                                        prenda         5.75            binarios que miden frecuencia de coocurren-
 1       dedo         miembro        parte cuerpo      11.39
                                        humano         10.92
                                                                       cia sustantivo-verbo, seleccionando los verbos
                                                                       con una medida de asociación (la variante
Tabla 8: Ejemplos de resultados con la va-                             ponderado). Creemos que la tasa de éxito es
riante ponderada                                                       remarcable, teniendo en cuenta que se trata
                                                                       de un método relativamente simple. No exis-
                                                                       ten, que sepamos, propuestas similares para
                                                                       la adjudicación de hiperónimos de segundo
guiente columna presenta el sustantivo obje-
                                                                       nivel en casos de polisemia.
tivo (o), la siguiente el hiperónimo de primer
nivel (h1) y la siguiente los distintos hiperóni-                         En cuanto a trabajo futuro, es necesario
mos de segundo nivel (h2). La última colum-                           continuar introduciendo nuevas variantes me-
na (S) indica el valor obtenido con el ı́ndi-                          todológicas y reproducir los experimentos con
ce de Jaccard entre el vector de coocurren-                            muestras más grandes de datos, ya que esto
cia del sustantivo objetivo y, en cada caso,                           permitirı́a estudiar mejor cómo afectan a los
el hiperónimo de segundo nivel (el valor más                         resultados las diferencias de frecuencia y de
alto se presenta primero). Entre los 26 casos                          prototipicidad de cada significado, una varia-
estudiados hay 22 exitosos, lo que represen-                           ble que conviene controlar en un diseño de
ta un resultado estadı́sticamente significativo                        investigación de este tipo (por ejemplo, en el
(p = 0,0005).                                                          caso del sustantivo perro, el sentido de ani-
                                                                       mal tendrá más peso que el de artefacto).
5    Conclusiones y trabajo futuro                                     También serı́a necesario probar la utilización
                                                                       de ventanas oracionales en lugar de venta-
En este trabajo hemos presentado una pro-                              nas de contexto simétricas. Otra posibilidad
puesta metodológica para desambiguar la re-                           serı́a reproducir el mismo método pero utili-
lación entre un sustantivo y un hiperónimo                           zando adjetivos o incluso sustantivos en lugar
polisémico en el contexto de la inducción au-                        de verbos. Finalmente, proyectamos reprodu-
tomática de taxonomı́as. El método, fundado                          cir los experimentos en otras lenguas (francés,
en una medida de similitud distribucional, se                          inglés, etc.) en el contexto de nuestro proyec-
basa en la idea según la cual las palabras que                        to KIND1 de taxonomı́as automatizadas en
aparecen en cotextos similares tienden a te-                           varias lenguas.
ner significados similares.
    En la propuesta, se han restringido los co-
textos en función de los verbos con los que                           Agradecimientos
coocurren los sustantivos en estudio, ya que
                                                                       Esta investigación ha sido posible gracias al
se trata de una clase abierta de palabras, pero
                                                                       financiamiento del Proyecto Fondecyt Regu-
al mismo tiempo limitada (cerca de 6.000 ver-
                                                                       lar 1191204 “Polisemia regular de los sustan-
bos aparecen con cierta frecuencia en el Es-
                                                                       tivos del español: análisis semiautomático de
TenTen). Esta caracterı́stica convierte a los
                                                                       corpus, caracterización y tipologı́a”, dirigido
verbos en predictores útiles para obtener in-
                                                                       por Irene Renau. Agradecemos también a los
formación semántica acerca de los sustanti-
                                                                       revisores por sus útiles comentarios.
vos con los que coocurren, ya que represen-
tan una matriz más manejable que una de
                                                                          1
adjetivos o sustantivos.                                                      http://www.tecling.com/kind
                                                                 35
Rogelio Nazar, Javier Obreque, Irene Renau

Bibliografı́a                                                 Kilgarriff, A. y I. Renau. 2013. estenten, a vast
Agirre, E., X. Arregi, X. Artola, A. D. de Ila-                  web corpus of peninsular and american spa-
   rraza, y K. Sarasola. 1994. A methodology                     nish. Procedia - Social and Behavioral Scien-
   for the extraction of semantic knowledge from                 ces, 95:12 – 19.
   dictionaries using phrasal patterns. En Pro-               Klapaftis, I. P. y S. Manandhar. 2010. Taxonomy
   ceedings of IBERAMIA’94. IV Congreso Ibe-                     learning using word sense induction. En Hu-
   roamericano de Inteligencia Artificial, páginas              man Language Technologies: The 2010 Annual
   263–270, Caracas (Venezuela).                                 Conference of the North American Chapter of
                                                                 the ACL, páginas 82–90, Los Angeles, Califor-
Baldinger, K. 1977. Teorı́a semántica: hacia una                nia, Junio. ACL.
   semántica moderna. Coleccion Romania. Al-
   cala.                                                      Leech, G. 1985. Semántica. Alianza Universal,
                                                                 No. 197. Alianza.
Bordea, G., P. Buitelaar, S. Faralli, y R. Navigli.
   2015. SemEval-2015 Task 17: Taxonomy ex-                   Lenat, D. 1995. Cyc: A large-scale investment
   traction evaluation (texeval). En Proceedings                 in knowledge infrastructure. Commun. ACM,
   of the 9th International Workshop on Seman-                   38(11):33–38, Noviembre.
   tic Evaluation (SemEval 2015), páginas 902–               Lin, D. 1998. Automatic retrieval and clustering
   910. ACL.                                                     of similar words. En Proceedings of the 17th
                                                                 International Conference on Computational
Bordea, G., E. Lefever, y P. Buitelaar. 2016.                    Linguistics - Volume 2, COLING ’98, páginas
   SemEval-2016 Task 13: Taxonomy extraction                     768–774, Stroudsburg, PA, USA. ACL.
   evaluation (texeval-2). En SemEval-2016,
   páginas 1081–1091. ACL.                                   Lyons, J. 1977. Semantics, volumen 2. Cambrid-
                                                                 ge University Press.
Calzolari, N. 1984. Detecting patterns in a lexical
   data base. En Proceedings of the 10th Interna-             Sager, J. C. 1990. A Practical Course in Termi-
   tional Conference on Computational Linguis-                   nology Processing. John Benjamins, Amster-
   tics and 22nd annual meeting on ACL, pági-                   dam/Philadelphia.
   nas 170–3. ACL.                                            Snow, R., D. Jurafsky, y A. Y. Ng. 2006. Seman-
                                                                 tic taxonomy induction from heterogenous
Chodorow, M. S., R. J. Byrd, y G. E. Heidorn.
                                                                 evidence. En Proceedings of the 21st Interna-
  1985. Extracting semantic hierarchies from a
                                                                 tional Conference on Computational Linguis-
  large on-line dictionary. En Proceedings of the
                                                                 tics, Sydney, Australia, 17-21 July 2006.
  23rd annual meeting on ACL, páginas 299–
  304. ACL.                                                   Stearns, M. Q., C. Price, K. A. Spackman, y A. Y.
                                                                 Wang. 2001. Snomed clinical terms: overview
De Miguel, E. 2016. Lexicologı́a. En J. Gu-                      of the development process and project sta-
  tiérrez, editor, Enciclopedia de Lingüı́stica                tus. En Proceedings of the AMIA Symposium,
  Hispánica. Ariel, Barcelona, páginas 153–185.                páginas 662–666. American Medical Informa-
Fellbaum, C. 1998. WordNet: An Electronic Le-                    tics Association.
   xical Database. Bradford Books.                            Straka, M. y J. Straková. 2017. Tokenizing, POS
Garcı́a, R. y J. Pascual. 2009. Relaciones de sig-               tagging, lemmatizing and parsing UD 2.0 with
  nificado entre las palabras. En E. D. Miguel,                  UDPipe. En Proceedings of the CoNLL 2017
  editor, Panorama de lexicologı́a. Ariel, Barce-                Shared Task: Multilingual Parsing from Raw
  lona, páginas 117–131.                                        Text to Universal Dependencies, páginas 88–
                                                                 99, Vancouver, Canada, Agosto. ACL.
Grefenstette, G. 1994. Explorations in Automa-                Ullmann, S. 1972. Semántica. Aguilar.
   tic Thesaurus Discovery. Kluwer Academic
   Publishers, Norwell, MA, USA.                              Velardi, P., S. Faralli, y R. Navigli. 2013. On-
                                                                 tolearn reloaded: A graph-based algorithm for
Guthrie, L., B. Slator, Y. Wilks, y R. Bruce.                    taxonomy induction. Computational Linguis-
  1990. Is there content in empty heads? En                      tics, 39(3):665–707.
  Proc. of the 13th International Conference on
  Computational Linguistics, COLING’90 (Hel-                  Vossen, P. 2004. Eurowordnet: A multilingual
  sinki, Finland), páginas 138–143.                             database of autonomous and language-specific
                                                                 wordnets connected via an inter-lingual-index.
Hearst, M. A. 1992. Automatic acquisition of hy-                 Special Issue on Multilingual Databases, In-
  ponyms from large text corpora. En Procee-                     ternational Journal of Linguistics, 17(2):161–
  dings of the 14th Conference on Computatio-                    173, 06.
  nal Linguistics - Volume 2, COLING ’92, pági-
  nas 539–545, Stroudsburg, PA, USA. ACL.
Kilgarriff, A. 1992. Polisemy. Ph.D. tesis. Uni-
   versity of Sussex.
                                                        36
También puede leer