INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN Funciones léxicas en español utilizando embeddings TESIS Que para obtener el grado de: MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN P R E S E N T A: ACT.ARTURO HERNÁNDEZ MIRANDA DIRECTORES DE TESIS: DRA.OLGA KOLESNIKOVA DR.ALEXANDER GELBUKH Ciudad de México Enero 2019
61
Embed
Funciones léxicas en español utilizando embeddings
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
INSTITUTO POLITÉCNICO NACIONAL
CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN
Funciones léxicas en español utilizando embeddings
T E S I S
Que para obtener el grado de:
MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN
P R E S E N T A:
ACT. ARTURO HERNÁNDEZ MIRANDA
DIRECTORES DE TESIS:
DRA. OLGA KOLESNIKOVA
DR. ALEXANDER GELBUKH
Ciudad de México Enero 2019
I
II
III
ResumenEl lenguaje humano es ampliamente ambiguo como variable, los seres humanos somos ca-
paces de producir y entender el lenguaje, sin embargo existe muy poca formalidad para
comprender y describir las reglas que lo rigen; a ello se suma la diversidad de lenguajes y la
amplia disponibilidad de información existente a través de los medios de difusión formales
e informales, por lo que, entender y producir lenguaje a través de una computadora es un
reto de grandes proporciones.
Las funciones léxicas son un formalismo lingüístico para realizar de forma automática, el
análisis semántico de la información en forma de lenguaje humano.En este trabajo se aborda
de forma particular las estructuras del lenguaje llamadas colocaciones verbales, cuyo signi-
ficado no puede predecirse mediante el significado de sus elementos.
Para abatir el problema de depurar una gran cantidad de información, se hace uso del
aprenzaje máquina, en especial de la arquitectura "word embeddings", que parte del modelo
de bolsa de palabras y mediante el uso de algoritmos de aprendizaje no supervisado produce
un vector denso que permite recuperar información semántica.
El método de aprendizaje máquina empleado en el presente trabajo, se basa en tensores,
como alternativa a los métodos tradicionales basados en kernel. Lamentablemente los resul-
tados obtenidos con éste método se encuentran por debajo de los métodos tradicionales, ya
que por ahora, el diseño de este tipo de arquitecturas es a prueba y error, por lo que es muy
probable que con algunas modificaciones se obtengan mejores resultados.
AbstractHuman language is widely ambiguous as a variable, human beings are able to produce
and understand language, however there is very little formality to understand and describe
the rules that govern it; to this is added the diversity of languages and the wide availability
of existing information through formal and informal media, so understanding and produ-
cing language through a computer is a challenge of great proportions.
The lexical functions are a linguistic formalism to carry out automatically, the semantic
analysis of information in the form of human language. In this work we deal in a particular
way with the structures of language called verbal collocations, whose meaning can not be
predicted by the meaning of its elements.
To tackle the problem of debugging a large amount of information, we use machine lear-
ning algorithms, especially the "word embeddings.architecture, which starts from the word
bag model and through the use of unsupervised learning algorithms produces a dense vec-
tor that allows to recover semantic information.
The machine learning method used in the present work is based on tensors, as an al-
ternative to traditional kernel-based methods. Unfortunately the results obtained with this
method are below traditional methods, because for now, the design of this type of architec-
ture is trial and error, so it is very likely that with some modifications can get better results.
V
Dedicatoria
...para mi mamá Araceli...
porque en cada paso que doy recibo su apoyo incondicional.
...para Daniela...porque verla crecer es una inspiración para levantarme y seguir
adelante.
VI
AgradecimientosA Dios, por guiar mi camino.
A la Dra. Olga Kolesnikova y al Dr. Alexander Gelbukh, porque aunque su grandeza
como investigadores y docentes podría convertirlos en tiranos, son personas que de verdad
se interesan por cada uno de sus alumnos y alumnas.
A los miembros de mi comité tutorial, la Dra. Sofía Natalia Galicia Haro, el Dr. Ildar
Batyrshin, el Dr. Sergio Suárez Guerra, el Dr. Grigori Sidorov, porque su destacada trayec-
toria es una inspiración y su amable trato es un incentivo para perseverar.
Al Instituto Politécnico Nacional, por abrir espacios de oportunidad para el aprendizaje
de alto nivel, que de otra forma sería, para muchas personas como yo, imposible de obtener.
Al Consejo Nacional de Ciencia y Tecnología, por el apoyo económico otorgado durante
Es evidente que a mayor cantidad de información disponible(haciendo particular refe-
rencia a la que puede accederse a través de la World Wide Web), mayor será la necesidad
de almacenamiento requerido, adicionalmente, con respecto a la información textual, mayor
tiempo de procesamiento y revisión harán falta para encontrar en ella aquello que resulte de
nuestro interés.
1.3. Hipótesis
Las relaciones semánticas entre elementos léxicos se pueden representar y sistematizar e
identificar, utilizando el modelo distribuido de palabras.
1.4. Objetivos
1.4.1. Objetivo general
Plantear una arquitectura utilizando Word Embeddings para la clasificación e identifica-
ción de funciones léxicas en español para un corpus regionalizado.
1.4.2. Objetivos específicos
Exponer por lo menos tres diferentes algoritmos de Word Embeddings que puedan ser
utilizados para la tarea a realizar.
Aplicar por lo menos dos algoritmos de Word Embeddings para la tarea de clasificación
de funciones léxicas.
Revisar algunas medidas de similitud apropiadas para las colocaciones verbales.
Capítulo 1. Introducción 4
Explorar de forma geométrica las características de las funciones léxicas.
Crear un corpus marcado que sea adecuado para la identificación de las funciones lé-
xicas.
1.5. Contribuciones
Resulta ingenuo pensar que el presente trabajo es una contribución novedosa, ya que
desde mi punto de vista, esta etapa, es formativa dentro de la investigación, es decir, es la
antesala de una larga labor en la investigación, sin embargo, mi deseo es que el presente
trabajo sirva como texto de consulta para quienes como yo, somos principiantes en el vasto
y complejo mundo del Procesamiento de Lenguaje Natural. Dicho lo anterior, es posible
destacar las siguientes contribuciones:
1. La depuración de un corpus de un formato HTML a un formato de lectura para una
base de datos NoSQL.
2. La elaboración de un corpus marcado con 500 ejemplos de distintas funciones léxicas
en español
3. La identificación de 10 nuevas colocaciones adicionales a las identificadas en (Gelbukh
y Kolesnikova, 2012).
5
Capítulo 2
Conceptos básicos
2.1. Lenguaje natural y Procesamiento de Lenguaje Natural
Los lenguajes naturales son aquellos que están involucrados y son utilizados de forma
natural por los seres humanos, para propósitos de comunicación, por ejemplo, Inglés, Fran-
cés, Alemán, etc. El Procesamiento de Lenguaje Natural (PLN o NLP1), también llamado
Lingüística Computacional, es el estudio científico de los lenguajes desde una perspectiva
computacional, es decir, un campo de las Ciencias de la Computación y la lingüística, intere-
sado en las interacciones entre computadoras y lenguajes humanos(naturales)(Kumar, 2011),
y es considerado una rama de la inteligencia artificial.
Las técnicas de PLN se desarrollaron con la finalidad de que las computadoras compren-
dieran los comandos establecidos en lenguaje natural, y responder acorde a tal solicitud;
muchas de las tareas dentro del PLN utilizan tanto la comprensión como la generación del
lenguaje.
El PLN ha surgido como un área interdisciplinaria, entre la lingüística computacional y
la inteligencia artificial (particularmente en el área de Aprendizaje Máquina figura 2.1), uti-
lizando herramientas tales como algortimos, estructuras de datos, modelos de represetación
de conocimiento, etc.1Por sus siglas en inglés Natural Language Processing
Capítulo 2. Conceptos básicos 6
Procesamiento deLenguaje Natural
LingüisticaComputacional
AprendizajeMáquina
Herramientas
•análisis léxico•Estructura del enunciado•Análisis gramatical•Extracción manual de
características
•Aprendizaje supervisado•Aprendizaje no
supervisado•Aprendizaje
semi-supervisado•Aprendizaje por refuerzo
•Gensim•NLTK•Scikit-learn•TensorFlow
FIGURA 2.1: El PLN como área interdisciplinaria
2.2. El modelo BOW (”bolsa de palabras”)
En este modelo, los datos están representados como texto(enunciados o documentos ), y
se denomina bolsa de palabras, debido a una analogía en la que los elementos contenidos
en dicha bolsa, no tienen un orden específico, y en la cual, no se considera o se pierde cierta
información; en este caso, información sintáctica (Sidorov, 2013). Véase el siguiente ejemplo:
Documento 1:Me gusta hacer ejercicio con la bicicleta.
Capítulo 2. Conceptos básicos 7
Documento 2:A Daniela le gusta jugar con la pelota.
Bolsa de palabras= [”Me”, ”gusta”, ”hacer”, ”ejercicio”, ”con”, ”la”,”bicicleta”,”A”,
”Daniela”,”le”,”jugar”,”pelota” ]
Algunas de las principales características que describen este modelo, son las siguientes:
El orden de cada palabra dentro de una oración o enunciado no es importante.
Al definir un vector de características, las medidas se toman con respecto a la frecuencia
de las palabras.
Se discrimina la posición local de todos los elementos (no se preserva el significado).
El objetivo es maximizar la información y reducir el tamaño del vocabulario común.
2.3. Redes Neuronales Artificiales
2.3.1. Reseña histórica
El concepto de Redes Neuronales Artificiales ha estado presente por mas de 50 años, sin
embargo, fue hace apenas unos años cuando ganó relevancia, debido al actual poder compu-
tacional, eficiencia de los algoritmos y disponibilidad de datos, ha sido posible por ejemplo,
realizar entrenamientos de grandes redes o redes profundas (Deep Learning).
El origen de las Redes Neuronales Artificiales, data de año 1943, cuando el primer modelo
matemático de una neurona biológica fue publicado por el neuro-psicólogo Warren Sturgis
McCulloch y el lógico-matemático Walter Harry Pitts, cuya publicación ”A logical calculus
of the ideas immanent un nervous activity”, describe el funcionamiento del cerebro de manera
formal, como una red neuronal consistente en neuronas binarias interconectadas (Mumford,
Capítulo 2. Conceptos básicos 8
2009). En su trabajo, muestran que las redes neuronales artificiales, pueden en principio, rea-
lizar cualquier operación aritmética o lógica.
Un aspecto fundamental del trabajo de McCulloch-Pitts fue la formulación de la propie-
dad todo-nada de una neurona (un impulso está presente o ausente en cierto nervio, en cierto
tiempo), dicha propiedad puede verse como una proposición lógica (el enunciado es falso o
verdadero), es decir, el modelo puede describirse utilizando Álgebra Booleana (el álgebra de
clases) (Scott, 2002), por lo que, de su trabajo se obtuvieron dos resultados principales:
1. El modelo podía representar los tres circuitos fundamentales (las compuertas AND,
OR y NOT).
2. Utilizando el álgebra de clases mostraron que cualquier función Boolena podía ser mo-
delada por una o mas de sus redes, y cada red correspondía a una o mas funciones
Booleanas.
E1
E2
...
En
I1
I2
...
Im
YT
FIGURA 2.2: La neurona de McCulloch-Pitts
Capítulo 2. Conceptos básicos 9
En la figura 2.2, se muestra el diagrama de la neurona de McCulloch-Pitts, la cual tiene
entradas de estimulación Ei, asi como entradas de inhibición Ij.
Las entradas de estimulación ocasionan que la neurona pase a un estado activo, contra-
riamente las entradas de inhibición previenen que la neurona entre a un estado activo. En
términos matemáticos:
Y = 1 si:
n
∑i=1
Ii = 0,m
∑j=1
Ej ≥ T
Y = 0 en otro caso
En otras palabras, si alguna de las entradas inhibitorias está activa (es decir, que tenga un
valor igual a 1), la salida Y, será inactiva (es decir su valor será cero). Alternativamente, si
todas las entradas inhibitorias son cero, y la suma de las entradas de estimulación es mayor
que el límite(T), entonces el valor de la salida será igual a 1 (Picton, 2001).
2.3.2. Perceptrón
Supóngase un conjunto P de puntos en el espacio, de tal forma que pi ∈ Rn, ∀pi ∈ P,
dicho conjunto P tiene la característica de que sus elementos son linealmente separables, es
decir, es posible utilizar un hiperplano para separarlos en dos clases.
Supongamos también un conjunto de etiquetas yi = {−1, 1} para cada clase en el con-
junto P, es decir, todos los puntos que se encuentren de un lado del hiperplano, serán clasifi-
cados con la etiqueta −1 y los puntos que queden del lado contrario, con la etiqueta 1, dicho
hiperplano se denominará frontera de decisión.
Capítulo 2. Conceptos básicos 10
FIGURA 2.3: Conjunto P ∈ R2 linealmente separable
Sabemos que existen una infinidad de planos que pueden clasificar nuestro conjunto de
puntos.
W1
W2 W3
FIGURA 2.4: Algunos hiperplanos para clasificar P ∈ R2
Considérese al perceptrón como la unidad básica de clasificación lineal, que puede repre-
sentarse gráficamente como se muestra en la siguiente figura:
Sea W un hiperplano en un espacio n-dimensional(si hablamos de un espacio de dos
dimensiones, dicho hiperplano sería una recta), con la siguiente ecuación:
WTX + W0 = 0
Capítulo 2. Conceptos básicos 11
xn
·
x3
x2
x1
∑ f
wn
·
w3
w2
w1
entradas
pesos
FIGURA 2.5: Representación gráfica de un perceptrón
Se busca que dicho hiperplano funcione como frontera de decisión, para el conjunto de
puntos que son linealmente separables.
Capítulo 2. Conceptos básicos 12
W
x1
x2
y
FIGURA 2.6: Puntos linealmente separables
−10 −8 −6 −4 −2 0 2 4 6 8 10−2
−1
0
1
2Funciones de activación (suaves)
SigmoideTangente hiperbólica
Softsign
Capítulo 2. Conceptos básicos 13
−10 −8 −6 −4 −2 0 2 4 6 8 10
0
2
4
6
Funciones de activación
SoftplusReLU
ReLU6ELU
14
Capítulo 3
Estado del arte
En este capítulo se hace una revisión de los elementos generales que dan origen a la
propuesta realizada en el presente trabajo, iniciando con los conceptos básicos que permiten
comprender aquellos más abstractos que se abordan más adelante.
3.1. Representación de las palabras
La representación de palabras es un problema de modelado de texto utilizando objetos
matemáticos. Existen dos formas principales para representar una palabra, la representación
1H (representación atómica), y la representación distribuida (word embeddings).
En la representación 1H, cada palabra tiene una representación discreta. Se construye un
vector con una dimensión que corresponda al vocabulario del corpus de interés, y cada com-
ponente del vector corresponde a la existencia de una palabra dentro de dicho corpus.
3.2. El modelo de espacio vectorial
El modelo de espacio vectorial(VSM1)) propuesto en el año de 1975(modelo que continúa
vigente)(Salton, Wong y Yang, 1975), inicialmente para la recuperación de información tex-
tual, buscaba que la representación de las palabras fuese general, es decir, independiente del
1Por sus siglas en inglés Vector Space Model
Capítulo 3. Estado del arte 15
lenguaje del que se tratara.
En este modelo, los documentos se representan como vectores de características, donde
las características corresponden a las diferentes palabras en la colección de documentos. Las
componentes de cada vector pueden ser binarias, indicando la presencia o ausencia de la
palabra, o también pueden ser podenradores fraccionarios, indicando la relativa importancia
de la palabra dentro del documento.
3.3. Representación distribucional de palabras
Uno de los esfuerzos por entender y sistematizar el proceso del lenguaje humano fue el
denominado procesamiento estadístico de lenguaje natural (Manning y col., 1999), término
que hace referencia al trabajo no-simbólico y no lógico dentro del procesamiento de lenguaje
natural (PLN o NLP2). Esta forma de entender el lenguaje está basada en la hipótesis de
distribucionalidad, la cual establece de forma general que, los elementos lingüísticos con
distribución similar tienen significados similares (figura 3.1).
3.4. Representación distribuida de palabras
Actualmente, los algoritmos (mayormente empleados en el aprendizaje máquina) utili-
zan tanto como entrada y salida, datos en forma de vectores y/o matrices, debido a que el
manejo de estos elementos abstractos se encuentra firmemente sustentado en el Álgebra Li-
neal, razón por la cual, su manejo no resulta desconocido. En este sentido, la representación
distribuida de una palabra, puede entenderse de tal forma que, dicha palabra se encuentra
2Por sus siglas en inglés Natural Language Processing
Capítulo 3. Estado del arte 16
−4 −2 0 2 40
20
40
60
80
(A) ”tener” vs ”intención”d = −1.15, s = .067
−4 −2 0 2 40
20
40
60
80
(B) ”tener” vs ”sensación”d = −1.45 s = .067
FIGURA 3.1: Histogramas de frecuencia de la palabra ”tener” con relación a otraspalabras
distribuida a lo largo de múltiples dimensiones (componentes del vector o matriz). La repre-
sentación distribuida, permite que los algoritmos de aprendizaje tengan un mejor desempe-
ño al realizar las tareas propias del procesamiento de lenguaje natural.
3.5. Representación atómica de las palabras (1H)
Sea T una colección de textos con un vocabulario de tamaño V, y sea wn la n-ésima pala-
bra del vocabulario V, entonces, ∀wn ∈ V,
Capítulo 3. Estado del arte 17
wn =
x1,1
x2,1
x3,1
...
xn,1
...
xV,1
=
0
0
0...
1...
0
(3.1)
Esta representación es conocida como 1H 3, y de forma general, se trata de un vector de di-
mensión V, con valor cero en todas las componentes, excepto en aquella que corresponde a
la palabra, misma que tiene un valor igual a 1, esta forma de representación de texto es la
mas usual para la representación de palabras, sin embargo, existen algunos inconvenientes:
Si tenemos un vocabulario V demasiado grande 4 (por ejemplo en inglés hay un estimado
de 13 millones de tokens), lo cual implicaría el procesamiento de vectores de 13 millones de
componentes. Como un ejemplo, consideremos la siguiente oración
”No hay mal que dure cien años.”
La representación 1H para cada palabra, sería de la siguiente forma:
No:[
1 0 0 0 0 0 0
]
hay:[
0 1 0 0 0 0 0
]
3Del inglés One-Hot.4Las palabras en un lenguaje no tienen un número fijo, pero es posible estimar las palabras que se usan de
forma regular (Baker, 2012).
Capítulo 3. Estado del arte 18
mal:[
0 0 1 0 0 0 0
]
que:[
0 0 0 1 0 0 0
]
dure:[
0 0 0 0 1 0 0
]
cien:[
0 0 0 0 0 1 0
]
años:[
0 0 0 0 0 0 1
]
Como puede suponerse, la representación 1H tiene algunas deficiencias fundamentales:
El costo computacional de procesar vectores con tantas componentes, es muy elevado.
No considera el contexto en el que se encuentran las palabras.
Dada una medida de similitud, todas las palabras tienen la misma distancia.
3.6. Word embeddings
3.6.1. Modelo de lenguaje neuronal probabilístico
El NLPM5, es una arquitectura propuesta en el año 2003 (Bengio y col., 2003), donde se
pretende abatir el problema de la dimensionalidad de las palabras, es decir la existencia de
secuencias de palabras en la etapa de prueba, que no son compatibles con las secuencias de
palabras utilizadas para el entrenamiento del modelo. Para ello se diseñó un aprendizaje ba-
sado en la representación distribuida de las palabras, lo cual, le permitiría al modelo, conocer
un número exponencial de secuencias semánticamente cercanas a cada palabra.
5Por sus siglas en inglés, Neural Probabilistic Language Model
Capítulo 3. Estado del arte 19
Un modelo estadístico de lenguaje, basado en la probabilidad condicional de que la pala-
bra t-ésima ocurra, dadas las anteriores palabras, se puede expresar de la siguiente forma:
P(wT1 ) =
T
∏t=1
P(wt|wt−11 )
donde: wji = (wi, wi+1, ..., wj−1, wj)
Para reducir la dificultad en este modelo, se utilizó el hecho de que la relativa cerca-
nía entre palabras en una secuencia dada, es estadísticamente dependiente, por lo tanto, se
construyen tablas de probabilidades condicionales para la palabra siguiente (wt), en un gran
número de contextos, es decir combinaciones de las anteriores (n-1) palabras, por lo que se
tiene:
P(wt|wt−11 ) ≈ P(wt|wt−1
t−n+1)
De forma general en este modelo se propone lo siguiente (figura:3.2):
1. Asociar con un vector de características (v ∈ Rn), cada palabra del vocabulario.
2. Expresar la probabilidad conjunta de secuencias de palabras, en términos de los vecto-
res de características de las palabras en la secuencia.
3. Aprender simultáneamente los vectores de características de las palabras y los paráme-
tros de la función de distribución.
3.6.2. El algoritmo Word2Vec
Como su nombre lo indica, este algoritmo transforma palabras en vectores utilizando dos
arquitecturas:
Arquitectura CBOW6
6Por sus siglas en inglés Continuos Bag of Words.
Capítulo 3. Estado del arte 20
. . . . . .mayor cómputo aquí
. . .tanh
C(wt−n+1) C(wt−n+1)C(wt−n+1)
índice para wt−n+1
. . .
índice para wt−2
. . .
índice para wt−1
. . .
i−ésima salida
Matriz Cparámetros compartidosentre palabras
FIGURA 3.2: Arquitectura neuronal: f (i, wt−1, ..., wt−n+1) =g(i, C(wt−1), ...C(wt−n+1)) donde g es la red neuronal y C(i) es el í-esimovector de características. Imagen tomada de (Bengio y col., 2003) y adaptada al
español
Arquitectura SkipGram.
Fue propuesto en el año 2013 (Mikolov y col., 2013) que está basado en el modelo de
lenguaje neuronal probabilístico.
3.6.3. La arquitectura CBOW
El objetivo de la arquitectura CBOW (bolsa de palabras continua), es, en su diseño simple,
predecir una palabra y = [y1, y2, y3, ..., yV ], dada una palabra contextual x = [x1, x2, x3, ..., xV ].
En este caso el objetivo del modelo es predecir una palabra objetivo dada una palabra de con-
texto (figura:3.3).
En este caso el vocabulario tiene tamaño V y la capa oculta tiene N neuronas, las unidades
adyacentes están completamente conectadas. La entrada es un vector de tipo 1H. Los pesos
Capítulo 3. Estado del arte 21
...
...
x1
x2
x3
xk
xv
WV xN = wki
...
...
h1
h2
hi
hN
...
...
y1
y2
y3
yj
yv
W ′NxV = w′ij
Capa de entrada Capa oculta Capa de salida
FIGURA 3.3: Arquitectura CBOW con una sola palabra de contexto
entre la capa de entrada y la capa oculta pueden representarse como la matriz WV×N, donde
cada fila de W es un vector N-dimensional (vw) que representa la palabra asociada a la capa
de entrada.
Formalmente, la fila i de W es vTw. Dada una palabra contextual, y asumiendo que xk = 1
y xk′ = 0 para k′ 6= k, se tiene que:
h = WTx = WTk,· := vT
wI (3.2)
que esencialmente es copiar la k-ésima fila de W en h. vTwI es la representación vectorial
de la palabra de entrada wI . Esto implica que la función de activación de las unidades de
la capa oculta es simplemente lineal (es decir, pasa directamente la suma ponderada de las
entradas a la siguiente capa).
Desde la capa oculta a la capa de salida, hay una matriz de pesos diferente W ′ = {w′ij},
que es una matriz N × V. Usando estos pesos, podemos calcular uj para cada palabra en el
vocabulario,
Capítulo 3. Estado del arte 22
uj = v′Twj
h (3.3)
donde v′wj es la j-ésima columna de la matriz W ′, entonces es posible aplicar la función de
activación softmax, como un modelo de clasificación log-linear, para obtener la distribución
a posteriori de las palabras, la cual es una distribución multinomial.
P(wj|wI) = yj =exp(uj)
∑Vj′=1 exp(uj′)
(3.4)
donde yj es la j-ésima unidad de la capa de salida. Sustituyendo (3.2) y (3.3) en (3.4), se
obtiene:
P(wj|wI) =exp(v
′Twj
vwI)
∑Vj′=1 exp(uj′)
En su modelo generalizado, el objetivo es predecir una palabra y = [y1, y2, y3, ..., yV ],
dadas C palabras contextuales, siendo y la palabra central; es decir, se tomanC2
palabras
antes yC2
palabras después de y (figura:3.4).
3.6.4. La arquitectura Skip-Gram
La arquitectura Skip-Gram es lo opuesto a la arquitectura CBOW, la palabra objetivo se
encuentra ahora como entrada y las palabras contextuales se encuentran en la capa de salida
(figura:3.5).
Capítulo 3. Estado del arte 23
...
...X1k
WV xN
...
...X2k
WV xN
...
...XCk
WV xN
...
...hi
...
...
W ′NxV
Capa de entrada
Capa oculta
Capa de salida
FIGURA 3.4: Modelo CBOW generalizado
Capítulo 3. Estado del arte 24
...
...y1k
W ′NxV
...
...y2k
W ′NxV
...
...
...
yCk
W ′NxV
C×V − dim
...
...hi
N − dim
...
...
xj WV xN
V − dim
Capa de salida
Capa oculta
Capa de entrada
FIGURA 3.5: Modelo SkipGram
25
Capítulo 4
Materiales y métodos
4.1. Modelo de desarrollo
En el presente trabajo se realizó bajo el esquema del modelo básico de desarrollo de un