Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti Word Embedding e word2vec: Introduzione ed Esperimenti Preliminari Luca Baronti [email protected]July 30, 2015 Luca Baronti Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
17
Embed
Word Embedding e word2vec: Introduzione ed Esperimenti Preliminari
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Questa tecnica fornisce uno strumento per creare collezioni di concettisimili in modo automatico, su testi raw e senza competenze linguisticheavanzate da parte dell’utente
ma...
per ottenere buone performance, necessita di testi molto grandi infase di apprendimento;
i testi devono comprendere il maggior numero di vocaboli possibili;
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
Per gli esperimenti e stato usato un corpus costituito da una serie di frasiinglesi (≈17M di parole) a cui e stata rimossa qualsiasi punteggiatura.
anarchism originated as a term of abuse first used against earlyworking class radicals including the diggers of the english revolutionand the sans culottes of the french revolution ...
Su questo e stato eseguito un training di word2vec, durante il quale:
(preprocessing) sono state riconosciute ed unite le multiword:
new york→ new york
e stata addestrata la rete neurale in modo che implementi la funzione diconversione f (w) basandosi sul contesto della parola w rispetto al testofornito;
sono stati generati dei clusters che racchiudono le parolepiu simili (vicine nello spazio Rn) tra loro;
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
Dato che le parole vengono convertite in vettori, e che su questi vieneimplicitamente generata una metrica, e possibile derivare in modoalgebrico dei concetti nuovi, a partire da concetti noti.
S (f (king) − f (man) + f (woman))queen 0.29
empress 0.28prince 0.27
son 0.27heir 0.27
throne 0.27monarch 0.27
wife 0.27emperor 0.27aragon 0.27
S (f (daughter) − f (woman) + f (man))son 0.25
princess 0.24grandson 0.24consort 0.24nephew 0.24
grandfather 0.24eldest son 0.24
niece 0.23cousin 0.23brother 0.23
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
Dato che i clusters sono insiemi di punti, e possibile calcolare i lorocentroidi e valutare la distanza tra loro.Gli esperimenti eseguiti sul testo di esempio, hanno rilevato i seguenticlusters come i piu vicini:
Il sistema lascia aperte alcune possibilita per affinamenti:
In tutti i linguaggi esistono delle parole usate per dare struttura allafrase senza un significato semantico proprio (congiunzioni, ma nonsolo);
Queste parole, chiamate stop words, sono comunque processate daword2vec generando potenzialmente del noise;
Usando un dizionario contenente le stop words specifiche dellinguaggio analizzato e possibile identificare i clusters che lecontengono;
Risultati
Dei 100 clusters prodotti nei nostri esperimenti, abbiamo rilevato173 stop word in appena 24 clusters, segno di una dispersionelimitata di questo tipo di parole, da parte del modello, sui clusters.
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
Homepage del progetto google: https://code.google.com/p/word2vec/
Un esempio di applicazione di word2vec agli emoji:http://sentimentsymposium.com/SS2015/presentations/16July-ThursdayPM/33-Dimson-SAS15-16PM.pdf
Letteratura di riferimento:
Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. EfficientEstimation of Word Representations in Vector Space. In Proceedingsof Workshop at ICLR, 2013;Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and JeffreyDean. Distributed Representations of Words and Phrases and theirCompositionality. In Proceedings of NIPS, 2013;Tomas Mikolov, Wen-tau Yih, and Geoffrey Zweig. LinguisticRegularities in Continuous Space Word Representations. InProceedings of NAACL HLT, 2013;
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari