Top Banner
Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation Yupeng Guo 1
38

Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Aug 29, 2019

Download

Documents

ngodien
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Learning Phrase Representationsusing RNN Encoder–Decoder for Statistical Machine Translation

Yupeng Guo

1

Page 2: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Agenda· Introduction· RNN Encoder-Decoder- Recurrent Neural Networks- RNN Encoder–Decoder- Hidden Unit that Adaptively Remembers and Forgets

· Statistical Machine Translation- Definition and examples of SMT- Scoring Phrase Pairs with RNN Encoder–Decoder

· Experiments- Data and Baseline System- Quantitative Analysis- Qualitative Analysis- Word and Phrase Representations

· Conclusion & Outlook2

Page 3: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Einleitung1.Von Deep neural networks zu SMT (Statistical Machine Translation). 2.RNN Encoder–Decoder in Phrase-based SMT system.

Recurrent neural network(RNN)

Encoder

Recurrent neural network(RNN)

Decoder

variable-length source sequence -> fixed-length vector -> variable-length target sequence

hidden unit

3

Page 4: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Agenda· Introduction· RNN Encoder-Decoder- Recurrent Neural Networks- RNN Encoder–Decoder- Hidden Unit that Adaptively Remembers and Forgets

· Statistical Machine Translation- Definition and examples of SMT- Scoring Phrase Pairs with RNN Encoder–Decoder

· Experiments- Data and Baseline System- Quantitative Analysis- Qualitative Analysis- Word and Phrase Representations

· Conclusion & Outlook4

Page 5: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

RNN Encoder-DecoderVorläufig: Recurrent Neural Networks

Ein RNN ist ein neuronales Netzwerk, das aus einem “hidden state” hund einem optionalen Ausgang y besteht, der auf einer “variable-length sequence Eingang” x = (x1,..., XT) operiert.

5

𝑿 = ( X1 , … , X𝒕)Input hidden unit

𝒀 = ( 𝒀1 , … , 𝒀𝒕)Output

Page 6: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

6

Recurrent Neural Networks

Input Layer

Hidden Layer

Output Layer

𝑋1 𝑋2 𝑋𝑡···

ℎ1 ℎ2 ℎ𝑡···

𝑌1 𝑌2 𝑌𝑡···

Page 7: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

7

Recurrent Neural Networks

Input Layer

Hidden Layer

Output Layer

𝑋1 𝑋2 𝑋𝑡···

ℎ1 ℎ2 ℎ𝑡···

𝑌1 𝑌2 𝑌𝑡···

Page 8: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Gl.(1)

Gl.(2)

8

RNN Encoder-Decoder

Page 9: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Und ähnlich, die bedingte Verteilung des nächsten Symbols ist

RNN Encoder-Decoder

9

Page 10: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

RNN Encoder-Decoder

Sobald der RNN Encoder-Decoder trainiert ist, kann das Modell auf zwei Arten verwendet werden.1. Das Modell kann verwendet werden, um eine Zielsequenz bei einer

gegebenen Eingabesequenz zu erzeugen.2. Das Modell kann verwendet werden, um ein gegebenes Paar von

Eingabe- und Ausgabesequenzen zu bewerten, wobei die Bewertung einfach eine Wahrscheinlichkeit pθ ist.

10

Page 11: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Hidden Unit that Adaptively Remembers and Forgets

11

ℎ𝑡

Page 12: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

12

Hidden Unit that Adaptively Remembers and Forgets

Page 13: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

13

Hidden Unit that Adaptively Remembers and Forgets

Page 14: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Hidden Unit that Adaptively Remembers and Forgets

frequently active

mostly active

14

kurzfristige Abhängigkeiten zu erfassen

längerfristige Abhängigkeiten erfassen

Page 15: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Agenda· Introduction· RNN Encoder-Decoder- Recurrent Neural Networks- RNN Encoder–Decoder- Hidden Unit that Adaptively Remembers and Forgets

· Statistical Machine Translation- Definition and examples of SMT- Scoring Phrase Pairs with RNN Encoder–Decoder

· Experiments- Data and Baseline System- Quantitative Analysis- Qualitative Analysis- Word and Phrase Representations

· Conclusion & Outlook15

Page 16: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Statistical Machine Translation

Bsp. Phrase-based SMT (alignment)

16

- Statistische Analyse des Parallelkorpus- Konstruieren des statistischen Ü bersetzungsmodells- Wort, Phrase, Syntax - basierte Ü bersetzung

Page 17: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Statistical Machine Translation

17

Ü bersetzungswahrscheinlichkeitenfür “matching” Phrasen in den Quell- und ZielsätzenTranslation model, (Koehn et al., 2003) (Marcu and Wong, 2002)

Eine Wahrscheinlichkeitsverteilung über Sequenzen von WörternLanguage model, (Koehn, 2005)

𝑓 Ü bersetzungen𝑒 Quellsatz

Ziel: Ü bersetzungsqualität zu maximieren

Page 18: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Scoring Phrase Pairs with RNN Encoder–Decoder

train the RNN Encoder–Decoder- an einer Tabelle von Phrasenpaaren trainiert wurde- Die (normalisierten) Frequenzen jedes Phrasenpaars in den

ursprünglichen Korpora wurden ignoriert.- Sobald der RNN-Encoder-Decoder trainiert ist, wird eine neue

Bewertung für jedes Phrasenpaar zu der existierenden Phrasentabelle hinzugefügt.

18

Page 19: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Agenda· Introduction· RNN Encoder-Decoder- Recurrent Neural Networks- RNN Encoder–Decoder- Hidden Unit that Adaptively Remembers and Forgets

· Statistical Machine Translation- Definition and examples of SMT- Scoring Phrase Pairs with RNN Encoder–Decoder

· Experiments- Data and Baseline System- Quantitative Analysis- Qualitative Analysis- Word and Phrase Representations

· Conclusion & Outlook19

Page 20: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

ExperimenteDer Ansatz wurde auf der Englisch / Französisch-Ü bersetzungsaufgabe des WMT'14-Workshops evaluiert.

- zweisprachiges Korpora. - Europarl (61 Millionen Wörter)- Nachrichtenkommentare (5,5 Millionen)- UN (421 Millionen)- zwei „crawled“ Korpora von 90 Millionen Wörtern und 780 Millionen Wörtern.

20

Page 21: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Data and Baseline System

Alle Daten Schlechte Leistung, Sehr großes Modell

Lösungen (Datenauswahlverfahren): (Moore and Lewis, 2010), (Axelrod et al., 2011)

ein " baseline phrase-based SMT system " etablieren :

21

mehr als 2G Wörter418M WörternSprachmodellierung:

850M Wörter348M WörternTrainieren des RNN-En-Des:

Set für Datenauswahl ,Gewichtsabstimmung und Testset:(Jeder Set hat mehr als 70.000 Wörter und eine einzige Referenzübersetzung)

Newstest2012 Newstest2014Newstest2013

Page 22: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Zum Training der neuronalen Netze und RNN-Encoder-Decoder.- Die Quelle war begrenzt und zielte auf Vokabeln zu den häufigsten

15.000 Wörtern für Englisch und Französisch. Dies deckt ungefähr 93% des Datensatzes ab.

22

Datenauswahl in Training

Data and Baseline System

Page 23: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

RNN Encoder-Decoder in Training- 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol 𝑋<𝑡>

und hidden unit) wird mit zwei lower-rank Matrizen approximiert.- Rank-100 -Matrizen wurden verwendet, entspricht einer Einbettung

der Dimension 100 für jedes Wort.- Bei jedem Update wurden 64 zufällig ausgewählte Phrasenpaare

aus einer Phrasentabelle (die aus 348 Millionen Wörtern erstellt wurde) verwendet. Das Modell wurde für ca. 3 Tage trainiert.

23

Data and Baseline System

Page 24: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

traditioneller Ansatz,the SMT system using CSLM(näml. TM) (Schwenk, 2007)

der vorgeschlagene Ansatz,Scoring-Phrasen-Paaren durch

RNN Encoder-Decoder

Um die Effektivität zu beurteilen

24

Data and Baseline System

Der Vergleich wird klären, ob sich die Beiträge von mehreren neuronalen Netzen in verschiedenen Teilen des SMT-Systems addieren oder redundant sind.

Page 25: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Quantitative Analysis

Kombinationen: 1. Baseline configuration 2. Baseline + RNN3. Baseline + CSLM + RNN

25

Addieren, Nicht Redundant

Page 26: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Qualitative Analysis

Woher die Leistungsverbesserung kommt?

· Erwartet: - bessere Scores für die häufigen Phrasen- schlechte Scores für die seltenen Phrasen· Weitere erwartet:- ohne Frequenzinformation trainiert wurde

· Also achten wir auf:- Die Paare, deren Quellphrase lang ist (mehr als 3 Wörter pro

Quellphrase) und häufig ist.- Die Paare, deren Quellphrase im Korpus lang, aber selten ist.

26

Page 27: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

27

Qualitative Analysis

Page 28: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

RNN Encoder-Decoder ersetzen die ganze oder einen Teil der Phrasentabelle des „standard phrase-based SMT system” in der Zukunft?

28

Qualitative Analysis

Page 29: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Wort und Phrase Repräsentationen

RNN Encoder-Decoder projiziert eine Folge von Wörtern in einen kontinuierlichen Raumvektor und bildet sie dann zurück.

… 𝑦𝑛

… 𝑥𝑛 Input: Wörter / Phrasen

Output: Wörter / Phrasen

29

Page 30: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Wort Repräsentationen30

Page 31: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

31

Page 32: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Die Repräsentationen der Phrasen, die aus vier oder mehr Wörtern besteht.

32

Page 33: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

33

Syntaktischähnlich

(über die Dauer der Zeit)

Page 34: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

34

Semantischähnlich

Page 35: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

35

Syntaktischähnlich

Page 36: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Agenda· Introduction· RNN Encoder-Decoder- Recurrent Neural Networks- RNN Encoder–Decoder- Hidden Unit that Adaptively Remembers and Forgets

· Statistical Machine Translation- Definition and examples of SMT- Scoring Phrase Pairs with RNN Encoder–Decoder

· Experiments- Data and Baseline System- Quantitative Analysis- Qualitative Analysis- Word and Phrase Representations

· Conclusion & Outlook36

Page 37: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Zusammenfassung- RNN Encoder–Decoder Mapping von einer Sequenz beliebiger Länge zu einer anderen

Sequenz. Score & Generiere eine Zielsequenz.

- Hidden units Reset-gates und Update-gates enthält.

- Das neue Modell Gute Leistung und höhere BLEU-Score.

Ausblick- großes Potenzial, ersetzen die ganze der Phrasentabelle- zu anderen Anwendungen wie Sprachtranskription 37

Page 38: Learning Phrase Representations using RNN Encoder Decoder ... · RNN Encoder-Decoder in Training - 1000 versteckte Einheiten - Die Eingabe-/Ausgangsmatrix (zwischen jedem Eingabesymbol

Literatur- https://arxiv.org/pdf/1406.1078.pdf- https://en.wikipedia.org/wiki/Recurrent_neural_network- https://en.wikipedia.org/wiki/Nonlinear_system- https://en.wikipedia.org/wiki/Logistic_function- https://en.wikipedia.org/wiki/Statistical_machine_translation- https://en.wikipedia.org/wiki/Google_Translate- http://www.statmt.org/wpt05/mt-shared-task/- https://en.wikipedia.org/wiki/BLEU- https://en.wikipedia.org/wiki/Neural_machine_translation- http://statmt.org/wmt14/translation-task.html- https://www.quora.com/What-is-the-meaning-of-low-rank-matrix 38

Vielen Dank für Ihre Aufmerksamkeit!