Top Banner
DL research trends based on AAAI 2016 proceedings
25

Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Feb 13, 2017

Download

Science

Mail.Ru Group
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

DL research trendsbased on AAAI 2016 proceedings

Page 2: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Attention & Memory

Ilya Sutskever, Research Director at OpenAI

Page 3: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Problem - limited memory for sequences

Source: WildML blog post

Page 4: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Solution - use direct weighted connections

Source: WildML blog post

Page 5: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Text attention - better long-term memory

Source: Karl Moritz Hermann et al, arXiv

Page 6: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Text attention - better translation

Source: Dzmitry Bahdanau et al, arXiv

Page 7: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Text attention - better Q&A

Source: Ming Tan et al, arXiv

Page 8: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Memory - Context + Q&A

Source: Sainbayar Sukhbaatar et al, arXiv

Page 9: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Visual Attention - better cap generation

Source: Kelvin Xu et al, arXiv

Page 10: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Adversarial Networks

Page 11: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Problem - MCMC-based sampling is hard● Backprop is good, but it requires direct feedback / gradient● Hard to train anything non-backprop

Source: Deep Learning Book

Page 12: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Solution - 2-players game

Sources: Torch blog post

1. Take samples from original distribution

2. Generative model tries to create new images

3. Discriminative model tries to distinguish between them

Page 13: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Solution - 2-players game

Source: Ian J. Goodfellow et al., arXiv

Page 14: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

After 1 training epoch

Source: Alec Radford et al., arXiv

Page 15: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

After 5 training epochs

Source: Alec Radford et al., arXiv

Page 16: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Smooth transitions in latent space

Sources: Torch blog post

Page 17: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Vector arithmetic for visual concepts

Source: Alec Radford et al., arXiv

Page 18: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Conditional Generative Adversarial Nets

Source: Mehdi Mirza et al., arXiv

Page 19: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Char-level text comprehension

Page 20: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Problem - word-level models ignores chars

● Word-level models cannot gracefully deal with new words

● Every new form of word is a new embedding to learn (unless stemmed or lemmatized)

● Char-level LSTMs are having difficulties learning high-level features (sentences, meaning, etc)

Page 21: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Solution - CharCNN (n-grams in core)

Sources: Rafal Jozefowicz et al, arXiv Yoon Kim et al, arXiv

Page 22: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Out-of-vocabulary examples

Source: Yoon Kim et al, arXiv

Page 23: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Char-level text comprehensionOn 7th of February 2016 Google sets a new record in language modeling, beating the previous best result by 41.5% in terms of perplexity

Key tricks:● Very large network● Importance Sampling● Char-level CNNs

Source: Rafal Jozefowicz et al, arXiv

Page 24: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Why perplexity matters?

Perplexity is a technical metric used to evaluate general language modeling algorithms.

But it influences all language tasks:● Better grammar checking● Better machine translation● Better text-generation from chatbot● Better document compression

Source: Coursera, Stanford NLP

Page 25: Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования глубокого обучения»

Questions?