Машинное обучение, часть 1, осень 2016: Нейронные сети II

Нейронные сетисовсем чуть-чуть

И. Куралёнок, Н. Поваров

Яндекс

СПб, 2016

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 1 из 28

Постановка задачи обучения

С построением фичей: повесим на клиента датчикиНаша цель повесить датчики правильно, зная какуюинформацию мы хотим получить.Похоже на glass box

Без построения фичей: льется поток неведомыхданныхХотим выделить сигналы, имеющие отношение кискомомуПохоже на black box


ПримерПо дороге Пенза-Копейск ездят автомобили. Народ на обочинехочет с них получить доход.

В.П. Гаврилов — работник заправки, для него главное:

Машина дорогая

Машина чистая

Водитель не бугай

etc.

Э.С. Светлакова — продавец картошки/рыбы/воздушных змеев:

Машина семейная

Едет в направлении города

Едет не очень быстро

Никого не обгоняет

etc.

Вот наша сетка и решает кем ей в этой жизни стать, и какие параметрыважны :).


ПримерПо дороге Пенза-Копейск ездят автомобили. Народ на обочинехочет с них получить доход.В.П. Гаврилов — работник заправки, для него главное:




etc.






etc.







etc.






etc.







etc.






etc.



Немного рассуждений

А можно ли одновременно оптимизировать ивыделение полезной информации и обучение?

Ограничимся линейными моделями как в решающейфункции, так и в построении FE

Но так все сведется к линейной регрессии! Давайтедобавим какое-нибудь нелинейное преобразование

Если преобразование монотонное, то можно его длякрасоты применить и к результату

Дополним рекурсией и будем подбирать не одну функциюа несколько

⇒Понятно, что так писать не удобно.


Немного рассужденийА можно ли одновременно оптимизировать ивыделение полезной информации и обучение?


F =∑i

wi

(vTi x)









F =∑i

wig(vTi x)









F = g

(∑i

wig(vTi x))









Fi = g(wT

dig(Wd−1g(. . . g(W0x)))








Fi = g(wT

dig(Wd−1g(. . . g(W0x)))

⇒Понятно, что так писать не удобно.И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 4 из 28

Персептрон Розенблатта

Fi = g(wT

dig(Wd−1g(. . . g(W0x)))

Как можно видеть, система состоит из некоторого количестваблоков g(Wtu). Если блок 1, g = sign(x) и мы подбираем однуфункцию, то

это элементарный персептрон Розенблатта. Если блоков много,то сложный :).


Но на самом деле всебыло не так!

Искусственные нейронные сети (ИНС) — математическиемодели, а также их программные или аппаратные реализации,построенные по принципу организации и функционирования

биологических нейронных сетей — сетей нервных клеток живогоорганизма.


Но на самом деле всебыло не так!

Искусственные нейронные сети (ИНС) — математическиемодели, а также их программные или аппаратные реализации,построенные по принципу организации и функционирования

биологических нейронных сетей — сетей нервных клеток живогоорганизма.


Нейрон I


Нейрон II


Примеры приложений

Предсказание финансовых временных рядовПсиходиагностикаХемоинформатикаНейроуправлениеЭкономика


Карго I


Карго II


Карго III


Карго IV


Немного истории

1 McCulloch, Pitts. “A Logical Calculus of IdeasImmanent in Nervous Activity”. 1943

2 “Кибернетическая модель мозга” 19573 ЭВМ Mark I 19604 Minsky, Papert “Perceptrons: an introduction to

computational geometry” 19695 ЭВМ Mark III 19856 Google Brain vs. Котики 2011 (Andrew Ng and co.)7 Krizhevsky, A., Sutskever, I. and Hinton, G. E.

“ImageNet Classification with Deep ConvolutionalNeural Networks” 2012


Отличия от машин фон Неймана

Массовый параллелизм;Распределённое представление информации ивычисленияСпособность к обучению и обобщениюАдаптивностьСвойство контекстуальной обработки информацииТолерантность к ошибкамНизкое энергопотребление


Типы нейро компьютеров


Виды нейронных сетей

По числу слоев:ОднослойныеДвухслойныеМногослойные

По способу взаимодействия нейронов:C обратной связьюБез обратной связиПо нескольким соседям


Известные типы сетей

Персептронные сетиАссоциативная памятьSOMetc.


Персептрон Розенблатта

Fi = g(wT

dig(Wd−1g(. . . g(W0x)))

Как можно видеть, система состоит из некоторого количестваблоков g(Wtu). Если блок 1, g = sign(x) и мы подбираем однуфункцию, то

это элементарный персептрон Розенблатта. Если блоков много,то сложный :).Без обратной связи, многослойная


Обучение персептронной сетиОбратное распространение ошибки в случае MSE

С sign работать тяжело, поэтому возьмем g поглаже:

T = −12

∑k(yk − ok)2

g(u) = 11+e−2αu

∆wi ,j = η ∂T∂wi,j


Обратное распространение ошибки вслучае MSEПоследний слой

Sj =∑

i wi ,jxi∂T∂wi,j

= ∂T∂Sj

∂Sj∂wi,j

= xi∂T∂Sj

∂T∂Sj

= ∂T∂oj

∂oj∂Sj

= ... = −2αoj(1− oj)(yj − oj)


Обратное распространение ошибки вслучае MSEНе последний слой

∂T∂Sj

=∑

k∂T∂Sk

∂Sj∂wi,j

= xi∂T∂Sj

∂Sk∂Sj

= ∂Sk∂oj

∂oj∂Sj

= ... = −2αwj ,koj(1− oj)


Обратное распространение ошибки вслучае MSEИтого

Для последнего слоя:

δj = −2αoj(1− oj)(yj − oj)

Для внутреннего слоя:

δj = −2αoj(1− oj)∑k

(δkwj ,k)

Для всех:∆wi ,j = ηδjoi


Сети ХопфилдаАвто-ассоциативная память

Подадим сигнал на входы x = {−1, 1}n

Подождем пока они по закону x t+1 = −1sign(Wx t−θ)

Узнаем какие код решения

С обратной связью, однослойнаяИ. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 24 из 28

Обучение сетей Хопфилда

На самом деле, мы знаем куда это добро сойдется, если податьзаданный сигнал x

arg minu0=x

1E (u) = arg minu0=x−12uTWu + θTu

мы дойдем до локального минимума, которых может бытьмного в зависимости от W . Если:

W =1m

m∑k=1

xkxTk

то минимумы будут именно в этих точках.

1При фиксированной выше процедуре оптимизации (конвергенции),которая даже сходится в асинхронном случае


Свойства сетей Хопфилда

Не думают, а скорее реализуют адаптивнуюфункцию ближайшего соседаСходятся, имеют эффективную параллельнуюреализациюМогут работать долго и в результате дать“химеру”


Как ту же идею заставить “думать”Bolzmann machine

Немного поменяем как все это добро работает: сделаем значения в нодахиз {0, 1}, договоримся о 0-х на диагонали W . Будем надеяться, чтосостояния системы распределены по Больцману:

p(s|W , θ) ∼ esTWs+θT s

kT

Тогда веса W и θ мы можем исходя из близости этого распределения итого, которое хотим получить:

argminW ,θ

∑s

p(s|X )logp(s|X )

p(s|W )

Отдельно рассматривают ограничение на связи внутри думающего (hidden)уровня, такое называют RBM.С обратной связью, двухслойная


Что мы сегодня узнали

Можно решать задачи обучения в комплексеЕсть прямые аналогии в биологии и этимпробовали пользоваться ⇒ культ каргоЭто сложно (получается при большой удаче) и дляэтого есть специальный языкЕсть разные принципы построениявзаимодействия внутри сетиПрирода все равно без датчиков не живет


Машинное обучение, часть 1, осень 2016: Нейронные сети II

Documents