Top Banner
Tanulás az idegrendszerben Structure – Dynamics – Implementation – Algorithm – Computation - Function
49

Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

May 24, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Tanulás az idegrendszerben

Structure – Dynamics – Implementation – Algorithm – Computation - Function

Page 2: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Tanulás pszichológiai szinten● Classical conditioning

● Hebb ötlete:"Ha az A sejt axonja elég közel van a B sejthez, és ismétlõdõen vagy folyamatosan hozzájárul annak tüzeléséhez, akkor valamely, egyik vagy mindkét sejtre jellemzõ növekedési folyamat vagy metabolikus változás következménye az lesz, hogy az A sejt hatékonysága a B sejt tüzeléséhez való hozzájárulás szempontjából megnõ."

Page 3: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

A tanulás problémája matematikailag

● Modell paramétereinek hangolása adatok alapján

● Kettős dinamika● Változók (bemenet-kimenet leképezés) - gyors● Paraméterek - lassú

● Memória és tanulás különbsége● Memória használatánál a bemenetre egy konkrét kimenetet

szeretnék kapni a reprezentáció megváltoztatása nélkül● Tanulásnál minden bemenetet felhasználok arra, hogy finomítsam

a reprezentációt, miközben kimenetet is generálok

● Alapvető cél: predikciót adni a jövőbeli történésekre a múlt alapján

Page 4: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

A tanulás alapvető típusai

● Felügyelt● Az adat: bemenet-kimenet párok halmaza● A cél: függvényapproximáció, klasszifikáció

● Megerősítéses● Az adat: állapotmegfigyelések és jutalmak● A cél: optimális stratégia a jutalom

maximalizálására

● Nem felügyelt, reprezentációs● Az adat: bemenetek halmaza● A cél: az adat optimális reprezentációjának

megtalálása / magyarázó modell felírása

● Egymásba ágyazások

Page 5: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Perceptron

● Bináris neuron: lineáris szeparáció● Két dimenzióban a szeparációs egyenes:

● Logikai függvények

= x1 w1 x2 w2 x2=−w1

w2

x1

w2

Page 6: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Tanulásra alkalmas neurális rendszerek

● Egyetlen sejt● Előrecsatolt hálózat● Rekurrens hálózat● Ezen az órán: rátamodell

● Paraméterek: súlyok, küszöbök● Különböző kimeneti nemlinearitások

– Lépcső: H (Heavyside)– Szigmoid: – Lineáris neuron

y=f (xw−θ)

Tanulásra alkalmas neurális rendszerek

Page 7: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Error-correcting tanulási szabályok

● Felhasználjuk azt az információt, hogy milyen messze van a céltól a rendszer

● Rosenblatt-algoritmus – bináris neuron

● Delta-szabály● Folytonos kimenetű neuron – gradiens-módszer

lineáris neuronra, egy pontpárra vonatkozó közelítéssel:

● Minsky-paper 1969: a neurális rendszerek csak lineáris problémákat tudnak megoldani

w(t+1)=w(t )+ϵ(tm− y (xm

))xm

wb(t+1)=wb(t )−ϵ∂ E∂ wb

E=12 ∑m

Ns

( tm− y (xm))2 ∂ E∂wb

=−∑m

N s

(tm− y (xm)) xm

w(t+1)=w+ϵ( tm− y (xm

))xm

Page 8: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Error-correcting tanulási szabályok

Rosenblatt-algoritmus – bináris neuron

W1

W2 Θ

W1

W2

b1

Egy konstans 1 bemenet és a b=-Θ (bias) bevezetésével kitranszformáljuka küszöböt. A bias tanulása így ekvivalens egy kapcsolatsúly tanulásával.

y=H(w1+w

2­Θ) y=H(w

1+w

2+b)

Page 9: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Error-correcting tanulási szabályok

Rosenblatt-algoritmus – bináris neuronwwv m−v umum

Bemenet um

Elvárt kimenet:vm=1

Jó W

Rossz W

Bemenet um

Elvárt kimenet:vm=0

Rossz W

Jó W

Page 10: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Error-correcting tanulási szabályok

Rosenblatt-algoritmus – bináris neuronwwv m−v umum

Bemenet um

Elvárt kimenet:vm=1

Jó W

Rossz W

Bemenet um

Elvárt kimenet:vm=0

Rossz W

Megoldáskúp,Konvex probléma

Page 11: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Multi-Layer Perceptron

● Nemlineáris szeparáció ● regresszió ● egyenletesen sűrű l2-ben

egy rejtett réteggel● A reprezentációs

képességet a rejtett réteg növelésével tudjuk növelni

● Idegrendszerben – látórendszer ...

Page 12: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

What could be represented by a simple, one layered, feed forward network called perceptron?

Problem:The linearly inseparable functions are more numerous as the dimension

of the problem increases.

It is able to learn many functions,but there are some exceptionssuch as XOR.

Page 13: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

In two dimensions the problem can be transformed: this requires a two layered network

The weights and the thresholds appropriate to the XOR solution:

With this two layered network,all the two dimensionalBoolean-functions can be learned.

But in higher dimensions?

Page 14: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

A possible solution: increasing the embedding dimension

In three dimension the XOR problem is linearly separable. As the embedding dimension increases, the fraction of linearly inseparable

logical functions vanishes

Page 15: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Soft-max kimeneti réteg,valószínűségi eloszlások reprezentációjára

pi= y i=e

zi

T

∑ ezi

T

A softmax réteg a logisztikus függvény általánosítása több változóra:

A logisztikus függvény 0 és 1 közé képzi le az aktivációt:

y=f (z)=1

(1+e− z)

Nem lokális, a kimenet a softmax rétegMinden neuronjának bemenetétől függ,nem csak az adott neuronétól.

T: hőmérséklet paraméterT->inf: egyenletes eloszlást adT->0: konvergál a Max függvényhez

A deriváltja szépen viselkedik és lokális,Mint a logisztikus függvény esetében

∂ y i

∂ zi

= y i(1− y i)

Page 16: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Error backpropagation● Bemenet/aktiváció: z

● Elvárt kimenet: tn

● Aktuális kimenet: y

● A hibafüggvény parciális deriváltjai:

● Mivel gradiens-módszer, a hibafüggvény lokális minimumába fog konvergálni.

dydz

= y (1− y )

∂ E∂wbi

=∂ E∂ y

∂ y∂ z

∂ z∂ wbi

w i(t+1)=wi(t )+( y−t n) y (1− y ) xi

δ j= y j (1− y j)∑ w jq δq

z=xw+b

y=f (z)=1

(1+e− z)

∂ E∂ y

=t n− y (x)

∂ z∂w i

=x i

Page 17: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Lassú konvergencia a korrelált változók mentén

Probléma: Erősen korrelált változók esetén a gradiens gyakran/általábanmajdnem merőleges a minimum valódi irányára.

Lehetséges megoldások:

Momentum módszer,

Hessian mátrix

Hessian mentes optimalizátor

Konjugált Grádiensek

Adaptív lépésköz

Page 18: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Rekurrens Hálózatok

Lehetséges tanítási technikák

Hiba visszaterjesztés az időben

Echo state network

Long short term memory

Page 19: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Hebb's rule

When an axon of cell A is near enough to excite cellB, and repeatedly or consistently takes part in firingit, some growth process or metabolic change takespart in one or both cells such that A's efficiency, asone of cell firing B, is increased"(Hebb, The Organization of Behavior, 1949)

Page 20: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Hebb's rule in an experiment at population level

LTP – long term potentation LTD – long term depression

Page 21: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Idegrendszeri plaszticitás● A plaszticitás helye: szinapszisok, posztszinaptikus sejtek tüzelési küszöbei (excitabilitás)

● Potenciáció, depresszió

● STP: kalciumdinamika, transzmitterkimerüléstartam < 1 perc

● LTP: génexpresszió (induction, expression, maintenance), NMDA magnézium-blokkjatartam > 1 perc

● Korreláció a molekuláris és pszichológiai szint között

Page 22: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Rate-basedandspike-timedependentlearning rules

Page 23: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

A Hebb-szabály

● Timing-dependent plasticity:● Ha a posztszinaptikus neuron nagy frekvenciával közvetlenül

a preszinaptikus után tüzel, akkor erősödik a kapcsolat

● Az alacsony frekvenciájú tüzelés gyengíti a kapcsolatot

● Sok más lehetőség

● A Hebb-szabály formalizációja:

lineáris ráta-modellben

wd wdt

=v u

Page 24: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Stabilizált Hebb-szabályok

● Problémák a Hebb szabállyal: ● csak nőni tudnak a súlyok

● Nincs kompetíció a szinapszisok között – inputszelektivitás nem megvalósítható

● Egyszerű megoldás: felső korlát a súlyokra

● BCM: a posztszinaptikus excitabilitás felhasználása a stabilizásra

● Szinaptikus normalizáció● Szubsztraktív normalizáció

Globális szabály, de generál egyes megfigyelt mintázatokat (Ocular dominance)

● Oja-szabály

Lokális szabály, de nem generálja a megfigyelt mintázatokat

wd wdt

=v u v−u

d u

dt=v2

−u

wd wdt

=v u−v 1⋅u1

N u

wd wdt

=v u− v2u

Page 25: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Principal component analysis

Page 26: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Principal component network,derivation of Oja's rule:

Page 27: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

y=wTx=xTw

Δw=α(xy−y2w)

Δw=α(xxTw−wTxxTww)

Cw−wTCww=0

The Oja-rule and the pricipal component analysis

y outputx inputw weight matrix

Oja's rule

Substituting y:

Assuming mean(x)=0 & averaging over the input => xxT = C

The convergence point: Δw=0

wTCw is scalar!This is an eigenvector equation!

Δw=α(xy3−w)E modification for IndenpendentComponent analysis

If C=1

Page 28: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Independent component analysis (ICA)

Page 29: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Independent component analysis (ICA)

Page 30: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

The somatosensory map

Page 31: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Kohonen's self­organizing map

Winner take all

Page 32: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Kohonen's self­organizing mapGenerates feature maps Captures the structure in the inputs

Page 33: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Asszociatív memória

● Heteroasszociatív● pl. hely-objektum

● Autoasszociatív● Töredékes jelből az eredetit

● Különbség a számítógép memóriája és az AM között: címzés módja

● Kapacitás: hány mintát tudunk eltárolni úgy, hogy azok visszahívhatók legyenek (többféle definíció)

● Stabilitás: minden mintára a legközelebbi tárolt mintát szeretnénk visszakapni

Page 34: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Attraktorhálózatok

● Attraktorok típusai● Pont● Periodikus● Kaotikus

● Vonzási tartományok

● Realizáció: rekurrens neurális hálózatok

● Attraktorok tárolása: szinaptikus súlyokon● Offline tanulás● Online tanulás● One-shot learning

● Előhívás: konvergencia tetszőleges pontból egy fix pontba

Page 35: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

W. J. Freeman

Page 36: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Hopfield-hálózat

● Asszociatív memória

● Bináris MCP-neuronok

● Minták tárolása: bináris vektorok

● Szimmetrikus súlymátrix

● Dale's law: egy sejt nem lehet egyszerre serkentő és gátló – ezt most megsértjük

● Rekurrens (dominánsan) hálózatok az agyban: hippokampusz CA3 régió, ...● Offline learning

tanulandó minták: Hebbi szabály

● Léptetési szabályok: szinkron és szekvenciális

x t1=sgn Wx t− xkt+1

=sgn(∑i

KW ik x i

t−θk )

W ij=1N ∑n

Nsi

ns j

n{s1 sN }

Page 37: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

A HN dinamikája

● Nemlineáris rendszerek stabilitás-analízise: Lyapunov-függvény segítségével definiáljuk az állapotokhoz rendelhető energiát. Ha a függvény:

● Korlátos● Belátható, hogy a léptetési dinamika mindig csökkenti (növeli)

Akkor a rendszer minden bemenetre stabil fix pontba konvergál.

● Hopfield-hálózat Lyapunov-függvénye:

● Attraktorok az eltárolt mintáknál, de más helyeken is

● A HN használható kvadratikus alakra hozható problémák optimalizációjára is

E=−12

xTW x− x

Page 38: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

A HN kapacitása

● Információelméleti kapacitás● A tárolandó mintákat tekintsük Bernoulli-eloszlású változók halmazának

● Követeljük meg az egy valószínűségű konvergenciát

● Ekkor (sok közelítő lépéssel) megmutatható, hogy

● Összehasonlítás a CA3-mal● Kb. 200000 sejt, kb. 6000 minta tárolható

● Más becslések● figyelembevéve a minták ritkaságát

P sin=1=P s i

n=0 =0.5

lim n∞ P sa=sgn Wsa

=1 ∀ a=1 M

M ≈N

2 log 2 N

M ≈N1

log21P s i

n=1=

Page 39: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Boltzmann-gép

● Eloszlások reprezentációja – mennyiségek közti statisztikai összefüggések

● Sztochasztikus állapotátmenet

● A hálózat határeloszlása

Energia: Boltzmann-eloszlás:

I=WuMv P vat1

=1=1

1e− I a

E v =−vTWu

12

vTMv P v =

e−E v

∑ve−E v

Page 40: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Tanulás Boltzmann-géppel● Felügyelt tanulás, csak W-re, M analóg

● Hiba: Kullback-Leibler-divergencia a közelítendő és a megvalósított eloszlás között nem függ W-től

a -val súlyozott kimeneti összegzés helyett bemeneteke vett átlag:

● Gradient descent – egyetlen bemenetre

a Boltzmann-eloszlásból

● Delta-szabály – az összes lehetséges kimenetre való átlagot az aktuális értékkel közelítjük

Két fázis: hebbi anti-hebbi

● Nem felügyelt

DKL [ P v∣u , P v∣u , W ]=∑vP v∣u ln

P v∣u

P v∣u ,W

P v∣u

⟨ DKL⟩=−1

N s∑ ln P v

m∣um

, W−K

∂ ln P vm∣um ,W

∂W ij

=v im u j

m−∑vP v∣um , W v i u j

m

W ij W ijw v im u j

m−v i um u j

m

DKL[ P u , P u ,W ]

Page 41: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Tanulás Boltzmann-géppel● Felügyelt tanulás, csak W-re, M analóg

● Hiba: Kullback-Leibler-divergencia a közelítendő és a megvalósított eloszlás között nem függ W-től

a -val súlyozott kimeneti összegzés helyett bemeneteke vett átlag:

● Gradient descent – egyetlen bemenetre

a Boltzmann-eloszlásból

● Delta-szabály – az összes lehetséges kimenetre való átlagot az aktuális értékkel közelítjük

Két fázis: hebbi anti-hebbi

● Nem felügyelt

DKL [ P v∣u , P v∣u , W ]=∑vP v∣u ln

P v∣u

P v∣u ,W

P v∣u

⟨ DKL⟩=−1

N s∑ ln P v

m∣um

, W−K

∂ ln P vm∣um ,W

∂W ij

=v im u j

m−∑vP v∣um , W v i u j

m

W ij W ijw v im u j

m−v i um u j

m

DKL[ P u , P u ,W ]

Page 42: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Tanulás Boltzmann-géppel● Felügyelt tanulás, csak W-re, M analóg

● Hiba: Kullback-Leibler-divergencia a közelítendő és a megvalósított eloszlás között nem függ W-től

a -val súlyozott kimeneti összegzés helyett bemeneteke vett átlag:

● Gradient descent – egyetlen bemenetre

a Boltzmann-eloszlásból

● Delta-szabály – az összes lehetséges kimenetre való átlagot az aktuális értékkel közelítjük

Két fázis: hebbi anti-hebbi

● Nem felügyelt

DKL [ P v∣u , P v∣u , W ]=∑vP v∣u ln

P v∣u

P v∣u ,W

P v∣u

⟨ DKL⟩=−1

N s∑ ln P v

m∣um

, W−K

∂ ln P vm∣um ,W

∂W ij

=v im u j

m−∑vP v∣um , W v i u j

m

W ij W ijw v im u j

m−v i um u j

m

DKL[ P u , P u ,W ]

Page 43: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Tanulás Boltzmann-géppel● Felügyelt tanulás, csak W-re, M analóg

● Hiba: Kullback-Leibler-divergencia a közelítendő és a megvalósított eloszlás között nem függ W-től

a -val súlyozott kimeneti összegzés helyett bemeneteke vett átlag:

● Gradient descent – egyetlen bemenetre

a Boltzmann-eloszlásból

● Delta-szabály – az összes lehetséges kimenetre való átlagot az aktuális értékkel közelítjük

Két fázis: hebbi anti-hebbi

DKL [ P v∣u , P v∣u , W ]=∑vP v∣u ln

P v∣u

P v∣u ,W

P v∣u

⟨ DKL⟩=−1

N s∑ ln P v

m∣um

, W−K

∂ ln P vm∣um ,W

∂W ij

=v im u j

m−∑vP v∣um , W v i u j

m

W ij W ijw v im u j

m−v i um u j

m

Page 44: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Tanulás Boltzmann-géppel● Felügyelt tanulás, csak W-re, M analóg

● Hiba: Kullback-Leibler-divergencia a közelítendő és a megvalósított eloszlás között nem függ W-től

a -val súlyozott kimeneti összegzés helyett bemeneteke vett átlag:

● Gradient descent – egyetlen bemenetre

a Boltzmann-eloszlásból

● Delta-szabály – az összes lehetséges kimenetre való átlagot az aktuális értékkel közelítjük

Két fázis: hebbi anti-hebbi

● Nem felügyelt

DKL [ P v∣u , P v∣u , W ]=∑vP v∣u ln

P v∣u

P v∣u ,W

P v∣u

⟨ DKL⟩=−1

N s∑ ln P v

m∣um

, W−K

∂ ln P vm∣um ,W

∂W ij

=v im u j

m−∑vP v∣um , W v i u j

m

W ij W ijw v im u j

m−v i um u j

m

DKL[ P u , P u ,W ]

Page 45: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Megerősítéses tanulás

● Állapottér: a szenzorikus (vagy egyéb bemeneti) változók lehetséges értékeinek kombinációjából előálló halmaz

● Jutalomszignál: bizonyos állapotokban kapunk információt a cselekvésünk sikerességéről

● Cselekvés: a tanuló megvalósít egy állapotátmenetet (legalábbis megpróbálja)

● Cél: a jutalom hosszú távú maximalizálása

● Értékfüggvény: az egyes állapotokhoz rendelt hasznosság

● Értékfüggvény reprezentációja:● Táblázattal (machine learningben)

● Általános függvényapproximátorral – pl. előrecsatolt neurális hálózat

– Beágyazhatunk egy felügyelt rendszert a megerősítésesbe a háló tanítására

Page 46: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Temporal difference learning● Prediction error felhasználása a tanuláshoz

● Az állapotérték frissítése neurális reprezentációban:

● A prediction error kiszámítása● A teljes jövőbeli jutalom kellene hozzá ● Egylépéses lokális közelítést alkalmazunk

● Ha a környezet megfigyelhető, akkor az optimális stratégiához konvergál

● A hibát visszaterjeszthetjük a korábbi állapotokra is (hasonlóan a backpropagation algoritmushoz)

● Akciókiválasztás: exploration vs. exploitation

w w tu t− t =∑r t−v t

∑r t−v t ≈r t v t1

Page 47: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

TD tanulás neurális hálózattal

● Gerald Tesauro: TD-Gammon● Előrecsatolt hálózat● Bemenet: a lehetséges lépések

nyomán elért állapotok● Kimenet: állapotérték (nyerési valószínűség)

● Minden lépésben meg kell határozni a hálózat kimeneti hibáját

● Reward signal alapján

● Eredmény: a legjobb emberi játékosokkal összemérhető

Page 48: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

The effect of rewardin dopaminerg cell

of basal gangliaAn interpretation:

Dopamine cells signals the differencebetween the expected and receivedreward.

Page 49: Tanulás az idegrendszerben - KFKIcneuro.rmki.kfki.hu/sites/default/files/tanulas14_0.pdf · 2017-12-14 · Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha

Problémák tanulórendszerekben

● Bias-variance dilemma● Strukturális hiba: a modell optimális paraméterekkel is eltérhet a

közelítő függvénytől (pl lineáris modellt illesztünk köbös adatra)● Közelítési hiba: a paraméterek pontos hangolásához végtelen

tanítópontra lehet szükség

● Pontosság vs. általánosítás● A sokparaméteres modellek

jól illeszkednek, de rosszul általánosítanak: túlillesztés

● A magyarázó képességük is kisebb (lehet): Ockham borotvája