2007-12-06 1 SZTUCZNE SIECI NEURONOWE Architektura – Typy – Przeznaczenie Procedury uczenia Zastosowania Literatura 1. J. śurada, M. Barski, W. Jędruch, Sztuczne sieci neuronowe, PWN 1996 2. R. Tadeusiewicz, Sieci neuronowe, AOW 1993 3. J. Korbicz, et al.., SSN, AOW 1994 4. R. Tadeusiewicz, Elementarne wprowadzenie do techniki sieci neuronowych, AOW 1998 Mózg/komputer – jak to działa? N L E V Metoda obliczeń Toleran cja na błędy Uc ze nie Inteligencja 10 14 synaps 10 -6 m 30 W 100 Hz Równoległa rozproszona TAK T A K zazwyczaj tak 10 8 tranzy- storów 10 -6 m 30 W (CPU) 10 9 Hz Szeregowa centralna NIE ? nie (narazie) MÓZG – WZORZEC DOSKONAŁY KOMPUTER – TWÓR DOSKONALONY SSN – niekonwencjonalne przetwarzanie • Programowanie • Działanie sekwencyjne • Pamięci ROM/RAM (algorytmy + dane) • Podatne na uszkodzenia • Wysoka PRECYZJA obliczeń • UCZENIE • RÓWNOLEGŁOŚĆ • ARCHITEKTURA + WAGI POŁĄCZEŃ • ODPORNE NA DEFEKTY • Obliczenia JAKOŚCIOWE
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
2007-12-06
1
SZTUCZNE SIECI NEURONOWE
Architektura – Typy – Przeznaczenie
Procedury uczenia
Zastosowania
Literatura1. J. śurada, M. Barski, W. Jędruch,
Sztuczne sieci neuronowe, PWN 1996
2. R. Tadeusiewicz, Sieci neuronowe,
AOW 1993
3. J. Korbicz, et al.., SSN, AOW 1994
4. R. Tadeusiewicz, Elementarne
wprowadzenie do techniki sieci
neuronowych, AOW 1998
Mózg/komputer – jak to działa?
N L E VMetoda obliczeń
Tolerancja na błędy
Uczenie
Inteligencja
1014 synaps 10-6m 30 W 100 HzRównoległarozproszona
• Uczenie nienadzorwane (korelacyjne) –reguła Hebba, reguła Oja, instar, outstar
• Uczenie konkurencyjne (WTA, WTM)
• Metody miękkiej selekcji – algorytmy genetyczne i symulowane odpręŜanie
Perceptron prosty (element perceptronowy (F. Rosenblatt): charakterystyka unipolarna lub bipolarna)
1x
2x
nx
Σ ( )eϕe y
1w
2w
nw
wektor wag w
sumatoraktywacjanieciągła
rozszerzony wektor wejść:
rozszerzony wektor wag:
θ−⋅=⋅==∑+
=
TT1
1
~~ xwxwn
i
iixwe
[ ]1,,...,,~21 −= nxxxx
[ ]θ,,...,,~21 nwww=w
θ-1
Co potrafi element perceptronowy?
Dla określonego wektora wag w perceptron ocenia „wysoko” te wejścia x, dla których kąt α z wektorem w jest mały, bo wówczas pobudzenie jest duŜe: w xT = cos(α) dla unormowanych wektorów wag i wejść
hiperpłaszczyzna dzieląca przestrzeń obrazów x na 2 półprzestrzenie decyzyjne:
y = 0 oraz y = 1
w xT - θ = 0x1
x2
wy = 1
y = 0
α
Co to znaczy uczyć sieć?
• Uczenie sieci to modyfikacja wag: tak, aby sygnał wejściowy x dawał na wyjściu sieci obraz poŜądany:
zamiast obrazu pierwotnego:
• Błąd uczenia:
ww ~→
( )T~ xw ⋅=ϕz
( )Txw ⋅=ϕy
yz −=δ
2007-12-06
6
1. Podaj wstępny wektor wag w(0), i = 1
2. Podaj wzorzec ui i wyznacz obraz yi (dla w(i-1))
3. Gdy obraz yi jest zgodny z poŜądanym zi => (5)
4. Gdy i yi = 0 => w(i) = w(i-1)+ η uiGdy i yi = 1 => w(i) = w(i-1) - η ui
5. i = i +1 => (1)
Reguła perceptronowa(algorytm uczenia z nadzorem)
0≠−= iii yzδ0≠−= iii yzδ
(1) Jak dobrać strategię prezentacji wzorców i wybór wag wstępnych?
warstwa ukryta: x’k = H(wk xT – θk) dzieli przestrzeń wejść k-razy na 2-półpłaszczyzny, więc cała warstwa ukryta dzieli ją na podzbiory, z których jeden jest wypukły – tu neurony są zapalone uk = 1
1x
2x
Σ
( )eϕv1
y
11w
21w
θ2-1
Σv2
Σ12w
22w
( )eϕ
( )eϕ
θ1-1
θ0-1
1-warstwowe klasyfikatory(minimalno-odległościowe maszyny liniowe)
gi(x)=(wi)T.xfunkcje decyzyjne
xw1
wR
++
+gR(x)
g2(x)
g1(x)selektor
maxklasa
ix
ix= j dla x∈Pj
Pj – wzorzec klasy j
wektor obrazu z przestrzeni wymiaru n
Cel: podział przestrzeni obrazów na obszary decyzyjne przynaleŜne kaŜdej klasie wzorców Pj (1≤ j ≤ R) wg. minimum odległości:
min ||x – Pi||2 = xTx – 2(PiT.x – Pi
T.Pi/2)
⇒⇒⇒⇒ wi =Pi oraz win+1= –Pi
TPi/2
sij: gi(x) - gj(x) = 0linie decyzyjne
Przykład: maszyna liniowa dla 3 klas(metoda analityczna)
P1
P2
P3x1
x2
obszar klasy 1
obszar klasy 2
obszar klasy 3
−
−=
=
=
4
8;
4
2;
2
8321 PPPwzorce:
funkcje dyskryminacyjne:
g1(x)=(w1)T.x = 8x1+2x2 - 34
g2(x)=(w2)T.x = 2x1+4x2 – 10
g1(x)=(w1)T.x = -8x1- 4x2 - 40
−
−
−
=
−
=
−
=
40
4
8
;
10
4
2
;
34
2
8321 www
s12 : 3x1 - x2 – 12 = 0
s13 : 8x1 + 3x2 + 3 = 0
s23 : 5x1 - 4x2 – 15 = 0
linie rozdzielające (hiperpłaszczyzny):
2007-12-06
7
Sieć klasyfikująca 3 obszary wg uczenia
x
w1
w3+
g3(x)+
g2(x)+
g1(x)
w2y2
y3
y1 rozproszone lub lokalne kodowanie klas
Uczenie dychotomizatora (2 klasy)
klasa 1: wT x1 > 0 (x1∈P1) oraz klasa 2: wT x2 < 0 (x2∈P2)
Zgodnie z regułą delta modyfikacje wag następują przez +/- ηxk :
gdzie „+” dla x1∈P1, a „-” dla x2∈P2
(aktywacja bipolarna - signum)
(aktywacja unipolarna – skok 0/1)
( ) ( ) ( ) k
kkkk yd xww 211 −±=+
( ) ( ) ( ) k
kkkk yd xww 1 −±=+
zakończenie procesu, gdy od pewnego czasu t modyfikacje zanikną:
Dla obrazu x3=(11-11-1-111-1) => yH,3 = [5/9 5/9] sieć nie rozstrzyga o klasyfikacji (!)
−−−−
−−=
111111111
111111111
2
1HW
−
−=
),(9
),(9
9
1)2(
)1(
,sxHD
sxHD
i
i
iHy
−
−=
1
1
41
41
MW dla 0< ε=1/4 <1/p( )( )k
MM
k
M f yWy 2)1( =+
Dla obrazu x1=(111111111) => yH,1 = [7/9 5/9] mamy rekurencyjnie aktywności:
=
−→
→
→
0
482.0
06.0
482.0
064.0
498.0
201.0
549.0
361.0
639.02222 ffff klasa 1 - U
Dla obrazu x2=(-1-1-1-1-1-1-1-1-1) => yH,2 = [2/9 4/9]
=
−→
→
358.0
0
358.0
076.0
361.0
014.0
389.0
111.0222 fff klasa 2 - T
Sieć Kohonena – grupowanie obrazów
Sieć 1-warstwowa + uczenie z rywalizacją, tzn. modyfikacji ulega wektor wag najbliŜszy danemu wzorcowi (wagi są normowane):
ipi
m wxwx ˆminˆ,...,2,1
−=−=
Po zakończeniu uczenia wektory wag wskazują środki cięŜkości wykrytych grup obrazów (ilość grup jest nieznana a priori) choć gęste wzorce ściągają wektory wag (wada) + kalibracja sieci
(2) Sumienie wg DeSieno � często wygrywający neuron zamiera
( )mm wxw ˆˆ −=∆ ηWarunek ten zapewnia reguła gwiazdy wejść:
2007-12-06
12
Sieć Kohonena – clustering/przykład
wagi początkowe
wagi końcowe
wzorce grup
Wagi końcowe osiągnięte w procesie uczenia sieci mogą być róŜne dla tych samych wzorców w zaleŜności od podanych wag początkowych: ich liczby i wartości
Sieć ART-1 – adaptacyjne grupowanie obrazów
Grossberg: sieci Madaline czy Perceptron są niestabilne w trakcie procesu uczenia, tzn. neuron raz nauczony rozpoznawania wzorca w1 moŜe w trakcie dalszej nauki przestawić się na rozpoznanie innego wzorca w2. Sieć staje się nieprzewidywalna.
Grossberg: sieć ucząca się bez nadzoru ale z podaniem sygnałów wyjściowych znów na wejścia, tak aby „zwycięski” neuron wzmacniał swoje własne pobudzenie powinna być stabilna –zasada wzbudzenia rezonansumiędzy warstwami We-Wy
Zasada adaptacji: pierwszy wzorzec tworzy pierwszą grupę, wzorce kolejne są dołączane do istniejącej grupy lub tworzą nową grupę reprezentowaną przez kolejny „wolny” neuron
1. Podaj próg czułości: 0 < r < 1; wagi wij = 1/(1 + n) oraz vij=1
2. Podaj obraz binarny i oblicz miary dopasowania yj= (x, Wj)
3. Wybierz dopasowaną kategorię ym= max(yj) dla j = 1,2,...,M
4. Wykonaj test podobieństwa dla neuronu m-tego:
pm = (x, Vm)/(x, 1) > r If (~4): ym = 0 =>(3) lub nowa grupa
5. IF (4) => skoryguj wagi wg. Relacji
vim(k+1) = vim(t) xi & wim = vim(k+1)/{0.5+(x, Vm)}
Vj jako „czarny” „bieleje” w trakcie uczenia - nieodwracalnie
6. => (2)
2007-12-06
13
Sieć ART-1 – wady działania
1. Prymitywny test podobieństwa nie jest w stanie rozróŜnić (tzn. poprawnie sklasyfikować) zaszumionych wzorców
2. obniŜanie progu czułości poniŜej granicznej wartości zaburzy klasyfikacje oryginałów – zbuduje mniejszą liczbę klas
3. Aby zapamiętać i odtwarzać kolejne wzorce gdy brak juŜ wolnych neuronów do klasyfikacji naleŜy uŜyć schematów bardziej złoŜonych (Pao, Addison-Wesley, 1989 – sieci Pao)
4. Architektura sieci ART jest nieefektywna z racji liczby wag
5. Mała pojemność
Sieci pamięci skojarzeniowej – pamięci adresowane zawartością, wyszukiwanie informacji, analiza mowy
• sieć Hintona (najprostsza statyczna pamięć jednowarstwowa)
• 2-kierunkowa sieć BAM (Bidirectional Associativ Memory)
• sieć Hopfielda (optymalizacje kombinatoryczne, rozpoznawanie obrazu, analiza procesów chaotycznych,„rozwiązanie” problemu komiwojaŜera, automatyka adaptacyjna – filtry Kalmana)
Rola wzorców ortogonalnych i liniowo niezaleŜnych – pamięć absolutna
Sieć Hintona – 1-warstwowa pamięć asocjacyjna
Proces zapisu = reguła Hebba z wagami w(0) = 0
wij(k) = wij
(k-1) + fi(k) sj(k) dla s(k) = [sj] � f (k) = [fi]
s(k) f (k)
Sieć interpolacyjna (nie progowa) heteroasocjacyjna idealna dla wzorców ortogonalnych i niezaleŜnych liniowo
Sieć BAM – 2-warstwowa pamięć 2-kierunkowa
Proces zapisu = reguła Hebba z wagami w(0) = 0, η =1
wij(k) = wij
(k-1) + fi(k) sj(k) dla s(k) = [sj] � f (k) = [fi]
Wnm
Wmn
sj(k) fj
(k) Energia sieci:
E(s, f) = -sTWf
dąŜy do minimum globalnego
2007-12-06
14
Sieć Hopfielda – asynchroniczna 1-warstwowa pamięć rekurencyjna (hetero/autoasocjacyjna)
Proces zapisu = reguła Hebba z wagami wii = 0, η = ?
wij(k) = wij
(k-1) + fi(k) sj(k) dla s(k) = [sj] � f (k) = [fi]