B4-EPL604 - Adaline, Madaline, Perceptrons, MLP, LMS, … - Adaline... · Αυτές είναι τα Adaline, Madaline, Perceptrons και σταδιακά τα MLP.

1

Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD

Κώστας Νεοκλέους, PhDΤηλέφωνο Γραφείου: 22406391

Email: [email protected]

ΕΠΛ 604Τεχνητή Νοηµοσύνη*****************


Adaline, Madaline, MLP

Αλγόριθµος Ελαχίστων Μέσων ΤετραγώνωνLeast Mean Square Algorithm (LMS)

Αλγόριθµος Backpropagation

ΤΕΧΝΗΤΑ ΝΕΥΡΩΝΙΚΑ ∆ΙΚΤΥΑ

2


Γενικά

Στη σειρά αυτή θα δούµε µερικές από τις πιο βασικές αρχιτεκτονικές (ή τοπολογίες) τεχνητών νευρωνικών δικτύων που µπορούν να χρησιµοποιηθούν για τη δηµιουργία άλλων, πιο σύνθετων δοµών.

Αυτές είναι τα Adaline, Madaline, Perceptrons και σταδιακά τα MLP.

Τέτοιες αρχιτεκτονικές έχουν πολλές εφαρµογές όπως θα δούµε στη συνέχεια.


Είναι µια βασική δοµή ενός γραµµικού νευρώνα.

Είναι προσαρµοζόµενος (adaptive) γραµµικός συνδυαστής (simple adaptive linear combiner).

Οι πληροφορίες εισόδου και εξόδου είναι συνήθως σε ψηφιακή (δυαδική) µορφή.

ADALINE

3


∆οµή ενός απλού Adaline

x1(κ)

x2(κ)

.

.

.

xN(κ)

Στοιχείαεισόδου

x

w1(κ)

w2(κ)

wN(κ)

ΣυναπτικάΒάρη

Σ

w u = xTw

N

1 i i

iu x w

=

= ∑

όπου,

x ∈ ℜNx1

w ∈ ℜNx1

u ∈ ℜ


Το απλό µοντέλο Adaline µοιάζει µε το Finite Impulse Response Filter – FIR που χρησιµοποιείται στη ψηφιακή επεξεργασία σήµατος.

Μετά από κατάλληλη µάθηση – που γίνεται συνήθως µε αλγόριθµο LMS που θα δούµε αργότερα – το adaline µπορεί να χρησιµοποιηθεί για να αναγνωρίζει τα αρχικά σήµατα έστω και αν αυτά έχουν αλλοιωθεί ελαφρά.

ADALINE

4


Παράδειγµα εφαρµογής φίλτρου που προσαρµόστηκε µε µάθηση LMS:

ΦΙΛΤΡΟ 1 Καλό φιλτράρισµα

κ.ο.κ

ΦΙΛΤΡΟ 0.5 Ικανοποιητικό

φιλτράρισµα

ΦΙΛΤΡΟ 0 Απορριπτέο

φιλτράρισµα

Το σήµα εισόδου Η κατηγοριοποίηση

ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΓΙΑ ΦΙΛΤΡΑ


ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΓΙΑ ΦΙΛΤΡΑ

Τα φίλτρα µπορεί να είναι υλισµικά (physical hardware) ή υπολογιστικά (computer software).

Οι εργασίες που συνήθως κάνουν είναι:

Φιλτράρισµα (filtering) υπό την έννοια της απάλειψης θορύβου (noise) και άλλων µη-επιθυµητών παρεµβολών.

Βελτίωση (smoothening) που γίνεται συνήθως όταν έχουµε καλή γνώση των σχετικών διαδικασιών.

Χρονική πρόβλεψη (prediction).

5


1. Σε συστήµατα εντοπισµού στόχων µε ραντάρ (pulse radar tracking systems), το φίλτρο θα µπορούσε να κάνει, καθάρισµασήµατος (filtering), βελτίωση(smoothening) και πρόγνωση (prediction).

Τα φίλτρα µπορούν να κατηγοριοποιηθούν ως γραµµικά ή µη-γραµµικά.

2. ∆ιαχωρισµός ηλεκτροκαρδιογραφήµατος (ΗΚΓ, ΕCG) εγκύου από το ΗΚΓ του εµβρύου

ΜΕΡΙΚΑ ΠΑΡΑ∆ΕΙΓΜΑΤΑ ΕΦΑΡΜΟΓΗΣ ΦΙΛΤΡΩΝ


Παράδειγµα 3:Καθαρισµός ECG σήµατος από παρεµβολές Η/Μ πεδίου 50 Hz

Ηλεκτροκαρδιογράφος Ηλεκτροκαρδιογράφηµα µε παρεµβολές από το Η/Μ πεδίο των 50 Ηz

Παράδειγµα ΕΚΓ

6


ECG σήµα µετά τον καθαρισµό του από κατάλληλο φίλτρο:



Λεπτοµέρεια ECG σήµατος

Το αποτέλεσµα επετεύχθη µε µόνο δύο βάρη (w1 και w2) και µε τη χρήση αλγόριθµου LMS


7


Adaline

x1(κ)

x2(κ)

.

.

.

xN(κ)

w1(κ)

w2(κ)

wN(κ)

Σ

N

1 i i

iu x w

=

= ∑

Για επεξεργασία µε ψηφιακά σήµατα, συχνά χρησιµοποιούµε στην έξοδο περιοριστή (ή κβαντιστή, ή ψαλιδιστή, ή στοιχείο κατωφλίου) (threshold, quantizer, signum, hard limiter, Heavyside,) όπως πιο κάτω:

y = +1 ή -1

Κβαντιστής


AdalineΓενικά το Adaline - όπως και τα περισσότερα µονοκατευθυντικάτεχνητά νευρωνικά δίκτυα (feedforward neural networks) –πραγµατοποιούν µιαν αντιστοίχηση (mapping) από N στοιχεία εισόδου σε 1 στοιχείο εξόδου.

ℜΝ ℜ

Μετά που θα µάθει τα παραδείγµατα που το δόθηκαν, θα πρέπει να ελεγχθεί µε άγνωστες περιπτώσεις.

Εάν διακριβώνει σωστά µε ικανοποιητική πιθανότητα, τότε λέµε ότι έµαθε να γενικεύει (generalization).

8


Λίγη ξεκούραση !


Adalines σαν λογικές πύλεςΤα Adalines – µπορούν να χρησιµοποιηθούν σαν λογικές πύλες AND, OR, MAJ, NOT

Μαθηµατικά:

1 2

N

1 ( ) 1 - N , , ... ,

Ni

iy x x x x

=

= + = =

∑ AND( )sgn( )

+1 Εάν όλα τα xi = +1

-1 Εάν όχι

1 2

N

1 ( ) N - 1 , , ... ,

Ni

iy x x x x

=

= + = =

∑ OR( )sgn( )

+1 Εάν µερικά xi = +1

-1 Εάν όχι

9


Adalines σαν λογικές πύλες

1 2

N

1 , , ... ,

Ni

iy x x x x

=

= = =

∑ MAJ(sgn( ) )

+1 Εάν τα πλείστα xi = +1

-1 Εάν όχι

y x x = − = − =

NOn T(s ) )g (

+1 Εάν x = -1

-1 Εάν x = +1


Adalines σαν λογικές πύλεςΟι πύλες AND, OR, MAJ δείχνονται γραφικά µε adalines πιο κάτω:

x1(κ)

x2(κ)

.

.

.

xN(κ)

1

1

1

Σ

1 - Νx0(κ)=1

y = πύλη AND

AND

10



x1(κ)

x2(κ)

.

.

.

xN(κ)

1

1

1

Σ

Ν -1x0(κ)=1

y = πύλη OR

OR



x1(κ)

x2(κ)

.

.

.

xN(κ)

1

1

1

Σ

0x0(κ)=1

y = πύλη MAJ

MAJ

11


Adaline µε µη-γραµµικά στοιχεία εισόδου(Polynomial Discriminant Function – Specht, 1967)

w1

Σy

x1

x2

w2

w3

w4

w5[•]2

X

[•]2x1x2w3

Χρησιµοποιήθηκε για ανάλυση δεδοµένων ECG

Περιοριστής


Στις περιπτώσεις που τα σήµατα εισόδου δεν µπορούν να διαχωριστούν γραµµικά, τα απλά adaline αποτυγχάνουν να τα διαχωρίσουν.

Σε τέτοιες περιπτώσεις θα µπορούσαµε να χρησιµοποιήσουµε MADALINES (από το Multiple ADALINE) όπου πολλά adalines συνδέονται σε σειρά.

MADALINE

12


x1

x2

.

.

.

xN

Σ

Σ

Σ

…

Σ

Σ

y1 = sgn(u1)

y2 = sgn(u2)

Όπου για ευκρίνεια τα βάρη δεν δείχνονται

MADALINE


Τo απλό µονοεπίπεδο (single-layer) PERCEPTRON(Rosenblatt, 1950) είχε εξαιρετικά µεγάλη επίδραση στην ανάπτυξη των τεχνητών νευρωνικών δικτύων.

Μοιάζει πολύ µε το Adaline που είδαµε.

Ο Rosenblatt χρησιµοποίησε το απλό µοντέλο νευρώνων των McCuloch - Pitts (1947).

PERCEPTRON

13


Ο Rosenblatt χρησιµοποίησε το µοντέλο που ονόµασε Perceptron, στη προσπάθεια του να µελετήσει τη λειτουργία του οφθαλµού.

Απλό µονοεπίπεδο PERCEPTRON


Τo απλό µονοεπίπεδο PERCEPTRON έχει πολλές οµοιότητες µε αυτό που ονοµάζεται Maximum- likelihood Gaussian Classifier.

Παρόλο που ήταν µια νέα νέα και πρωτοποριακή µοντελοποίηση νευρωνικού δικτύου, υποβλήθηκε σε πολλή κριτική, κυρίως από τους Minsky και Papert* γιατί, µεταξύ άλλων, δεν µπορούσε να επιλύσει το κλασσικό πρόβληµα ΧOR.

Φαίνεται ότι ο κάπως υπερβολικός όρος “Perceptron”, προδιάθεσε µερικούς επιστήµονες αρνητικά.

Σήµερα, το ενδιαφέρον εστιάζεται στα πολυεπίπεδα perceptrons που θα δούµε λίγο µετά._______________________________________________________________________________________* M. Minsky and S. A. Papert. Perceptrons: An Introduction to Computational Geometry. MIT Press, Cambridge, MA, expanded edition, 1988/1969.

Απλό µονοεπίπεδο PERCEPTRON

14


Τυπικά ένα τέτοιο δίκτυο αποτελείται από:

Πολυεπίπεδα PERCEPTRONSMultiLayer Perceptrons (MLP)

Ένα σύνολο αισθητήρων ή πληροφοριών εισόδου (πηγαίοι κόµβοι), που αποτελούν το επίπεδο εισόδου (input layer).

Ένα ή περισσότερα κρυµµένα επίπεδα (hidden layers)υπολογιστικών κόµβων.

και ένα επίπεδο υπολογιστικών κόµβων εξόδου.


Πολυεπίπεδα PERCEPTRONS

ΕΙΣΟ∆ΟΣ

ΕΞΟ∆ΟΣ

κρυµµέναεπίπεδα

15


Πολυεπίπεδα PERCEPTRONS - MLP

Τα MLP εφαρµόστηκαν µε επιτυχία στην επίλυση ποικίλων και δύσκολων προβληµάτων, όπως δείχνεται παρακάτω για “ηλεκτρονική µύτη”


16


Μάθηση στα

ADALINESMADALINES

PERCEPTRONSκαι

MLP


Μάθηση στο απλό Adaline

x1(κ)

x2(κ)

.

.

.

xN(κ)

w1(κ)

w2(κ)

wN(κ)

Σ

N

1) i i

iu(κ x w

=

= ∑Σ

Επιθυµητή έξοδος

d(κ)

+

-

Αλγόριθµος µάθησης

Σύγκριση

e(κ) = d(κ) – u(κ)Σφάλµα

Ο αλγόριθµος µάθησης καθορίζει πως να προσαρµοστούν τα βάρη ώστε το σφάλµα να γίνει ικανοποιητικά µικρό.

17


Αλγόριθµος Ελαχίστων Μέσων Τετραγώνων(ΕΜΤ, LMS)

Τα Adalines συνήθως εκπαιδεύονται µε τον αλγόριθµο των Ελαχίστων Μέσων Τετραγώνων, που είναι επίσης γνωστός ως “Widrow-Hoff” ή “Κανόνας ∆έλτα” (Delta Rule) ή “Error Correction Rule”.

Είναι ένας απλός κανόνας.

Εφαρµόζεται συνήθως σε γραµµικάστοιχεία.

Θα εξηγηθεί για ένα απλό νευρώνα.

Bernard Widrow


Είναι προϊόν πρωτοποριακής εργασίας που έγινε στο Πανεπιστήµιο Stanford από τους Widrow και Hoff τη δεκαετία του 1960.

Βοηθά στη κατανόηση της θεωρίας των γραµµικών προσαρµοζόµενων φίλτρων που χρησιµοποιούν απλό γραµµικό νευρώνα.

Βοηθά επίσης στη θεωρητική ανάπτυξη των µη-γραµµικών πολυεπίπεδων perceptron (Multi Layer Perceptrons, MLP).

Αλγόριθµος Ελαχίστων Μέσων Τετραγώνων

Η µέθοδος είναι σηµαντική γιατί:

18


Οι Widrow και Hoff προσπάθησαν να βρουν µια διαδικασία που να προσαρµόζει τα συναπτικά βάρη w έτσι ώστε ο νευρώνας να αναγνωρίζει (ξεχωρίζει, καθορίζει) κάποια πρότυπα εισόδου, µε όσο το δυνατό λιγότερο γενικό σφάλµα.

Σαν µέτρο αποδοτικότητας (performance), χρησιµοποίησαν το κριτήριο Ελάχιστου Μέσου Τετραγωνικού Σφάλµατος (LMS).

Βασίστηκαν στην εργασία του Rosenblatt που έγινε στα Perceptrons.



Προσαρµοζόµενα κυκλώµατα [Adaptive Switching Circuits (Widrow και Hoff, 1960)]

Προσαρµοζόµενες τηλεφωνικές γραµµές για γρήγορη µεταφορά πληροφοριών [Adaptive equalization of telephone channels (Lucky 1965, 1966)]

Προσαρµοζόµενες αντένες για τη µείωση των παρεµβολών [Adaptive antennas (Widrow et al., 1967)]

Προσαρµοζόµενη ακύρωση ηχούς που έρχεται από µακρινές αποστάσεις[Adaptive echo cancellation (Sondhi και Berkley, 1980)]

Προσαρµοζόµενη κωδικοποίηση οµιλίας [Adaptive differential pulse code modulation (Jayant και Noll, 1984)]

O αλγόριθµος LMS έχει πολλές εφαρµογές όπως σε:

(ήταν η πρώτη εφαρµογή που έγινε)


19


Έστωx = [x1, x2, … , xN]T

τα σήµατα εισόδου που παράγονται από κάποιους αισθητήρες.

w1

wN

w2

Σ...

.

.

.

x1

x2

xN

Αισθητήρες(Sensors)

ΒάρηWeights (multipliers)

Αθροιστής(Adder)

y

x1w1

N

1i i

iy x w

=

= =∑ Tw x

Ανάπτυξη Αλγόριθµου Ελαχίστων Μέσων Τετραγώνων

Έντασηφωτός

Θέση

αισθητήρα

Tα σήµατα εφαρµόζονται σε αντίστοιχο σύνολο βαρών:w = [ w1, w2 ,..., wN]T


όπου, y είναι η έξοδος (εξαρτηµένη µεταβλητή) του δικτύου d είναι η επιθυµητή έξοδος (desired output)

[είναι επίσης γνωστή ως target ή observation]

Το ζητούµενο είναι να υπολογιστούν οι βέλτιστες τιµές του w, έτσι ώστε να ελαχιστοποιείται κάποιο κατάλληλο συνολικό σφάλµα, J.

Αυτό είναι συνήθως µια συνάρτηση του σφάλµατος e

όπου e ≡ d – y

Όταν το συνολικό σφάλµα εκφράζεται ως µέσο τετραγωνικό, η λύση θα µπορούσε να βρεθεί από ένα σύστηµα εξισώσεων που είναι γνωστές ως Wiener-Hopf.

Την απόδειξη αυτών των εξισώσεων θα δούµε αµέσως µετά.

Ανάπτυξη Αλγόριθµου Ελαχίστων Μέσων Τετραγώνων

20


H σχέση εισόδου-εξόδου είναι:

Το σήµα σφάλµατος για ένα πρότυπο µάθησης και για ένα νευρώνα εξόδου είναι:

e = d – y

N

1i i

iy x w

=

= =∑ Tw x (4.1)

Ανάπτυξη Εξισώσεων Wiener-Hopfµε χρήση Αλγόριθµου Ελαχίστων Μέσων Τετραγώνων

(4.2)


Ένα κατάλληλο µέτρο απόδοσης (performance criterion ή measure), ή συνάρτηση κόστους (cost function) J, για όλα τα πρότυπα, είναι το µέσο τετραγωνικό σφάλµα (mean square error - MSE), που ορίζεται από τη σχέση:

N2 2 2

1

1 1 1( ) ( )2 2 2 i i

iJ E e E d y E d w x

=

= = − = − ∑

Όπου Ε είναι ο τελεστής της «αναµενόµενης τιµής» ή στατιστική µέση τιµή (expectation, mean, ensemble average).


(4.3)

21


Ορισµός και ιδιότητες του Ε[.]

Για τυχαία συνεχή µεταβλητή x, που παρουσιάζεται µε πιθανότητα Px:

Νοουµένου βέβαια ότι το ολοκλήρωµα έχει απόλυτη σύγκλιση.

Ορισµός:

Για τυχαία διακριτή µεταβλητή, x:

[ ] ( )xE x x xP x dx+∞

−∞

= ≡ ∫

[ ] i i i ii i

E x x x Px x x P= ≡ = =∑ ∑

(4.4)

(4.5)


Ορισµός και ιδιότητες του Ε[.]

Ε[c1x + c2] = c1Ε[x] + c2

Χρήσιµες ιδιότητες του Ε[.] :

Εάν c1 και c2 είναι σταθερές που παίρνουν πραγµατικές τιµές,

Ε[x1x2x3 …] = Ε[x1] Ε[x2] Ε[x3]…

|Ε[x]| ≤ Ε[|x|]

(4.6)

(4.7)

(4.8)

22


Το πρόβληµα αυτό µπορεί να θεωρηθεί και ως γραµµικό πρόβληµα βέλτιστου φιλτραρίσµατος(linear optimum filtering problem) που συνοπτικά ορίζεται ως εξής:

Γραµµικό πρόβληµα βέλτιστου φιλτραρίσµατος

Ζητείται να καθοριστεί το βέλτιστο σύνολο βαρών w*

1,w*2 ,..., w*

Ν, για το οποίο το µέσο τετραγωνικό λάθος J είναι ελάχιστο.


N N N2

1 1 1

1 1[ ]2 2i i i j i j

i j iJ E d E w x d E w w x x

= = =

= − +

∑ ∑∑

Λύση: (γνωστή σαν φίλτρο Wiener)

Από την (4.3) και τις ιδιότητες του τελεστή E[•]:

Εξισώσεις Wiener-Hopf

(4.9)

όπου Ν είναι ο αριθµός των στοιχείων εισόδου.

23


Επειδή ο τελεστής Ε[.] είναι γραµµικός, µπορούµε να αλλάξουµε τη σειρά του Ε µε το Σ, οπόταν η (4.9) γίνεται:

όπου τα συναπτικά βάρη w θεωρούνται σταθερά, και βγαίνουν έξω από τα Ε[.]

N N N2

1 1 1

1 1[ ] [ ] [ ]2 2i i i j i j

i j iJ E d w E x d ww E x x

= = =

= − +∑ ∑∑


(4.10)

21 1[ ] [ ] [ ]2 2

J E d E d E= − +T T Tx w w xx w (4.11)

ή σε διανυσµατική µορφή:


Τη συνάρτηση ετεροσυσχέτισης (cross-correlation):

E[d2] ≡ rd = Μέση τετραγωνική τιµή

E[xid] ≡ Rxd (i) όπου i = 1, 2, … ,Ν


Για ευκολία στη χρήση, και χρησιµοποιώντας τους γνωστούς στατιστικούς ορισµούς:

και τη συνάρτηση αυτοσυσχέτισης (auto-correlation):

( ), [ , ] , 1, 2, ... , Nxx i jR i j E x x i j≡ =

Η (4.10) γράφεται:

(4.12)

(4.13)

(4.14)

24


N N N

1 1 1

1 1( ) ( , )2 2d i xd i j xx

i j iJ r wR i ww R i j

= = =

= − +

∑ ∑∑


Η εξίσωση αυτή είναι θετική για όλα τα βάρη, και εποµένως έχει ολικό ελάχιστο (global minimum).

Για τη περίπτωση δύο βαρών µόνο, η επιφάνεια δείχνεται παρακάτω.

(4.15)


Επιφάνεια σφάλµατος για Adaline

25


Επιφάνεια σφάλµατος

Γενικότερα, η σχεδίαση του κόστους J σαν συνάρτηση δύο παραµέτρων w1, w2δείχνει µιαν επιφάνεια σφάλµατος, µε πολλά ελάχιστα.

J

w1w2


Ανάλογα, η σχεδίαση κόστους J σε πολυδιάστατο χώρο είναι µια νοητή επιφάνεια σφάλµατος.

Στο γραµµικό adaline, η επιφάνεια έχει κοίλο σχήµα (convex), µε πολύ καλά καθορισµένα τοπικά ελάχιστα και ολικό ελάχιστο (global minimum).

Αυτό το σηµείο, είναι το βέλτιστο για το φίλτρο, µε την έννοια ότι το µέσο τετραγωνικό λάθος δίνει την ελάχιστη τιµή στο J.

Επιφάνεια σφάλµατος

26



Όπως για να βρούµε το ελάχιστο µιας µονοδιάστατης συνάρτησης, εξισώνουµε τη παράγωγο µε µηδέν και λύνουµε την εξίσωση, έτσι και εδώ, για το προσδιορισµό του βέλτιστου, διαφορίζουµε τη συνάρτηση κόστους J ως προς τα βάρη wi και εξισώνουµε µε µηδέν.

Η µερική παράγωγος του J ως προς wi, είναι η κλίση(gradient) της επιφάνειας σφάλµατος ως προς το συγκεκριµένο wi. Παραγωγίζοντας την (4.15) ως προς wi και εξισώνοντας µε µηδέν, έχουµε:

Ελάχιστο της επιφάνειας σφάλµατος

N

1( ) ( , ) 0xd j xxi

ji

JJ R i w R i jw w =

∂∇ = = − + =

∂ ∑ (4.16)

27


N*

1( , ) ( ) 1, 2, ... , Nj xx dx

jw R i j R i i

=

= =∑


Όπου το w*i δηλώνει τη βέλτιστη τιµή του wi.

Έτσι παίρνουµε τις εξισώσεις Wiener-Hoff για βέλτιστο φίλτρο τύπου Adaline:

Tο νευρωνικό δίκτυο που έχει βάρη που ικανοποιούν τις πιο πάνω εξισώσεις, είναι γνωστό ως φίλτρο Wiener.

(4.17)


Εφαρµογή φίλτρου Wiener

Lena µε θόρυβο Lena µετά από φίλτρο Wiener

28


Συνήθως δεν είναι εύκολο (ή είναι αδύνατο) να βρεθούν αναλυτικές λύσεις του συστήµατος Wiener-Hopf.

Χρειάζεται να βρεθεί το αντίστροφο ενός µεγάλου πίνακα [ΝxΝ], που είναι δύσκολη και χρονοβόρος εργασία.

Μπορούν όµως να να βρεθούν µε διερεύνηση (search), ψάχνοντας στο χώρο της επιφάνειας σφάλµατος, εφαρµόζοντας τη µέθοδο ταχυτέρας καθόδου που είδαµε προηγουµένως.

Η µέθοδος που προκύπτει λέγεται “Μέθοδος Ελαχίστων Τετραγώνων” (LMS) ή “Κανόνας ∆ιορθώµατος Σφάλµατος” (Error Correction Learning), ή “Κανόνας ∆έλτα” (Delta Rule) (Widrow –Hoff, 1960).

Λύση εξισώσεων Wiener-Hopf


Μέθοδος ταχυτέρας καθόδου στη λύση των εξισώσεων Wiener-Hoff

Χρησιµοποιώντας τη µέθοδο όπως εξηγήθηκε προηγουµένως, έχουµε:

(4.19)

όπου η παράµετρος η είναι γνωστή ως Ρυθµός Μάθησης(Learning Rate ή Learning Coefficient).

∆wi = - η∇wiJ i = 1, …, N

ή σε διαφορική µορφή για τη περίπτωση συνεχούς χρονικής µεταβολής των βαρών:

Jdtdw

iw∇= η -

(4.18)

29


Χρησιµοποιώντας τον δείκτη κ, να αναφέρεται στον αριθµό επανάληψης (ή δοκιµής, ή προσπάθειας), ο συνδυασµός των εξισώσεων (4.15) και (4.18) δίνουν:

wi[κ+1] = wi[κ] + ηRxd(i) - i = 1, …, Ν1

[ ] ( , )N

j xxj

w R i jκ=∑ (4.20)

Θα µπορούσαµε να καταλήξουµε σε ανάλογα συµπεράσµατα χρησιµοποιώντας ένα συνολικό άθροισµα των σφαλµάτων αντί της αναµενόµενης ή µέσης τιµής J.



Σε τέτοια περίπτωση το κόστος που προσπαθούµε να ελαχιστοποιήσουµε συµβολίζεται συνήθως µε Ε (από το Energy) ή C, και δίνεται όπως πιο κάτω:

(4.21)P

2

1

1 2

iολικόi

E e=

= ∑

Στη βιβλιογραφία θα το βρείτε επίσης µε το όνοµα SSE από το Sum Square Error.


30


Ο συνδυασµός της έκφρασης του κόστους ως συνάρτηση των µέσων τετραγώνων του σφάλµατος, και της µεθόδου της ταχυτέρας καθόδου, είναι γνωστός ως:

Αλγόριθµος Ελαχίστου Μέσου Τετραγώνουή Κανόνας ∆έλτα ή Κανόνας Widrow-Hoff

Επειδή δεν γνωρίζουµε τη τελική µορφή της επιφάνειας σφάλµατος, σε πρακτική αλγοριθµική µορφή χρησιµοποιούµε τα στιγµιαία βάρη και τη στιγµιαία επιφάνεια.



Αλγόριθµος Ελαχίστου Μέσου ΤετραγώνουLeast Mean Square Algorithm (LMS)

Αρχικοποίηση (initialization):

Για χρόνους κ = 1, 2, ... Υπολόγισε:

0[1]ˆ =iw για i = 1, … , N

Φιλτράρισµα (filtering):

N

1

ˆ[ ] [ ] [ ] i ii

y x wκ κ κ=

=∑και

e[κ] = d[κ] – y[κ]

Το καπελάκι υποδηλώνει καθ’ υπολογισµό βάρη, για τη στιγµιαία επιφάνεια

(4.22)

(4.23)

(4.24)

31


Αναθεώρηση βαρών w (weight updating):

][][ ][1][ˆ κκκκ iii xηeww +=+

για i = 1, … , Ν

Για την αρχικοποίηση, συνήθως βάζουµε τα βάρη να έχουν αρχικές τιµές ίσες µε µηδέν. Θα µπορούσαµε όµως να χρησιµοποιήσουµε άλλες τιµές.


(4.24)


Όπως είπαµε, µεγάλες τιµές του η θα µπορούσαν να οδηγήσουν σε αστάθειες, ενώ πολύ µικρές θα έκαναν το ρυθµό µάθησης πολύ αργό.

Σηµαντική θεωρητική εργασία που έγινε, δίνει καθοδήγηση για µεταβαλλόµενο η όπως δείχνετε στον παρακάτω αλγόριθµο.


32


Αλγόριθµος Ελαχίστου Μέσου Τετραγώνου µε µεταβαλλόµενο ρυθµό µάθησης, η

N

1

ˆ[ ] ( ) - [ ] [ ] i ii

e d w xκ κ κ κ=

= ∑

∆ώσε αρχικά βάρη w[1] και διάλεξε τιµές για το ηο και το τ.Βήµα 1 Για χρόνο κ = 1

τκ

o

1 ][

+=

ηκη

Βήµα 2 Υπολόγισε το ρυθµό µάθησης από:

Βήµα 3 Βρές το σφάλµα:

(4.25)

(4.25)


Βήµα 4 Αναθεώρησε τα βάρη:

][][][ ][1][ˆ κκκκκ iii xeηww +=+

για i = 1, … , Ν

Εάν ναι, σταµάτα.

Εάν όχι, θέσε: κ κ +1

Πίσω στο βήµα 2.

Βήµα 5 Έλεγχος για σύγκλιση:

(4.24)

Αλγόριθµος Ελαχίστου Μέσου Τετραγώνου µε µεταβαλλόµενο ρυθµό µάθησης, η

33


Τα MADALINES µπορούν να εκπαιδευτούν µε τον κανόνα LMS ή από άλλους κατάλληλους που θα δούµε αργότερα.

Μάθηση στα MADALINES


Λίγη ξεκούραση !

34


Μάθηση σε Πολυεπίπεδα PERCEPTRONS

Συνήθως εκπαιδεύονται µε επιβλεπόµενο τρόπο (supervised learning), χρησιµοποιώντας τον πολύ δηµοφιλή αλγόριθµο ανατροφοδότησης σφάλµατος (ΑΣ) (Error Backpropagation - BP) που είναι επίσης γνωστός ως Γενικευµένος Κανόνας ∆έλτα (Generalized Delta Rule).

Ο αλγόριθµος βασίζεται σε κανόνα µάθησης που χρησιµοποιεί το σφάλµα στην έξοδο για να οδηγήσει το δίκτυο σε σταδιακά καλύτερη απόδοση (Error Correction Learning Rule).


Η µάθηση που συνήθως χρησιµοποιείται είναι βασισµένη σε µέσο τετραγωνικό σφάλµα (MSE) και σε κανόνα ταχυτέρας καθόδου.

Μάθηση σε Μη-Γραµµικά PERCEPTRONS κατωφλίου

Ο αρχικός αλγόριθµος όπως προτάθηκε από τον Rosenblatt ήταν:

wij[κ+1] = wij[κ] + ηej[κ]xi[κ]

και ej[κ] = dj[κ] – yj [κ] = dj [κ] – sgn(uj [κ])

(4.25)

35


Μάθηση σε Μη-Γραµµικά PERCEPTRONS

Στη περίπτωση που η συνάρτηση δραστηριοποίησης είναι σιγµοειδής, η εφαρµογή του πιο πάνω κανόνα οδηγά στον κλασσικό αλγόριθµο Backpropagation (BP) για µονοεπίπεδο, µη-γραµµικό perceptron.Στη περίπτωση που η συνάρτηση δραστηριοποίησης είναι για παράδειγµα η:

)( tanh )( jjj uufy γ==

Ο αλγόριθµος µάθησης γίνετε:wij[κ+1] = wij[κ] + ηej[κ]1- (yj[κ])2xi[κ] Που είναι ο BP για µονοεπίπεδο perceptron.

(4.26)

(4.27)


MLP και BP

Βασικά η διαδικασία της ΑΣ αποτελείται από δυο περάσµατα διαµέσου των επιπέδων του δικτύου:

Ένα πέρασµα προς τα εµπρός (ενεργοποίηση) (forward pass) και ένα πέρασµα προς τα πίσω (ανάδραση) (backward pass).

Στην την ενεργοποίηση τα βάρη στο δίκτυο διατηρούνται σταθερά.

Κατά τη διάρκεια της ανατροφοδότησης τα βάρη προσαρµόζονται σύµφωνα µε τον κανόνα διόρθωσης σφάλµατος, ώστε σταδιακά να µειωθεί το συνολικό σφάλµα.

36


MLP και BPΗ παρουσία της µη-γραµµικότητας είναι σηµαντική, διότι διαφορετικά η σχέση εισόδου-εξόδου θα µπορούσε να απλοποιηθεί σε αυτή ενός µονοεπίπεδου perceptron.

Η χρήση της λογιστικής συνάρτησης στη δραστηριοποίηση έχει και βιολογικά κίνητρα, µιας και προσοµοιάζει την επίµονη φάση (refractory phase) των πραγµατικών νευρώνων.

Σηµειώνεται επίσης το σηµαντικό χαρακτηριστικό των πραγµατικών βιολογικών νευρώνων, ότι δεν έχουν ψηφιακές (δυαδικές) εξόδους, αλλά η έξοδος τους έχει συνεχώς κάποια τιµή (συρµός από ώσεις).


MLP και BP

Η κατανεµηµένη µορφή της µη-γραµµικότητας και η υψηλή διασύνδεση του δικτύου κάνουν την θεωρητική ανάλυση ενός MLP εξαιρετικά δύσκολη.

Επίσης, η χρήση κρυµµένων νευρώνων κάνει την διαδικασία µάθησης δύσκολη, και δυσνόητη.

O αλγόριθµος BP είναι ένας γρήγορος τρόπος για τη µάθηση τέτοιων νευρωνικών δικτύων, όπου βοηθά στη κατανοµή της αναγκαίας διόρθωσης στους κρυµµένους νευρώνες, ώστε το συνολικό σφάλµα να µειώνεται σταδιακά.

37


MLP και BP

O κλασσικός αλγόριθµος BP εφαρµόζεται σε πολυεπίπεδα δίκτυα που έχουν ένα ή περισσότερα κρυµµένα επίπεδα, που είναι πλήρως συνδεδεµένα.

Οι υπολογισµοί από την είσοδο προς την έξοδο, λέγονται συνήθως σήµατα ενεργοποίησης ή συναρτησιακά σήµατα (function signals), ή σήµατα δραστηριοποίησης, ενώ τα σήµατα που στέλλονται πίσω για να διορθώσουν τα βάρη λέγονται σήµατα διόρθωσης βαρών (error correction signals) ή ανατροφοδότησης (feedback signals).

Έρευνες έδειξαν ότι δύο κρυµµένα επίπεδα µε λογιστική-σιγµοειδή δραστηριοποίηση, είναι αρκετό για να επιλύσει τα πλείστα µη- γραµµικά προβλήµατα απεικόνισης εισόδου-εξόδου (Kolmogorov, White, Hecht- Nielsen).


Ο Αλγόριθµος BPΗ πρώτη εργασία έγινε από τον Paul Werbos* το 1974 στο διδακτορικό του. Ακολούθως ξανα-ανακαλύφθηκε από τον Parker το 1982, και από τον LeCun σε παρόµοια µορφή το 1985.

Ο όρος BACKPROPAGATIONκαθιερώθηκε µε τη σηµαντικότατη εργασία των Rumelhart, Hinton και McClelland** το 1986.

Paul Werbos

** Rumelhart D. E., Hinton G. E. and McClelland J. L. (1986). In McClelland J. L., Rumelhart D. E. and the PDP Research Group (Eds.). Parallel Dis-tributed Processing: Explorations in the Microstructure of Cognition. Vol. 1. Foundations. Cambridge, MA: MIT Press.

_____________________________________________________________________________________________*Werbos P. (1974). Beyond regression: New tools for prediction and analysis in the behavioral sciences. Ph. D. Dissertation. Harvard University.

38


Ο Αλγόριθµος BPΟυσιαστικά ο αλγόριθµος ψάχνει και βρίσκει ένα καλό σύνολο από βάρη w ώστε το δίκτυο να κάνει ικανοποιητικά την αντιστοίχηση (mapping) ℜNx1 ℜMx1.

Είναι µια µορφή βελτιστοποίησης χωρίς περιορισµούς (unconstrained optimization).

Συνήθως οργανώνονται δύο περάσµατα. H ενεργοποίηση από την είσοδο στην έξοδο, και η ανατροφοδότηση (πισωδιάδοση) από το σφάλµα στις διορθώσεις των βαρών.

Μετά τη µάθηση, τα βάρη «παγώνουν» και το δίκτυο εφαρµόζει τηναντιστοίχηση για διάγνωση, κατηγοριοποίηση, αναγνώριση προτύπων, κ.α.


Ο Αλγόριθµος BP

Το συνολικό (global ή total) σφάλµα εκφράζεται ως:

Για ευκολία, θα αποφύγουµε τον αυτονόητο δείκτη κ, έχοντας υπόψη ότι ∆w = w[κ+1] - w[κ]

Η διαδικασία βασίζεται στη µέθοδο ταχυτέρας καθόδου εφαρµοζόµενησε σφάλµα Εp για το δείγµα p (τοπικό σφάλµα): (p = 1,…,P)

2 2,

1 1

1 1( )2 2

p jp jp out jpj j

E d y eΝ Ν

= =

= − =∑ ∑o o

P P P2 2

,1 1

1 1 1( )2 2 2p jp jp out jp

p p j p jE E d y e

Ν Ν

= =

= = − =∑ ∑∑ ∑∑o o

(4.29)

(4.28)

Στα αγγλικά είναι γνωστό σαν Sum Square Error (SSE).

39


Ο Αλγόριθµος BP

Θα παρουσιασθεί για αρχιτεκτονική 3 επιπέδων και ακολούθως θα γίνει γενίκευση σε πολλαπλά επίπεδα.

Ας δούµε πρώτα τους σχετικούς συµβολισµούς για το στάδιο της ενεργοποίησης (εµπρός-περάσµατος) (feedforward pass ή function signal pass)


x1

x2

.

.

.

xN

Σ

…

Σ

Σ

ΕπίπεδοΕισόδου

1οΚρυ

µµένο

Επίπεδο

Σ

…

Σ

Σ

2οΚρυ

µµένο

Επίπεδο

y1

y2

.

.

.

yNo

ΕπίπεδοΕξόδου

40


x1

x2

.

.

.

xN

Σ

…

Σ

Σ


Σ

…

Σ

Σ

y1

y2

.

.

.

yNo


Συναπτικάβάρη

u

a

S(.)


x1

x2

.

.

.

xN

Σ

…

Σ

Σ


Σ

…

Σ

Σ

y1

y2.

.

.

yNo


u[1]1

u[1]2

u[1]n1

Σ

…Σ

Σ

Κρυµµένο επίπεδο 1,µε n1 νευρώνες

Κρυµµένο επίπεδο 2, µε n2 νευρώνες

Κρυµµένο επίπεδο 3, µε No νευρώνες

2 2 2 1

2 1

n n n n[ ] [3] [3] [3] [3] [2] [3] [3] [2] [2] [3] [3] [2] [1] [2] [3]

1 1 1 1

n n[3] [2] [1] [1] [2] [3] [3] [2]

1 1

outl l l l l k kl l k k kl l k j jk kl

k k k j

l k j j jk kl l kk j

y y f u f a w f f u w f f a w w

f f f u w w f f

= = = =

= =

= = ∑ ∑ ∑ ∑

∑ ∑

( ) = ( ) = ( ( ) ) = ( ( ) ) =

= ( ( ( ) ) ) = ( (2 1n n N

[1] [1] [2] [3]o

1 1 1= 1, ..., Nj i ij jk kl

k j if x w w w l

= = =∑ ∑ ∑( ) ) )

a[1]1

a[1]2

a[1]n1

a[2]1

a[2]2

a[2]n2

u[2]1

u[2]2

u[2]n2

u[3]1

u[3]2

u[3]n0

f(.)[3]1

f(.)[3]n0

f(.)[2]1

41


2 2

2 1

2 1

[ ] [3] [3] [3]

n n[3] [2] [3] [3] [2] [2] [3]

1 1n n

[3] [2] [1] [2] [3]

1 1

n n[3] [2] [1] [1] [2] [3]

1 1

[3] [2

outl l l l

l k kl l k k klk k

l k j jk klk j

l k j j jk klk j

l k

y y f u

f a w f f u w

f f a w w

f f f u w w

f f

= =

= =

= =

= =

∑ ∑

∑ ∑

∑ ∑

( ) =

= ( ) = ( ( ) ) =

= ( ( ) ) =

= ( ( ( ) ) ) =

= (2 1n n N

] [1] [1] [2] [3]

1 1 1

o΄Οπου, l = 1, ..., N

j i ij jk klk j i

f x w w w= = =∑ ∑ ∑( ( ) ) )

Ο Αλγόριθµος BP: Υπολογισµοί ενεργοποίησης

κ. ο. κ. για MLP περισσότερων επιπέδων.

(4.30)


Ο Αλγόριθµος BPΥπολογισµοί Ενεργοποίησης - Γενική µορφή

L-1n[L] [L-1] [L]

1j i ij

iu a w

=∑ =

L-1n[L] [L] [L-1] [L]

1j j i ij

iy f a w

=∑ = ( ) (4.32)

(4.31)

42


“Ότι δεν θέλεις να σου κάνουν, µην κάνεις στους άλλους”, Κονφούκιος

“Είσαι αυτά που γνωρίζεις”, Albert Einstein

“ΟΠΟΥ ΑΣΤΟΧΗΣΕΙΣ ΓΥΡΙΣΕ, ΚΙ' ΟΠΟΥ ΠΕΤΥΧΕΙΣ ΦΥΓΕ”, Λαϊκή ρήση από τη Κρήτη


Πισωδιάδοση σφάλµατος

Συνήθως ακολουθείται µια από τις πιο κάτω εναλλακτικές τακτικές:

α) Μάθηση ανά δείγµα (online learning)Η διόρθωση γίνεται µετά από κάθε δείγµα

β) Μάθηση ανά οµάδα ή εποχή (batch ή epoch learning)Η διόρθωση συσσωρεύεται και γίνεται µετά που περνούν όλα τα δείγµατα

[ ]ij∆w L

43



[3] [3] [2][3]

[3] [3][3]

[3] [3]

και

( )

pij j i

ij

j jj jp jp jp

j j

E∆w a

w

f fe d y

u u

η ηδ

δ

∂= − =

∂

∂ ∂= = −

∂ ∂

Μάθηση ανά δείγµα (online learning)

Η µάθηση βασίζεται στο τοπικό σφάλµα, Ep

Ας δούµε αναλυτικά τον αλγόριθµο για σύστηµα τριών επιπέδων:

(4.33)

(4.34)



[2] [2] [1][2]

[2][2] [3] [3]

[2]1

και

pij j i

ij

jj i ij

ij

E∆w a

w

fw

u

η ηδ

δ δ=

∂= − =

∂

∂=∂ ∑

3n


(4.35)

(4.36)

44



[1] [1]

[1][1] [2] [2]

[1]1

και

ij j i

jj i ij

ij

∆w x

fw

u

ηδ

δ δ=

=

∂=∂ ∑

2n


(4.37)

(4.38)



Βήµατα στη µάθηση ανά δείγµα:

1. Αρχικοποίησε τα συναπτικά βάρη w δίνοντας τους µικρές τυχαίες τιµές.

2. Εφάρµοσε ένα δείγµα µάθησης x στην είσοδο, από το ζεύγος δείγµατος µάθησης (x, d), και υπολόγισε την έξοδο y µε βάση την τρέχουσα τιµή των w, χρησιµοποιώντας τις εξισώσεις (4.31) και (4.32).

3. Χρησιµοποιώντας τις τιµές της επιθυµητής εξόδου d, υπολόγισε τα τοπικά σφάλµατα δj

[L] από τις (4.34), (4.36) και (4.38).4. ∆ιόρθωσε τα βάρη wij

[L] για L=1,2,3 σύµφωνα µε την εξίσωση:wij

[L] = ηδj[L] xi

[L]

5. Επανάλαβε από το βήµα 2, εφαρµόζωντας νέο δείγµα, µέχρι το σφάλµα να πάρει ικανοποιητική τιµή, και τα βάρη να σταθεροποιηθούν.

45



BP µε συντελεστή ορµής

Για να έχουµε ευσταθή µάθηση χρειάζεται να χρησιµοποιήσουµε µικρή τιµή του συντελεστή µάθησης η. Αυτό οδηγεί σε αργό ρυθµό µάθησης.

Επίσης, εάν υπάρχουν τοπικά ελάχιστα, τα βάρη θα µπορούσαν να περιοριστούν γύρω από τέτοιο ελάχιστο.

Ένας τρόπος που χρησιµοποιείται για αποφυγή αυτών των προβληµάτων είναι η χρήση ενός συντελεστή ορµής µ (momentum fficient) όπως πιο κάτω:

[ ] [ ] [ ] [ ][ ] [ 1]ij j i ijw a wκ ηδ µ κ∆ = + ∆ −L L L-1 L

Όπου η > 0 και 0 ≤ µ < 1

(4.39)

[ ] [ ] [ ][ 1] [ ] [ ]ij ij ijw w wκ κ κ+ = + ∆L L Lή (4.40)

46


BP - Γενικό σχόλιο

Με τα προηγούµενα, φαίνεται ότι η µέθοδος αυτή, όπως και οι πλείστες παρόµοιες, δουλεύουν όπως και οι στατιστικές πολυπαραµετρικές µέθοδοι για παλινδροµική προσέγγιση ενός υπερεπιπέδου στον πολυδιάστατο χώρο, όπου η προσέγγιση γίνεται µε παραδείγµατα.

(Multidimensional curve fitting)



Μάθηση ανά οµάδα (Batch processing)Σε αυτή τη τακτική, το τοπικό σφάλµα Epσυσσωρεύεται για µερικά δείγµατα (συνήθως για όλα) και ακολούθως γίνεται η διόρθωση των σφαλµάτων. Ο απλός αλγόριθµος σε αυτή τη περίπτωση γίνεται:

Μια πιο περίπλοκη µορφή αλλά πιο διαδεδοµένη είναι:

[ ] [ ] [ ] [ ][ ]ij p ij jp ip

p pij

Ew w aw

η η δ∂∆ = ∆ = − =

∂∑ ∑L L L L-1L (4.41)

[L] [L] [L-1] [L] [L]

L-1

[ ] [ 1] [ ]nij jp ip ij ij

pw a w wηκ δ µ κ γ κ∆ = + ∆ − −∑ (4.42)

Όπου γ είναι ένας συντελεστής απόσβεσης (decay factor)

47


Κώστας Νεοκλέους, PhDΤηλέφωνο Γραφείου: 22406391

Email: [email protected]

ΕΠΛ 604Τεχνητή Νοηµοσύνη*****************

Τέλος στα MLP και BP

B4-EPL604 - Adaline, Madaline, Perceptrons, MLP, LMS, … - Adaline... · Αυτές είναι τα Adaline, Madaline, Perceptrons και σταδιακά τα MLP.

Documents