This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Στη σειρά αυτή θα δούµε µερικές από τις πιο βασικές αρχιτεκτονικές (ή τοπολογίες) τεχνητών νευρωνικών δικτύων που µπορούν να χρησιµοποιηθούν για τη δηµιουργία άλλων, πιο σύνθετων δοµών.
Αυτές είναι τα Adaline, Madaline, Perceptrons και σταδιακά τα MLP.
Τέτοιες αρχιτεκτονικές έχουν πολλές εφαρµογές όπως θα δούµε στη συνέχεια.
Το απλό µοντέλο Adaline µοιάζει µε το Finite Impulse Response Filter – FIR που χρησιµοποιείται στη ψηφιακή επεξεργασία σήµατος.
Μετά από κατάλληλη µάθηση – που γίνεται συνήθως µε αλγόριθµο LMS που θα δούµε αργότερα – το adaline µπορεί να χρησιµοποιηθεί για να αναγνωρίζει τα αρχικά σήµατα έστω και αν αυτά έχουν αλλοιωθεί ελαφρά.
1. Σε συστήµατα εντοπισµού στόχων µε ραντάρ (pulse radar tracking systems), το φίλτρο θα µπορούσε να κάνει, καθάρισµασήµατος (filtering), βελτίωση(smoothening) και πρόγνωση (prediction).
Τα φίλτρα µπορούν να κατηγοριοποιηθούν ως γραµµικά ή µη-γραµµικά.
2. ∆ιαχωρισµός ηλεκτροκαρδιογραφήµατος (ΗΚΓ, ΕCG) εγκύου από το ΗΚΓ του εµβρύου
Για επεξεργασία µε ψηφιακά σήµατα, συχνά χρησιµοποιούµε στην έξοδο περιοριστή (ή κβαντιστή, ή ψαλιδιστή, ή στοιχείο κατωφλίου) (threshold, quantizer, signum, hard limiter, Heavyside,) όπως πιο κάτω:
AdalineΓενικά το Adaline - όπως και τα περισσότερα µονοκατευθυντικάτεχνητά νευρωνικά δίκτυα (feedforward neural networks) –πραγµατοποιούν µιαν αντιστοίχηση (mapping) από N στοιχεία εισόδου σε 1 στοιχείο εξόδου.
ℜΝ ℜ
Μετά που θα µάθει τα παραδείγµατα που το δόθηκαν, θα πρέπει να ελεγχθεί µε άγνωστες περιπτώσεις.
Εάν διακριβώνει σωστά µε ικανοποιητική πιθανότητα, τότε λέµε ότι έµαθε να γενικεύει (generalization).
Τo απλό µονοεπίπεδο PERCEPTRON έχει πολλές οµοιότητες µε αυτό που ονοµάζεται Maximum- likelihood Gaussian Classifier.
Παρόλο που ήταν µια νέα νέα και πρωτοποριακή µοντελοποίηση νευρωνικού δικτύου, υποβλήθηκε σε πολλή κριτική, κυρίως από τους Minsky και Papert* γιατί, µεταξύ άλλων, δεν µπορούσε να επιλύσει το κλασσικό πρόβληµα ΧOR.
Φαίνεται ότι ο κάπως υπερβολικός όρος “Perceptron”, προδιάθεσε µερικούς επιστήµονες αρνητικά.
Σήµερα, το ενδιαφέρον εστιάζεται στα πολυεπίπεδα perceptrons που θα δούµε λίγο µετά._______________________________________________________________________________________* M. Minsky and S. A. Papert. Perceptrons: An Introduction to Computational Geometry. MIT Press, Cambridge, MA, expanded edition, 1988/1969.
Τα Adalines συνήθως εκπαιδεύονται µε τον αλγόριθµο των Ελαχίστων Μέσων Τετραγώνων, που είναι επίσης γνωστός ως “Widrow-Hoff” ή “Κανόνας ∆έλτα” (Delta Rule) ή “Error Correction Rule”.
Οι Widrow και Hoff προσπάθησαν να βρουν µια διαδικασία που να προσαρµόζει τα συναπτικά βάρη w έτσι ώστε ο νευρώνας να αναγνωρίζει (ξεχωρίζει, καθορίζει) κάποια πρότυπα εισόδου, µε όσο το δυνατό λιγότερο γενικό σφάλµα.
Σαν µέτρο αποδοτικότητας (performance), χρησιµοποίησαν το κριτήριο Ελάχιστου Μέσου Τετραγωνικού Σφάλµατος (LMS).
Βασίστηκαν στην εργασία του Rosenblatt που έγινε στα Perceptrons.
Ένα κατάλληλο µέτρο απόδοσης (performance criterion ή measure), ή συνάρτηση κόστους (cost function) J, για όλα τα πρότυπα, είναι το µέσο τετραγωνικό σφάλµα (mean square error - MSE), που ορίζεται από τη σχέση:
N2 2 2
1
1 1 1( ) ( )2 2 2 i i
iJ E e E d y E d w x
=
= = − = − ∑
Όπου Ε είναι ο τελεστής της «αναµενόµενης τιµής» ή στατιστική µέση τιµή (expectation, mean, ensemble average).
Το πρόβληµα αυτό µπορεί να θεωρηθεί και ως γραµµικό πρόβληµα βέλτιστου φιλτραρίσµατος(linear optimum filtering problem) που συνοπτικά ορίζεται ως εξής:
Γραµµικό πρόβληµα βέλτιστου φιλτραρίσµατος
Ζητείται να καθοριστεί το βέλτιστο σύνολο βαρών w*
1,w*2 ,..., w*
Ν, για το οποίο το µέσο τετραγωνικό λάθος J είναι ελάχιστο.
Όπως για να βρούµε το ελάχιστο µιας µονοδιάστατης συνάρτησης, εξισώνουµε τη παράγωγο µε µηδέν και λύνουµε την εξίσωση, έτσι και εδώ, για το προσδιορισµό του βέλτιστου, διαφορίζουµε τη συνάρτηση κόστους J ως προς τα βάρη wi και εξισώνουµε µε µηδέν.
Η µερική παράγωγος του J ως προς wi, είναι η κλίση(gradient) της επιφάνειας σφάλµατος ως προς το συγκεκριµένο wi. Παραγωγίζοντας την (4.15) ως προς wi και εξισώνοντας µε µηδέν, έχουµε:
Συνήθως δεν είναι εύκολο (ή είναι αδύνατο) να βρεθούν αναλυτικές λύσεις του συστήµατος Wiener-Hopf.
Χρειάζεται να βρεθεί το αντίστροφο ενός µεγάλου πίνακα [ΝxΝ], που είναι δύσκολη και χρονοβόρος εργασία.
Μπορούν όµως να να βρεθούν µε διερεύνηση (search), ψάχνοντας στο χώρο της επιφάνειας σφάλµατος, εφαρµόζοντας τη µέθοδο ταχυτέρας καθόδου που είδαµε προηγουµένως.
Η µέθοδος που προκύπτει λέγεται “Μέθοδος Ελαχίστων Τετραγώνων” (LMS) ή “Κανόνας ∆ιορθώµατος Σφάλµατος” (Error Correction Learning), ή “Κανόνας ∆έλτα” (Delta Rule) (Widrow –Hoff, 1960).
Ο συνδυασµός της έκφρασης του κόστους ως συνάρτηση των µέσων τετραγώνων του σφάλµατος, και της µεθόδου της ταχυτέρας καθόδου, είναι γνωστός ως:
Αλγόριθµος Ελαχίστου Μέσου Τετραγώνουή Κανόνας ∆έλτα ή Κανόνας Widrow-Hoff
Επειδή δεν γνωρίζουµε τη τελική µορφή της επιφάνειας σφάλµατος, σε πρακτική αλγοριθµική µορφή χρησιµοποιούµε τα στιγµιαία βάρη και τη στιγµιαία επιφάνεια.
Μέθοδος ταχυτέρας καθόδου στη λύση των εξισώσεων Wiener-Hoff
Συνήθως εκπαιδεύονται µε επιβλεπόµενο τρόπο (supervised learning), χρησιµοποιώντας τον πολύ δηµοφιλή αλγόριθµο ανατροφοδότησης σφάλµατος (ΑΣ) (Error Backpropagation - BP) που είναι επίσης γνωστός ως Γενικευµένος Κανόνας ∆έλτα (Generalized Delta Rule).
Ο αλγόριθµος βασίζεται σε κανόνα µάθησης που χρησιµοποιεί το σφάλµα στην έξοδο για να οδηγήσει το δίκτυο σε σταδιακά καλύτερη απόδοση (Error Correction Learning Rule).
Στη περίπτωση που η συνάρτηση δραστηριοποίησης είναι σιγµοειδής, η εφαρµογή του πιο πάνω κανόνα οδηγά στον κλασσικό αλγόριθµο Backpropagation (BP) για µονοεπίπεδο, µη-γραµµικό perceptron.Στη περίπτωση που η συνάρτηση δραστηριοποίησης είναι για παράδειγµα η:
)( tanh )( jjj uufy γ==
Ο αλγόριθµος µάθησης γίνετε:wij[κ+1] = wij[κ] + ηej[κ]1- (yj[κ])2xi[κ] Που είναι ο BP για µονοεπίπεδο perceptron.
MLP και BPΗ παρουσία της µη-γραµµικότητας είναι σηµαντική, διότι διαφορετικά η σχέση εισόδου-εξόδου θα µπορούσε να απλοποιηθεί σε αυτή ενός µονοεπίπεδου perceptron.
Η χρήση της λογιστικής συνάρτησης στη δραστηριοποίηση έχει και βιολογικά κίνητρα, µιας και προσοµοιάζει την επίµονη φάση (refractory phase) των πραγµατικών νευρώνων.
Σηµειώνεται επίσης το σηµαντικό χαρακτηριστικό των πραγµατικών βιολογικών νευρώνων, ότι δεν έχουν ψηφιακές (δυαδικές) εξόδους, αλλά η έξοδος τους έχει συνεχώς κάποια τιµή (συρµός από ώσεις).
Η κατανεµηµένη µορφή της µη-γραµµικότητας και η υψηλή διασύνδεση του δικτύου κάνουν την θεωρητική ανάλυση ενός MLP εξαιρετικά δύσκολη.
Επίσης, η χρήση κρυµµένων νευρώνων κάνει την διαδικασία µάθησης δύσκολη, και δυσνόητη.
O αλγόριθµος BP είναι ένας γρήγορος τρόπος για τη µάθηση τέτοιων νευρωνικών δικτύων, όπου βοηθά στη κατανοµή της αναγκαίας διόρθωσης στους κρυµµένους νευρώνες, ώστε το συνολικό σφάλµα να µειώνεται σταδιακά.
O κλασσικός αλγόριθµος BP εφαρµόζεται σε πολυεπίπεδα δίκτυα που έχουν ένα ή περισσότερα κρυµµένα επίπεδα, που είναι πλήρως συνδεδεµένα.
Οι υπολογισµοί από την είσοδο προς την έξοδο, λέγονται συνήθως σήµατα ενεργοποίησης ή συναρτησιακά σήµατα (function signals), ή σήµατα δραστηριοποίησης, ενώ τα σήµατα που στέλλονται πίσω για να διορθώσουν τα βάρη λέγονται σήµατα διόρθωσης βαρών (error correction signals) ή ανατροφοδότησης (feedback signals).
Έρευνες έδειξαν ότι δύο κρυµµένα επίπεδα µε λογιστική-σιγµοειδή δραστηριοποίηση, είναι αρκετό για να επιλύσει τα πλείστα µη- γραµµικά προβλήµατα απεικόνισης εισόδου-εξόδου (Kolmogorov, White, Hecht- Nielsen).
Ο Αλγόριθµος BPΗ πρώτη εργασία έγινε από τον Paul Werbos* το 1974 στο διδακτορικό του. Ακολούθως ξανα-ανακαλύφθηκε από τον Parker το 1982, και από τον LeCun σε παρόµοια µορφή το 1985.
Ο όρος BACKPROPAGATIONκαθιερώθηκε µε τη σηµαντικότατη εργασία των Rumelhart, Hinton και McClelland** το 1986.
Paul Werbos
** Rumelhart D. E., Hinton G. E. and McClelland J. L. (1986). In McClelland J. L., Rumelhart D. E. and the PDP Research Group (Eds.). Parallel Dis-tributed Processing: Explorations in the Microstructure of Cognition. Vol. 1. Foundations. Cambridge, MA: MIT Press.
_____________________________________________________________________________________________*Werbos P. (1974). Beyond regression: New tools for prediction and analysis in the behavioral sciences. Ph. D. Dissertation. Harvard University.
Ο Αλγόριθµος BPΟυσιαστικά ο αλγόριθµος ψάχνει και βρίσκει ένα καλό σύνολο από βάρη w ώστε το δίκτυο να κάνει ικανοποιητικά την αντιστοίχηση (mapping) ℜNx1 ℜMx1.
Είναι µια µορφή βελτιστοποίησης χωρίς περιορισµούς (unconstrained optimization).
Συνήθως οργανώνονται δύο περάσµατα. H ενεργοποίηση από την είσοδο στην έξοδο, και η ανατροφοδότηση (πισωδιάδοση) από το σφάλµα στις διορθώσεις των βαρών.
Μετά τη µάθηση, τα βάρη «παγώνουν» και το δίκτυο εφαρµόζει τηναντιστοίχηση για διάγνωση, κατηγοριοποίηση, αναγνώριση προτύπων, κ.α.
1. Αρχικοποίησε τα συναπτικά βάρη w δίνοντας τους µικρές τυχαίες τιµές.
2. Εφάρµοσε ένα δείγµα µάθησης x στην είσοδο, από το ζεύγος δείγµατος µάθησης (x, d), και υπολόγισε την έξοδο y µε βάση την τρέχουσα τιµή των w, χρησιµοποιώντας τις εξισώσεις (4.31) και (4.32).
3. Χρησιµοποιώντας τις τιµές της επιθυµητής εξόδου d, υπολόγισε τα τοπικά σφάλµατα δj
[L] από τις (4.34), (4.36) και (4.38).4. ∆ιόρθωσε τα βάρη wij
[L] για L=1,2,3 σύµφωνα µε την εξίσωση:wij
[L] = ηδj[L] xi
[L]
5. Επανάλαβε από το βήµα 2, εφαρµόζωντας νέο δείγµα, µέχρι το σφάλµα να πάρει ικανοποιητική τιµή, και τα βάρη να σταθεροποιηθούν.
Με τα προηγούµενα, φαίνεται ότι η µέθοδος αυτή, όπως και οι πλείστες παρόµοιες, δουλεύουν όπως και οι στατιστικές πολυπαραµετρικές µέθοδοι για παλινδροµική προσέγγιση ενός υπερεπιπέδου στον πολυδιάστατο χώρο, όπου η προσέγγιση γίνεται µε παραδείγµατα.
Μάθηση ανά οµάδα (Batch processing)Σε αυτή τη τακτική, το τοπικό σφάλµα Epσυσσωρεύεται για µερικά δείγµατα (συνήθως για όλα) και ακολούθως γίνεται η διόρθωση των σφαλµάτων. Ο απλός αλγόριθµος σε αυτή τη περίπτωση γίνεται:
Μια πιο περίπλοκη µορφή αλλά πιο διαδεδοµένη είναι:
[ ] [ ] [ ] [ ][ ]ij p ij jp ip
p pij
Ew w aw
η η δ∂∆ = ∆ = − =
∂∑ ∑L L L L-1L (4.41)
[L] [L] [L-1] [L] [L]
L-1
[ ] [ 1] [ ]nij jp ip ij ij
pw a w wηκ δ µ κ γ κ∆ = + ∆ − −∑ (4.42)
Όπου γ είναι ένας συντελεστής απόσβεσης (decay factor)