Marcin Miłkowski
Jan 25, 2016
Marcin Miłkowski
O czym będzie mowa
Neurony jako elementy obliczeniowe
Perceptron i problemy koneksjonizmu
Renesans koneksjonizmu Rumelhart i McClelland o uczeniu się czasowników
McCulloch i Pitts (1943)
Pierwszy model mózgu jako sieci neuronów.
Neurony to elementy cyfrowe. Albo przewodzą prąd, albo nie.
Neurony jako bramki logiczne: odpowiednio połączone są równie silne jak maszyna Turinga.
Perceptron
F. Rosenblatt (1957): uczące się sieci neuronowe – perceptrony.
Przez modyfikację połączeń między neuronami można zmienić działanie sieci.
Wystarczy dopasować wagę połączeń tak, aby wejściu odpowiadało odpowiednie wyjście. Wtedy perceptron rozpoznaje wzorce.
Perceptron jako klasyfikator
Wiele wejść (X1... X7) Wiele wag (W1... W7) Jedno wyjście (y), binarne Perceptron daje odpowiedź „tak” lub „nie”.
Klasyfikacja =rozpoznawaniewzorca
Mark I Perceptron
Wczesne perceptrony były częściowo mechaniczne (potencjometry i silniczki!)
Wielki entuzjazm
Minsky i Papert (1969): koniec wczesnego koneksjonizmu Perceptrony nie nauczą się nawet prostych funkcji takich jak alternatywa rozłączna (XOR)!
Sieci wielowarstwowe
Sieci z wieloma warstwami neuronów mogą zrealizować każdą obliczalną funkcję matematyczną.
W 1969 roku nie był znany algorytm ich uczenia, a algorytm perceptronu nie wystarczał.
Lata 80: algorytm propagacji wstecznej. Renesans koneksjonizmu!
Koneksjonizm klasyczny
Sztuczne sieci neuronowe symulują procesy poznawcze.
W latach 1980 były bardzo uproszczone.
Zwykle trzy warstwy
Koneksjonizm
Sieci nerwowe przekształcają sygnał wejściowy na wyjściowy, a nie symbole.
Przekształcenie zależy od wag połączeń. Uczenie sieci to ustawianie wag.
Sieci pracują równolegle, a nie sekwencyjnie jak GPS. I nie ma w nich żadnych reguł!
Koneksjonizm klasyczny
James McClelland (Stanford University)
David E. Rumelhart (1942-2011)
Nabywanie czasu przeszłego w j. angielskim Końcówki czasu past simple
Regularne (90%) talk => talked pit => pitted
Nieregularne (10%) hit => hit get => got go => went
Jak dzieci to opanowują?
Fazy rozwojowe: wizja tradycyjna Faza 1: Uczenie na pamięć
początkowo bezbłędnie, ale mało czasowników
Faza 2: Wydobywanie reguły nadmierna regularyzacja (comed jako forma przeszła come)
Faza 3: Reguły + pamięć usuwanie błędów: współistnienie form regularnych i nieregularnych
Nabywanie czasu przeszłego
Tradycyjne modele wyjaśniające postulują reguły: w końcu regularnych jest 90% czasowników!
Reguły przekształceń wyjaśniają tworzenie czasu przeszłego.
Czy można to wyjaśnić inaczej?
Bez reguł!
Rumelhart & McClelland (1986) pokazali, że rozproszone sieci przetwarzające równolegle to konkurencja dla symbolicznych systemów reguł;
wyuczenie sieci odpowiada rozwojowi umiejętności u dzieci i wyjaśnia dynamikę nabywania końcówek.
Fazy uczenia się odpowiadają fazom rozwojowym dzieci.
Co jest modelowane?
Newell & Simon gromadzili raporty werbalne, Rumelhart & McClelland opierają się na prawidłowości statystycznej w populacji.
Też postuluje się etapy przetwarzania tak samo jak w GPS-ie i jak u Marra.
Reprezentacja fonemów
Reprezentacja wymowy samych czasowników (bez kontekstu!) zaproponowana przez W. Wickelgrena (1969)
Fonemy jako wzorce strukturalne, tzw. Wickelfeatures
Wickelfeatures to wejście i wyjście sieci
Model stanowi idealizację
Wiele zachowań, jedna sieć
Wejście: rdzeńczasownika
Wyjście:czas przeszły czasownika
Wagi określają zachowanie sieci. Nie ma tworzenia czasowników na podstawie reguł i na podstawie zapamiętanych wyjątków.
Wickelfeature Representation of Stem
Wickelfeature Representation of Past Tense
Wyniki
Wysoka poprawność modelu (zgodność danych o dzieciach i wyjścia sieci): ponad 90% Jest transfer tworzenia na nowe formy, 92% poprawności dla regularnych, 84% dla nieregularnych
Sieć przewiduje zachowanie dzieci w wieku przedszkolnym znane z badań (Bybee & Slobin 1982)
Wyniki
Rozwój i uczenie są U-kształtne
Występuje nadmierna generalizacja
A potem błędyzanikają
50
55
60
65
7075
80
85
90
95
100
0 100 200
% C
orre
ct P
ast T
ense
Training Epochs
Irregulars
Regulars
Vocabulary discontinuity
Dowód możliwości
Sieć nabywa czasu przeszłego bez reprezentowania reguł
Ale Rumelhart i McClelland pokazują tylko, że wyuczenie sieci symulującej fazy zachowania jest możliwe (lub wystarczające)
Nie ma świadectw empirycznych, że to robi układ nerwowy, nawet w przybliżeniu!
Krytyka Pinkera i Prince’a (1988) Błędne wyjaśnienie. Fonologia nie wystarcza!
Np. homofony wring i ring mają zupełnie różne nieregularne formy czasu przeszłego (wrung i rang). Ta sieć się tego nie nauczy.
Sieć gubi strukturalne własności ciągów fonemów (traktuje je jak nieuporządkowane zbiory, worki!)
Rozwój badań
W kolejnych modelach odrzucono Wickelfeatures.
Wprowadzono warstwę ukrytą. Sam Pinker zaproponował teorię hybrydową „wyrazy i reguły”: reguły – czasowniki regularne; sieć neuronowa – pamięć nieregularnych.
Ale nie istnieje pełen komputerowy model.
Problem z frekwencją
Rumelhart i McClelland badali prawidłowości statystyczne: ich model korzystał z listy frekwencyjnej czasowników. Najpierw podawano czasowniki najczęstsze, potem rzadsze.
I takie etapy uczenia mogły stwarzać wrażenie podobieństwa do dzieci.
Ale dzieci słyszą rzadsze czasowniki od razu! Tylko rzadziej...
Nabywanie czasu przeszłego
Metodologia: Analiza zdolności, w tym możliwych reprezentacji wejścia i wyjścia (Wickelfeatures)
Gromadzenie danych o zachowaniu (wcześniejsze badania)
Zbudowanie i wytrenowanie sieci za pomocą informacji wejściowych i wyjściowych
Przetestowanie na danych behawioralnych
Pojedynczy badany kontra populacja Wyjście sieci uśrednia wyniki w populacji. Żadne konkretne dziecko może tak nie mówić. Niebezpieczeństwo, że u różnych badanych występują różne mechanizmy psychologiczne!
To niebezpieczeństwo jest nawet w modelach neurologicznych, bo mózgi się różnią
Newell i Simon badali pojedynczych ludzi. Bezpieczny konserwatyzm.
Symbole i sieci
Newell & Simon Rumelhart & McClelland
1. Analiza zadania, w tym możliwych reprezentacji rozwiązywanego zadania
2. Zgromadzenie danych o zachowaniu
3. Zbudowanie reguł produkcji (reguły przepisywania symboli) do szukania rozwiązania
4. Test na danych
1. Analiza zadania, w tym reprezentacji wejścia i wyjścia (Wickelfeatures)
2. Zgromadzenie danych o zachowaniu
3. Zbudowanie i wytrenowanie sieci za pomocą informacji WE i WY
4. Test na danych
Kompetencja i wykonanie (Chomsky) Kompetencja językowa: znajomość języka
Wykonanie językowe: zachowanie użytkowników języka
U Chomsky’ego kompetencja jest (prawie) bezbłędna. Badanie wykonania jest nieinteresujące.
Koneksjoniści badają zmiany kompetencji.
Swoistość koneksjonizmu
Zrealizowanie całej sieci w komputerze pozwala badać bardzo złożone zjawiska, których nie sposób sobie wyobrazić. Modele werbalne (np. Pinkera „wyrazy i reguły”) nie mają tej zalety.
Koneksjoniści często modyfikują sieci i badają ich własności.
Niebezpieczeństwo koneksjonizmu Bardzo złożone sieci neuronowe są trudne do zrozumienia.
Paradoks Boniniego: zjawisko wyjaśniane może być równie trudne do pojęcia, jak jego wyjaśnienie.
Wypracowano metody badania struktury sieci neuronowych, aby sobie z tym poradzić. Analiza sieci po treningu...
Koneksjonizm: mity i rzeczywistość Sztuczne sieci neuropodobne są bliższe mózgowi niż maszyna Turinga. Ale i tak są boleśnie uproszczone.
Sieci łagodnie obniżają poziom działania, a maszyna Turinga po prostu nie może działać po uszkodzeniu reguły. Systemy klasyczne też to potrafią, ale muszą mieć odpowiednią strukturę.
Koneksjonizm: mity i rzeczywistość Sieci neuronowe działają w czasie rzeczywistym, a maszyna Turinga – w dyskretnym czasie kroków obliczania. W rzeczywistości sieci neuronowe stosują ograniczenie „100 kroków na sekundę”, bo koneksjoniści zakładają, że mózg nie może wykonać więcej operacji.
Mocno kontrowersyjne założenie. Do czasu rzeczywistego stąd daleko...
Koneksjonizm: mity i rzeczywistość Sieci świetnie rozpoznają wzorce i generalizują. W istocie to potrafi wiele innych algorytmów uczenia maszynowego. Ale szybciej (np. Support Vector Machines, SVM).
W następnym odcinku
Układy dynamiczne i raczkujące dzieci