Generowanie ciągów uczących w oparciu o metryczne własności przestrzeni wzorców w sieciach MLP
Post on 09-Jan-2016
41 Views
Preview:
DESCRIPTION
Transcript
Generowanie ciągów uczących w oparciu o metryczne własności przestrzeni
wzorców w sieciach MLP
Cezary Dendek
prof. nzw. dr hab. Jacek Mańdziuk
Agenda
Intuicje dotyczące uporządkowania wzorców uczących
Agenda
Intuicje dotyczące uporządkowania wzorców uczących
Reguła tworzenia ciągów uczących
Agenda
Intuicje dotyczące uporządkowania wzorców uczących
Reguła tworzenia ciągów uczących Przykłady uporządkowań
Agenda
Intuicje dotyczące uporządkowania wzorców uczących
Reguła tworzenia ciągów uczących Przykłady uporządkowań Wyniki
Agenda
Intuicje dotyczące uporządkowania wzorców uczących
Reguła tworzenia ciągów uczących Przykłady uporządkowań Wyniki Dalsze prace
Intuicje
Uporządkowanie losowe
Bardzo łatwe do osiągnięcia,pokazało swoją skuteczność
Związek z metodami Monte Carlo(jednostajny rozkład próbek w przestrzeni)
Nie przekazuje dodatkowej (często znanej) informacji o przestrzeni wzorców
Intuicje
Propozycja: uporządkowanie Distant-First
Hipoteza:Uwzględnienie w uczeniu odległych od siebie wzorców (w sensie metryki specyficznej dla przestrzeni) może poprawić generalizację
Uporządkowanie takie przenosi informację o topologii przestrzeni
Reguła tworzenia ciągów uczących n elementowa sekwencja ucząca {S}
indeksowana {1, … n} spełniająca (w przybliżeniu) własność
Dla każdego indeksu n>k>1
Średnia odległość w zbiorze {S1...Sk}≥ Średnia odległość w zbiorze {Sk+1...Sn }
Przybliżone spełnianie własności – nierówność spełniana z dużym p-stwem(problem w domenie statystycznej)
Metryka przestrzeni wzorców
Metryki (zależne od problemu) zdefiniowane na przestrzeni wejściowej wzorca (dX)
przestrzeni wyjściowej (dY)
są normalizowane poprzez E(dX) oraz E(dY)
Metryka zdefiniowana na przestrzeni wzorców łączy metryki obu podprzestrzeni
22
)(
),(
)(
),(])|[],|([
Y
YYY
X
XXXYXYX dE
bad
dE
badbbaad
Algorytmy porządkowania zbioru
Sortowanie odległości (DS)
1. dla każdego wzorca oblicz sumę odległości od innych elementów
2. posortuj elementy zgodnie z obliczoną wartością
Algorytmy porządkowania zbioru
Sortowanie odległości z usuwaniem wzorców (DSR)
1. dla każdego pozostałego do uporządkowania wzorca oblicz sumę odległości od pozostałych elementów
2. wybierz element o największej wartości sumy i przenieś go na początek sekwencji
3. jeśli pozostały jakieś elementy 1
Przykłady uporządkowania Tendencja
koncentracji jednego z końców na geometrycznym centrum przestrzeni
Przykłady uporządkowania Tendencja
koncentracji na ekstremach gęstości p-stwa
Przykłady uporządkowania
Przykład wieloklastrowy
Przykłady uporządkowania
Porządek sekwencji w problemie aproksymacji funkcji
Jednostajny rozkład wzorców w X
Przykłady uporządkowania Porządek
sekwencji w problemie aproksymacji funkcji
Niejednostajny rozkład wzorców w X
Przeplatanie sekwencji uczących
Bezpośrednie zastosowanie uporządkowanej sekwencji uczącej może być nieefektywne ze względu na złamanie ciągłości reguły w chwili łączenia sekwencji (po ostatnim elemencie)
Propozycja: losowe przeplatanie sekwencji uporządkowanej sekwencją losową, zgodnie z wybranym modelem p-stwa
Przeplatanie sekwencji uczących
Zaproponowany model p-stwa
p – p-stwo początkowe η – współczynnik redukcji p-stwa t – numer epoki
)exp().( tpseqordPt
Wyniki
Problem testowy: rozpoznawanie izolowanych odręcznie pisanych cyfr
Architektura sieci i parametry procesu:MLPWarstwa ukryta zawierająca 30 neuronów600 epok uczących alg. propagacji wstecznej
Wyniki
Testowane sekwencje DS oraz jego odwrotność DSR oraz jego odwrotność Hipoteza zerowa
Parametry procesu p = 1.0 η wybrane tak, aby P600 = 0.03
Każda populacja o liczności 100 (wagi inicjowane losowo)
Wyniki.
Hipoteza zerowa„przedstawiony algorytm nie poprawia
skuteczności uczenia”reprezentowana przez procesy:
z jedną losową sekwencją uczącą z dwiema różnymi sekwencjami z przeplotem
Wyniki Istotna różnica w rozkładzie RMSE w populacjach
otrzymywanych w procesach z przeplotem 2 sekwencji losowych z przeplotem sekwencji uporządkowanej sekwencją losową z 1 sekwencją losową
średnie RMSE wyższe w procesach z sekwencjami losowymi
średnie RMSE najwyższe w procesach z 1 sekwencją losową
Najefektywniejsze klasyfikatory uzyskane w wyniku uczenia sekwencjami uporządkowanymi z przeplotem
Wyniki
Względna różnica RMSE dla procesu z sekwencją losową i sekwencją uporządkowaną przeplataną losową
Strona dodatnia wykresu: proces z sekwencją uporządkowaną
Dalsze prace
Wyjaśnienie zaobserwowanego zjawiskaHipotezy:Większa zdolność do opuszczania lokalnych
minimów (ograniczenie efektu znoszenia się zmian)
W czasie pełnej prezentacji ciągu uczącego sieć „przeszukuje” większy fragment przestrzeni wag
Dalsze prace
Problemy do rozwiązania: usunięcie nieciągłości reguły przy sklejaniu sekwencji
droga: ekstrakcja najważniejszych własności z bieżącego modelu
zmniejszenie kosztu porządkowania sekwencjidroga: lokalizacja (w sensie elementów sekwencji) procesu porządkowania. Porządkowanie w trakcie uczenia
Dalsze prace
Generalna własność:średnia odległość kolejnych 2 elementów ciągu uporządkowanego wyższa od średniej odległości w zbiorze wzorców
Jej lokalne spełnienie w trakcie uczeniaAdaptacja do bieżącego elementuAdaptacja do bieżącego stanu sieci
Dziękuję za uwagę
Pytania? Wnioski? Pomysły?
top related