UČENIE ODMENOU A TRESTOM doc. Ing. Kristína Machová, CSc. [email protected] people.tuke.sk/kristina.machova/
Jan 19, 2016
OSNOVA:
Charakteristika učenia odmenou a trestom
Získavanie riadiacich znalostí Reprezentácia a použitie Tabuľkový prístup Proces učenia Q-learning Bucket brigade Hodnotiace poznámky
CHARAKTERISTIKA UČENIA ODMENOU A TRESTOM
Rieši úlohy sekvenčného typu. Daný je počiatočný a konečný stav v stavovom
priestore. Hľadá cestu od počiatočného ku koncovému stavu. Je to nekontrolované učenie. Reinforcement Learning (RL) – posilňované učenie.
ZÍSKAVANIE RIADIACICH ZNALOSTÍ
Dané:čiastočné znalosti problémovej doményskúsenosti s prehľadávaním priestoru
Získame: presné rozhodnutie v každom stave Učenie spočíva vo vylepšovaní rozhodnutia Rozhodnutia – v mozgu agenta, vo fyzickom svete Agent počas hľadania generuje vlastné experimenty
– interná odmena Môže aj sledovať riešenie doménového experta
- externá odmena Riadiace znalosti môžu byť získané aj vyhodnotením
úspešných (výhry) a neúspešných (prehry, sľučky) ciest
ZÍSKAVANIE RIADIACICH ZNALOSTÍ
Kvalita riešenia sa posudzuje podľa: Efektívnosti hľadaného riešenia Spoľahlivosti plánov po realizácii v externom svete Kvality návrhuRiešenie sekvenčnej úlohy vyžaduje viac krokov (informáciu o úspešnosti kroku dostane riešiteľ dlho po jeho vykonaní). To vedie k dvom základným istotám v učení:
Priradenie odmeny dobrým rozhodnutiam Priradenie pokuty zlým rozhodnutiam
ZÍSKAVANIE RIADIACICH ZNALOSTÍ
Jedným z prístupov k získavaniu riadiacich znalostíje „učenie odmenou a trestom“.
Sústreďuje sa na preferenciu znalostí na výber operátora pomocou ohodnocovacej funkcie.
Odmena – REWARD sa prideľuje viac žiadaným stavom. Trest – NEGATIVE REWARD sa prideľuje menej
žiadaným stavom. Stratégia učenia: priblížiť sa prvým a vyhnúť sa druhým. Táto stratégia povedie v každom kroku k stavu
s najvyššou odmenou.
REPREZENTÁCIA A POUŽITIEUČENIA ODMENOU A TRESTOM
Reprezentácia: Pomocou tabuľky Popisuje páry stav s – akcia a. Každá bunka tabuľky obsahuje očakávanú odmenu,
reprezentujúcu vhodnosť vykonania akcie v danom stave
Použitie: Pomocou série rozhodnutí je možné prejsť od počiatočného ku koncovému stavu najkratšou cestou.
TABUĽKOVÝ PRÍSTUP
Takúto tabuľku je možné zobraziť ako orientovaný ohodnotený graf, ktorého uzlyznázorňujú stavy a hrany akcie. Hrany sú ohodnotené odmenou/trestom. Tento grafsa nazýva stavový priestor.
STAV OPERÁTOR ODMENA
(kocka a)(kocka b)(kocka c)(stôl t)(b na a)(a na c)(c na t)(prázdne b)(prázdne rameno)
(zlož b z a) 0.1
(kocka a)(kocka b)(kocka c)(stôl t)(a na c)(c na t)(prázdne a)(drží b)
(polož b na t)(polož b na a)
0.20.0
.
.
.
.
.
.
.
.
.
(kocka a)(kocka b)(kocka c)(stôl t)(b na c)(c na t)(prázdne b)(drží a)
(polož a na b)(polož a na t)
0.90.0
PROCES UČENIA
Používa sa dopredné reťazenie. To vyžaduje: Hľadanie tabuľkových vstupov pre aktuálny stav Výber akcie s najvyšším skóre Aplikovanie vybratej akcie na dosiahnutie nového stavuTroj-krokový cyklus sa opakuje kým nie je dosiahnutý požadovaný stav.Algoritmus mení - aktualizuje predikovanú odmenu uchovávanú v tabuľke stavov a akcií na základe skúsenosti.Najznámejšie aktualizačné schémy sú:
Q – learningBucket Brigade
Q - LEARNING
0<γ<1 je redukčný faktor0<β<1 je faktor rýchlosti učeniaQ(s,a) je interná odmenas’ je výsledný stav po aplikácii akcie a v stave sr(s,a) je externá odmena (daná učiteľom, apriórna),
nemusí byť zadaná každému páru (s,a),najväčšia býva pri konečnom stave
U(s’) je maximálna z očakávaných odmien v s’Pri dostatočnom počte TP aktualizačná schéma konverguje k nasledovnému výrazu:
)],()'(),([),( asQsUasrasQ ),(),(),( asQasQasQ
)'(),(),( sUasrasQ
Q - LEARNING
Pri dostatočnom počte experimentov sa môžealgoritmus premiestniť do najžiadanejšieho stavuz akéhokoľvek miesta v stavovom priestore.
Učenie je možné urýchliť zmenou faktoru rýchlosti učenia β (začína sa s veľkou hodnotou pre hrubúaproximáciu v počiatočnej etape učenia, znižovanímsa umožní presnejšie ladenie v posledných fázach).
Stratégia Q-learningu je odvodená z metódy dynamického programovania a Markovovských procesov
BUCKET BRIGADE
Ak algoritmus aplikuje akciu a v stave s, zníži sa Q(s,a)o frakciu f.Q(s,a). O tú istú časť sa zvýši odmenapredchádzajúceho stavu.
Prvý stav neodovzdá časť svojej hodnoty nikomu.Posledný nedostane internú odmenu od nikoho (jeho zdroj je externá odmena koncového stavu).
Iba niektoré stavy majú priradené externé hodnoty(hlavne koncové). Interná odmena odráža odhadžiadanosti akcie a v stave s.
HODNOTIACE POZNÁMKY
Výhody učenia odmenou a trestom: nepožaduje znalosti o efektívnosti operátorov dokáže zvládnuť neurčité a zašumené domény môže spolupracovať s externým svetomNevýhody učenia odmenou a trestom: nízka rýchlosť učenia zvlášť pri dlhých riešiacich cestách závislosť na postupnom spätnom šírení odmien
pozdĺž hľadanej cesty riešiteľ úlohy prechádza stavovým priestorom mnohokrát
kým odmeny dosiahnu všetky časti stavového priestoru.Riešením by mohlo byť rozdelenie priestoruna zmysluplné segmenty a oddelené trénovanieučiaceho systému nad každým segmentom.