UČENIE ODMENOU A TRESTOM

UČENIE ODMENOU A TRESTOM

doc. Ing. Kristína Machová, CSc.

[email protected]/kristina.machova/

OSNOVA:

Charakteristika učenia odmenou a trestom

Získavanie riadiacich znalostí Reprezentácia a použitie Tabuľkový prístup Proces učenia Q-learning Bucket brigade Hodnotiace poznámky

CHARAKTERISTIKA UČENIA ODMENOU A TRESTOM

Rieši úlohy sekvenčného typu. Daný je počiatočný a konečný stav v stavovom

priestore. Hľadá cestu od počiatočného ku koncovému stavu. Je to nekontrolované učenie. Reinforcement Learning (RL) – posilňované učenie.

ZÍSKAVANIE RIADIACICH ZNALOSTÍ

Dané:čiastočné znalosti problémovej doményskúsenosti s prehľadávaním priestoru

Získame: presné rozhodnutie v každom stave Učenie spočíva vo vylepšovaní rozhodnutia Rozhodnutia – v mozgu agenta, vo fyzickom svete Agent počas hľadania generuje vlastné experimenty

– interná odmena Môže aj sledovať riešenie doménového experta

- externá odmena Riadiace znalosti môžu byť získané aj vyhodnotením

úspešných (výhry) a neúspešných (prehry, sľučky) ciest


Kvalita riešenia sa posudzuje podľa: Efektívnosti hľadaného riešenia Spoľahlivosti plánov po realizácii v externom svete Kvality návrhuRiešenie sekvenčnej úlohy vyžaduje viac krokov (informáciu o úspešnosti kroku dostane riešiteľ dlho po jeho vykonaní). To vedie k dvom základným istotám v učení:

Priradenie odmeny dobrým rozhodnutiam Priradenie pokuty zlým rozhodnutiam


Jedným z prístupov k získavaniu riadiacich znalostíje „učenie odmenou a trestom“.

Sústreďuje sa na preferenciu znalostí na výber operátora pomocou ohodnocovacej funkcie.

Odmena – REWARD sa prideľuje viac žiadaným stavom. Trest – NEGATIVE REWARD sa prideľuje menej

žiadaným stavom. Stratégia učenia: priblížiť sa prvým a vyhnúť sa druhým. Táto stratégia povedie v každom kroku k stavu

s najvyššou odmenou.

REPREZENTÁCIA A POUŽITIEUČENIA ODMENOU A TRESTOM

Reprezentácia: Pomocou tabuľky Popisuje páry stav s – akcia a. Každá bunka tabuľky obsahuje očakávanú odmenu,

reprezentujúcu vhodnosť vykonania akcie v danom stave

Použitie: Pomocou série rozhodnutí je možné prejsť od počiatočného ku koncovému stavu najkratšou cestou.

TABUĽKOVÝ PRÍSTUP

Takúto tabuľku je možné zobraziť ako orientovaný ohodnotený graf, ktorého uzlyznázorňujú stavy a hrany akcie. Hrany sú ohodnotené odmenou/trestom. Tento grafsa nazýva stavový priestor.

STAV OPERÁTOR ODMENA

(kocka a)(kocka b)(kocka c)(stôl t)(b na a)(a na c)(c na t)(prázdne b)(prázdne rameno)

(zlož b z a) 0.1

(kocka a)(kocka b)(kocka c)(stôl t)(a na c)(c na t)(prázdne a)(drží b)

(polož b na t)(polož b na a)

0.20.0

.

.

.

.

.

.

.

.

.

(kocka a)(kocka b)(kocka c)(stôl t)(b na c)(c na t)(prázdne b)(drží a)

(polož a na b)(polož a na t)

0.90.0

PROCES UČENIA

Používa sa dopredné reťazenie. To vyžaduje: Hľadanie tabuľkových vstupov pre aktuálny stav Výber akcie s najvyšším skóre Aplikovanie vybratej akcie na dosiahnutie nového stavuTroj-krokový cyklus sa opakuje kým nie je dosiahnutý požadovaný stav.Algoritmus mení - aktualizuje predikovanú odmenu uchovávanú v tabuľke stavov a akcií na základe skúsenosti.Najznámejšie aktualizačné schémy sú:

Q – learningBucket Brigade

Q - LEARNING

0<γ<1 je redukčný faktor0<β<1 je faktor rýchlosti učeniaQ(s,a) je interná odmenas’ je výsledný stav po aplikácii akcie a v stave sr(s,a) je externá odmena (daná učiteľom, apriórna),

nemusí byť zadaná každému páru (s,a),najväčšia býva pri konečnom stave

U(s’) je maximálna z očakávaných odmien v s’Pri dostatočnom počte TP aktualizačná schéma konverguje k nasledovnému výrazu:

)],()'(),([),( asQsUasrasQ ),(),(),( asQasQasQ

)'(),(),( sUasrasQ

Q - LEARNING

Pri dostatočnom počte experimentov sa môžealgoritmus premiestniť do najžiadanejšieho stavuz akéhokoľvek miesta v stavovom priestore.

Učenie je možné urýchliť zmenou faktoru rýchlosti učenia β (začína sa s veľkou hodnotou pre hrubúaproximáciu v počiatočnej etape učenia, znižovanímsa umožní presnejšie ladenie v posledných fázach).

Stratégia Q-learningu je odvodená z metódy dynamického programovania a Markovovských procesov

BUCKET BRIGADE

Ak algoritmus aplikuje akciu a v stave s, zníži sa Q(s,a)o frakciu f.Q(s,a). O tú istú časť sa zvýši odmenapredchádzajúceho stavu.

Prvý stav neodovzdá časť svojej hodnoty nikomu.Posledný nedostane internú odmenu od nikoho (jeho zdroj je externá odmena koncového stavu).

Iba niektoré stavy majú priradené externé hodnoty(hlavne koncové). Interná odmena odráža odhadžiadanosti akcie a v stave s.

HODNOTIACE POZNÁMKY

Výhody učenia odmenou a trestom: nepožaduje znalosti o efektívnosti operátorov dokáže zvládnuť neurčité a zašumené domény môže spolupracovať s externým svetomNevýhody učenia odmenou a trestom: nízka rýchlosť učenia zvlášť pri dlhých riešiacich cestách závislosť na postupnom spätnom šírení odmien

pozdĺž hľadanej cesty riešiteľ úlohy prechádza stavovým priestorom mnohokrát

kým odmeny dosiahnu všetky časti stavového priestoru.Riešením by mohlo byť rozdelenie priestoruna zmysluplné segmenty a oddelené trénovanieučiaceho systému nad každým segmentom.

UČENIE ODMENOU A TRESTOM

Documents