Top Banner
I122 Osnove umjetne inteligencije Tema: Klasiˇ cno planiranje. Planiranje uz nepouzdanost. 7.1.2016. predavaˇ c: Darija Markovi´ c asistent: Darija Markovi´ c
30

I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

Sep 02, 2019

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

I122 Osnove umjetne inteligencije

Tema: Klasicno planiranje. Planiranje uz nepouzdanost.

7.1.2016.

predavac: Darija Markovic asistent: Darija Markovic

Page 2: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 1Klasicno planiranje Planiranje uz nepouzdanost

1 Klasicno planiranje

2 Planiranje uz nepouzdanost

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 2/29

Page 3: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 1Klasicno planiranje Planiranje uz nepouzdanost

Klasicno planiranje

• pretpostavljamo da je okruzenje u kojem radimo jednoagentno,potpuno vidljivo, deterministicko i staticko

• za prikazivanje svijeta koristimo faktorizirani prikaz znanja: stanjesvijeta predstavljamo pomocu skupa varijabli

• za to koristimo jezik poznat pod imenom PDDL (eng. Planningdomain definition language) uz pomocu kojeg definiramo problemepretrazivanja: pocetno stanje, akcije koje se mogu provoditi uodredenom stanju, rezultat primjene akcija i testiranje cilja

• svako stanje je predstavljeno konjukcijom fluent (temeljni,bezfunkcijski atomi)

• koristi se semantika baza podataka: pretpostavka zatvorenog svijetaznaci da je fluent koji nije spomenut netocan (lazan), te imamopretpostavku o jedinstvenosti imena

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 3/29

Page 4: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 1Klasicno planiranje Planiranje uz nepouzdanost

Klasicno planiranje

• akcije se opisuju skupom shema akcija kojima se eksplicitno opisujufunkcije “Akcija(s)” i “Rezultat(s, a)”

• skup temeljnih (bez varijabli) akcija moze se predstaviti jednomshemom akcije

• shema se sastoji od imena akcije, liste svih varijabli koje se koriste ushemi, preduvjeta i efekata

• shema akcije se pretvara u logicke recenice uz pretpostavku da susve varijable univerzalno kvantificirane, te proizvoljno pridruzujemovrijednosti koje pridruzujemo varijablama

• kazemo da je akcija a primjenjiva u stanju s ako s zadovoljava svepreuvjete

• pocetno stanje se definira kao konjukcija fluenata• ciljevi se opisuju konjukcijom pozitivnih ili negativnih fluenata.

Problem je rijesen kada nademo niz akcija koje za rezultat imajustanje koji sadrzi sve fluente cilja (a mozda i jos neke dodatne)

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 4/29

Page 5: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 1Klasicno planiranje Planiranje uz nepouzdanost

Primjer 1.

Akcija(Letjeti(p, od, do),Preduvjeti: Na(p, od) ∧ Zrakoplov(p) ∧ ZracnaLuka(od)

∧ ZracnaLuka(do)Efekti: ¬ Na(p, od) ∧ Na(p, do))

Akcija(Letjeti(p1, ZLO, ZLP),Preduvjeti: Na(p1, ZLO) ∧ Zrakoplov(p1) ∧ ZracnaLuka(ZLO)

∧ ZracnaLuka(ZLP)Efekti: ¬ Na(p1, ZLO) ∧ Na(p1, ZLP))

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 5/29

Page 6: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 1Klasicno planiranje Planiranje uz nepouzdanost

Primjer 1.

Akcija(Letjeti(p, od, do),Preduvjeti: Na(p, od) ∧ Zrakoplov(p) ∧ ZracnaLuka(od)

∧ ZracnaLuka(do)Efekti: ¬ Na(p, od) ∧ Na(p, do))

Akcija(Letjeti(p1, ZLO, ZLP),Preduvjeti: Na(p1, ZLO) ∧ Zrakoplov(p1) ∧ ZracnaLuka(ZLO)

∧ ZracnaLuka(ZLP)Efekti: ¬ Na(p1, ZLO) ∧ Na(p1, ZLP))

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 5/29

Page 7: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 1Klasicno planiranje Planiranje uz nepouzdanost

Primjer 2. Transporta zrakoplovnog tereta

Pocetno stanje(Na(c1, ZLO) ∧ Na(c2, ZLP) ∧ Na(p1, ZLO)∧ Na(p2, ZLP) ∧ Teret(c1) ∧ Teret(c2)∧ Zrakoplov(p1) ∧ Zrakoplov(p2)∧ ZracnaLuka(ZLO) ∧ ZracnaLuka(ZLP))

Ciljno stanje(Na(c1, ZLP) ∧ Na(c2, ZLO))

Akcija(Utovariti(c, p, a),Preduvjeti: Na(c, a) ∧ Na(p, a) ∧ Teret(c) ∧ Zrakoplov(p)

∧ ZracnaLuka(a)Efekti: ¬Na(c, a) ∧ U(c, p))

Akcija(Istovariti(c, p, a),Preduvjeti: U(c, p) ∧ Na(p, a) ∧ Teret(c) ∧ Zrakoplov(p)

∧ ZracnaLuka(a)Efekti: ¬U(c, p) ∧ Na(c, a))

Akcija(Letjeti(p, od, do),Preduvjeti: Na(p, od) ∧ Zrakoplov(p) ∧ ZracnaLuka(od)

∧ ZracnaLuka(do)

Efekti: ¬ Na(p, od) ∧ Na(p, do))

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 6/29

Page 8: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 1Klasicno planiranje Planiranje uz nepouzdanost

Primjer 2. Transporta zrakoplovnog tereta

Plan koji daje rjesenje transportnog problema je sljedeci niz akcija

[Utovariti(c1,p1,ZLO), Letjeti(p1,ZLO,ZLP), Istovariti(c1,p1,ZLP),Utovariti(c2,p2,ZLP), Letjeti(p2,ZLP,ZLO), Istovariti(c2,p2,ZLO)]

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 7/29

Page 9: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 1Klasicno planiranje Planiranje uz nepouzdanost

Zadatak 1. Problem rezervne gume

Cilj je ispravnu rezervnu gumu propisno montirati na osovinu automobila,pri cemu je pocetno stanje ono s tockom s probusenom gumom na osovinii ispravnim u prtljazniku. Napisite PDDL opis problema i navedite baremjedno rjesenje.

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 8/29

Page 10: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 1Klasicno planiranje Planiranje uz nepouzdanost

Klasicno planiranje

• algoritmi planiranja mogu se promatrati kao algoritmi pretrazivanjaprostora

• na najopcenitijem nivou dijelimo ih na progresije (pretrazivanjeunaprijed) i regresije (pretrazivanje unatrag)

• kod planiranja unaprijed, razmatramo moguce efekte akcija, dok sekod pretrazivanja unatrag pitamo koja bi akcija dovela do zeljenogrezultata

• i kod planiranje je moguce koristiti heuristike; npr. jedna od mogucihheuristika bi bila ona koja zanemaruje preduvjete problema

• racun situacija: koristenje zakljucivanja logike prvog reda u svrhuplaniranja

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 9/29

Page 11: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 1Klasicno planiranje Planiranje uz nepouzdanost

Vrijeme, raspored i sredstva

• klasicno planiranje govori o tome sto napraviti i u kojem redosljedu,no ne kaze nista o vremenu: koliko dugo se akcija izvodi ili kada seizvodi

• s tim dijelom se bavi rasporedivanje

• u stvarnom svijetu postoje brojna ogranicenja s resursima kojamoramo zadovoljiti (broj osoblja, ista osoba ne moze u jednomtrenutku biti na vise mjesta i sl.)

• ukoliko problemi planiranja sadrze vremensko ogranicenje iogranicenje resursa, tada moramo koristiti drugaciji pristup

• problem dijelimo na dvije faze planiranja: prvo se provede klasicnoplaniranje, a zatim rasporedivanje

• takoder se koristi viserazinsko (hijerarhijsko) planiranje: planiramo naapstraktnom nivou, a u trenutku kada se sama akcija treba izvestiradimo odredena profinjenja plana

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 10/29

Page 12: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 2Klasicno planiranje Planiranje uz nepouzdanost

1 Klasicno planiranje

2 Planiranje uz nepouzdanost

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 11/29

Page 13: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 2Klasicno planiranje Planiranje uz nepouzdanost

Planiranje uz nepouzdanost

• ukoliko su rezultati akcija stohasticki koristit cemo Markovljeveprocese odlucivanja (MPO)

MPO su definirani s:

• skupom stanja s: S

• skupom akcija a: A

• funkcijom prijelaza T (s, a, s′)• vjerojatnostima da a iz s vodi u s′, tj. P (s′|s, a)• takoder se naziva model ili dinamika

• funkcijom nagrade R(s, a, s′)• ponekad je to samo R(s) ili R(s′)

• pocetnim stanjem

• ponekad i zavrsnim stanjem

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 12/29

Page 14: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 2Klasicno planiranje Planiranje uz nepouzdanost

Planiranje uz nepouzdanost

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 13/29

Page 15: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 2Klasicno planiranje Planiranje uz nepouzdanost

Planiranje uz nepouzdanost

• pretpostavka je da ishodi akcije ovise samo o trenutnom stanju, a ne io proslim stanjima

• u deterministickim okruzenjima trazili smo niz akcija iz pocetnog dociljnog stanja

• kod MPO trazimo optimalnu strategiju (politiku) π∗ : S → A• strategija π za svakom stanju pridruzuje akciju• optimalna strategija je ona koja maksimizira ocekivanu dobit, ukoliko

ju pratimo• eksplicitna strategija definira refleksnog agenta

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 14/29

Page 16: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 2Klasicno planiranje Planiranje uz nepouzdanost

Primjer 3. Optimalna strategija

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 15/29

Page 17: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 2Klasicno planiranje Planiranje uz nepouzdanost

Primjer 4. Trkaci automobil

• skup stanja: { Hladan, Topal, Pregrijan }• skup akcija: { polako, brzo}• nagrada je dvostruka ukoliko se ide brzo

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 16/29

Page 18: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 2Klasicno planiranje Planiranje uz nepouzdanost

Planiranje uz nepouzdanost

• uobicajeno je preferirati nagrade (dobit) koje se dobiju odmah uodnosu na one koje se dobiju kasnije

• vrlo cesto se uzima da vaznost nagrada opada eksponencijalno

• faktor umanjenja 0 < γ ≤ 1

• optimalna vrijednost (dobit, korisnost) stanja s: V ∗(s) ocekivanadobit ukoliko se pocinje u stanju s i djeluje optimalno

• q-vrijednost q-stanja (s, a): Q∗(s, a) ocekivana dobit ukoliko se ustanju s napravi akcija a i nakon toga djelujemo optimalno

• optimalna strategija: π∗(s) optimalna akcija u stanju s

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 17/29

Page 19: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 2Klasicno planiranje Planiranje uz nepouzdanost

Planiranje uz nepouzdanost

V ∗(s) = maxa

Q∗(s, a)

Q∗(s, a) =∑s′

T (s, a, s′)[R(s, a, s′) + γV ∗(s′)]

V ∗(s) = maxa

∑s′

T (s, a, s′)[R(s, a, s′) + γV ∗(s′)]

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 18/29

Page 20: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 2Klasicno planiranje Planiranje uz nepouzdanost

Iteracija vrijednosti

• zapocinjemo s V0(s) = 0, tj. pretpostavljamo da je ocekivana dobit 0

• ako nam je poznat Vk(s), odradimo jedan sloj expectimax

Vk+1(s)← maxa

∑s′

T (s, a, s′)[R(s, a, s′) + γVk(s′)]

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 19/29

Page 21: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 2Klasicno planiranje Planiranje uz nepouzdanost

Primjer 5. Trkaci automobil 2

Odredite vrijednost V2(s) za MPO iz Primjera 4.

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 20/29

Page 22: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 2Klasicno planiranje Planiranje uz nepouzdanost

Iteracija vrijednosti

konvergencija?

• ako je stablo maksimalne dubini M , tada je VM tocna vrijednostoptimalne dobiti

• u slucaju ako je γ < 1: u k−tom koraku Vk i Vk+1 se razlikuju zamaksimalno γkmax |R| pa s povecanjem k vrijednosti konvergiraju

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 21/29

Page 23: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 2Klasicno planiranje Planiranje uz nepouzdanost

Ocjena (procjena) strategije

• za odabranu strategiju π trebamo odrediti V π(s)

V π(s) =∑s′

T (s, π(s), s′)[R(s, π(s), s′) + γV π(s′)]

• odredivanje vrijednosti V π(s) radimo na sljedeci nacin

V π0 (s) = 0V πk+1(s)←

∑s′ T (s, π(s), s

′)[R(s, π(s), s′) + γV πk (s

′)]

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 22/29

Page 24: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 2Klasicno planiranje Planiranje uz nepouzdanost

Izvod strategije

• strategiju vidimo iz q-vrijednosti

π∗(s) = arg maxa

Q∗(s, a)

• iteracija strategija: za odabranu strategiju πi odredimo vrijednosti uzpomoc ocjene strategije

V πik+1(s)←

∑s′

T (s, πi(s), s′)[R(s, πi(s), s

′) + γV πik (s′)]

• nakon toga radimo poboljsanje kako bi dobili bolju strategiju uzpomoc izvoda strategija

π∗i+1(s) = arg maxa

∑s′

T (s, a, s′)[R(s, a, s′) + γV πi(s′)]

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 23/29

Page 25: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 2Klasicno planiranje Planiranje uz nepouzdanost

Zadatak 1.

Razmotrimo sljedecu mrezu:

Na raspolaganju imamo akcije lijevo (←) i desno (→) koje su 100%uspjesne. Dodatno u polju “a” imamo na raspolaganju akciju izlaz (exit)koja je takoder uvijek uspjesna i donosi nagradu 10. Analogno u polju “e”imamo na raspolaganju akciju izlaz (exit) koja je takoder uvijek uspjesna idonosi nagradu 1.

(a) Uz faktor umanjenja γ = 1 odredite sljedece vrijednosti: V0(d),V1(d), V2(d), V3(d), V4(d) i V5(d).

(b) Uz faktor umanjenja γ = 0.9 za istu mrezu, odredite sljedecevrijednosti: V ∗(a), V ∗(b), V ∗(c), V ∗(d) i V ∗(e).

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 24/29

Page 26: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 2Klasicno planiranje Planiranje uz nepouzdanost

Zadatak 2.

Razmotrimo sljedeci dijagram prijelaza, funkciju prijelaza i funkcijunagrade za MPO. Faktor umanjenja je γ = 0.5.

s a s′ T (s, a, s′) R(s, a, s′)

A − B 0.6 2

A − C 0.4 2

A + C 1 1

B − A 0.2 −2B − C 0.8 −2B + A 0.8 1

B + C 0.2 1

C − A 0.6 2

C − B 0.4 0

C + A 0.4 2

C + B 0.6 0

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 25/29

Page 27: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 2Klasicno planiranje Planiranje uz nepouzdanost

Zadatak 2.

Pretpostavimo da nakon k iteracija imamo sljedece vrijednosti za Vk:

Vk(A) Vk(B) Vk(C)

2.540 1.920 2.000

(a) Odredite Vk+1(C).

(b) Pretpostavimo da nakon konvergencije dobijemo sljedece vrijednosti:

V ∗(A) V ∗(B) V ∗(C)

3.324 2.601 2.717

Izracunajte Q∗(C,+) i Q∗(C,−). Koja je optimalna akcija u stanjuC?

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 26/29

Page 28: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 2Klasicno planiranje Planiranje uz nepouzdanost

Zadatak 3. Ocjena strategije

Razmotrimo mrezu iz zadatka 1.

(a) Uz γ = 1, odredite vrijednost za strategiju π1:

(b) Uz γ = 1, odredite vrijednost za strategiju π2:

(c) Uz γ = 0.9, odredite vrijednost za strategiju π3:

(d) Kako bi izgledalo poboljsanje strategije π3?

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 27/29

Page 29: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 2Klasicno planiranje Planiranje uz nepouzdanost

Zadatak 4. Izvod strategije

Razmotrimo sljedeci dijagram prijelaza, funkciju prijelaza i funkcijunagrade za MPO. Faktor umanjenja je γ = 0.5.

s a s′ T (s, a, s′) R(s, a, s′)

A − B 0.6 0

A − C 0.4 −1A + B 0.2 −2A + C 0.8 −1B − A 0.4 2

B − C 0.6 1

B + A 0.8 2

B + C 0.2 −2C − A 1 1

C + A 0.2 1

C + B 0.8 0

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 28/29

Page 30: I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je fluent koji nije spomenut neto can (laˇ

www.fizika.unios.hr/oui/

P 2Klasicno planiranje Planiranje uz nepouzdanost

Zadatak 4. Izvod strategije

Procjenjujemo sljedecu strategiju π:

A B C

− + +

Nakon k koraka imamo sljedecu procjenu:

V πk (A) V π

k (B) V πk (C)

0 1.060 0.640

(a) Izracunajte V πk+1(B).

(b) Pretpostavimo da nakon konvergencije imamo sljedecu tablicu:

V π(A) V π(B) V π(C)

0.150 1.335 0.749

Izracunajte Qπ(B,+) i Qπ(B,−). Koji bi bio izbor akcije u stanjuB ukoliko odredujemo poboljsanje strategije π?

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 29/29