UČENJE I VIŠI KOGNITIVNI PROCESI Prolećni semestar 2013. Predavač: Goran S. Milovanović
Predavanje 6b UČENJE – Deo III: Instrumentalno učenje – vežbe
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 2
REŽIMI POTKREPLJENJA Hernstejnov zakon slaganja (engl. Matching law)
Ričard Hernstejn (1930 – 1994), Skinerov student na Harvardu: proučava izborno ponašanje Paralelni režimi potkrepljenja: organizam može da emituje više različitih reakcija (npr. postoji nekoliko poluga za pritiskanje) od kojih svaka potkrepljuje po sopstvenom režimu potkrepljenja.
kljucanje dugmeta A
kljucanje dugmeta B
VI 2 minuta VI 1 minut
U intervalu od 2 minuta, dugme A potkrepljuje jednom, a dugme B – 2 puta. Šta golub treba da čini? Hernstejn, 1961 – evo šta golubovi čine:
kljucanje dugmeta A
kljucanje dugmeta B
~ 33% vremena ~ 67% vremena
Hernstejnov zakon slaganja:
odnos rata reakcija = odnos rata potkrepljenja
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6b 3
USLOVNO POTKREPLJENJE Uspostavljanje uslovnog (sekundarnog) potkrepljenja
Primarni potkrepljivač
Arbitrarni stimulus
Podiže ratu reakcije R
kontingencija Arbitrarni stimulus
Podiže ratu reakcije R
= uslovni potkrepljivač
I faza
II faza
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6b 4
USLOVNO POTKREPLJENJE Faktori koji utiču na efikasnost uslovnog potkrepljenja
1. Frekvencija sa kojom je arbitrarni stimulus uparen sa primarnim potkrepljivačem. Outor, 1960: pokazuje da preferencija ka određenom sekundarnom potkrepljivaču raste sa kontingencijom između njega i primarnog potkrepljenja, ali u jednom trenutku dostiže maksimum bez obzira na dalji rast kontingencije.
2. Varijabilnost u davanju primarnog potkrepljenja sa kojim se uslovni potkrepljivač uparuje: ptice
će pokazati preferenciju za (i) sekundarni potkrepljivač koji je vezan za primarno potkrepljenje varirano kroz više različitih režima potkrepljenja, nego za (ii) sekundarni potkrepljivač koji je vezan za primarno potkrepljenje dato u jednom režimu potkrepljenja. Eksperimentalna studija Edmunda Fantina, 1967:
• sekundarni potkrepljivač + primarno potkrepljenje na FR1 u 50% vremena i FR99 u drugih 50% vremena je preferiran u odnosu na
• sekundarni potkrepljivač + primarno potkrepljenje na FR50 sve vreme. • Eksperimentalne životinje pokazuju sklonost ka riziku u izbornom ponašanju. • Fantino je Hernstejnov student (a Hernstejn je bio Skinerov student).
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6b 5
USLOVNO POTKREPLJENJE Faktori koji utiču na efikasnost uslovnog potkrepljenja
3. Operacije uspostavljanja primarnog potkrepljivača će uticati na efikasnost uslovnog potkrepljivača
Npr. ptica će reagovati na svetlo koje najavljuje da je kljucanjem moguće dobiti hranu intenzivnije ako je motivisana (gladna) kada je učila reakciju kljucanja nego ako nije. 4. Odlaganje primarnog potkrepljivača će uticati na efikasnost uslovnog potkrepljivača Npr. ukoliko svetlo označava početak perioda u kome reakcija kljucanja dovodi do hrane, ali se potkrepljenje odlaže, što je to odlaganje veće to će svetlo biti manje efikasno kao uslovni, sekundarni potkrepljivač.
Sekundarno potkrepljenje omogućava lančanje reakcija
SD – crveno svetlo R – kljucanje dugmeta SC – paljenje plavog svetla + hrana
SD – plavo svetlo R – kljucanje dugmeta na FR60 reakcija SC – paljenje zelenog svetla
SD – zeleno svetlo R – kljucanje dugmeta na FI60 sekundi SC – paljenje crvenog svetla
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6b 6
USLOVNO POTKREPLJENJE Fantinova teorija redukcije odlaganja (Delay Reduction Theory)
Studije izbornog ponašanja Paralelni režimi u lančanju reakcija (Concurrent-Chaining)
VIt VIt
T1 T2
Primarno potkrepljenje
Primarno potkrepljenje
Inicijalni linkovi: faza izbora VIt = VIt (dva ista režima varijabilnog intervala),
npr. oba su VI10 sec.
Terminalni linkovi: faza ishoda T1 i T2 su neka dva različita režima potkrepljenja
• U fazi izbora, davanje reakcije na bilo koje od dva SD pod istim režimom potkrepljenja vodi ka različitim režimima T1 i T2 u terminalnim linkovima.
• U zavisnosti od toga koji režim potkrepljenja, T1 ili T2, eksperimentalna životinja preferira, pri sledećem izlaganju inicijalnim linkovima emitovaće više reakcija ka SD koje je asocirano sa preferiranim režimom u fazi ishoda.
L R
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6b 6b
USLOVNO POTKREPLJENJE Fantinova teorija redukcije odlaganja (Delay Reduction Theory)
Studije izbornog ponašanja Paralelni režimi u lančanju reakcija (Concurrent-Chaining): Fantino, 1969.
Inicijalni linkovi: faza izbora VIt = VIt (dva ista režima varijabilnog intervala),
npr. oba su VI10 sec.
Terminalni linkovi: faza ishoda T1 i T2 su neka dva različita režima potkrepljenja
• U fazi izbora, davanje reakcije na bilo koje od dva SD pod istim režimom potkrepljenja vodi ka različitim režimima T1 i T2 u terminalnim linkovima.
• U zavisnosti od toga koji režim potkrepljenja, T1 ili T2, eksperimentalna životinja preferira, pri sledećem izlaganju inicijalnim linkovima emitovaće više reakcija ka SD koje je asocirano sa preferiranim režimom u fazi ishoda.
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6b 7
USLOVNO POTKREPLJENJE Fantinova teorija redukcije odlaganja (Delay Reduction Theory)
VIt = VIt (dva ista režima varijabilnog intervala)
• T – ukupno prosečno vreme do primarnog potkrepljenja mereno od početka faze izbora • tL – koliko je u proseku odlaže primarno potkrepljenje na terminalnom linku L („levi); npr. u VI60 sec. režimu, tL = 60, u VI25 sec. režimu, tL = 25, itd. • tR – koliko je u proseku odlaže primarno potkrepljenje na terminalnom linku R („desni“). • Edmund Fantino, 1969:
Neka su T1 i T2 takođe VI režimi (različiti!)
VIt VIt
T1 T2
Primarno potkrepljenje
Primarno potkrepljenje
L R
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6b 8
USLOVNO POTKREPLJENJE Fantinova teorija redukcije odlaganja (Delay Reduction Theory) – modifikacija Skvajers & Fantino, 1971.
• Levi član jednačine: odnos broja reakcija na jedan i drugi diskriminativni stimulus u fazi izbora (isto kao u Hernstajnovom zakonu slaganja).
• Desni član jednačine: • RfL – ukupna rata primarnog potkrepljenja za L („levi“) diskriminativni stimulus • RfR – ukupna rata primarnog potkrepljenja za R („desni“) diskriminativni stimulus
• uvođenje ovih članova poštuje prethodno ustanovljenu pravilnost vezanu za efekat frekvencije primarnog potkrepljenja na intenzitet uslovnog potkrepljivača
• T – ukupno prosečno vreme do primarnog potkrepljenja mereno od početka faze izbora
• tL – koliko je u proseku odlaže primarno potkrepljenje na terminalnom linku L („levi); npr. u VI60 sec. režimu, tL = 60, u VI25 sec. režimu, tL = 25, itd.
• tR – koliko je u proseku odlaže primarno potkrepljenje na terminalnom linku R („desni“) • (T – tX) – kolika je razlika između ukupnog prosečnog vremena do potrekpljenja T i
prosečnog odlaganja potkrepljenja tX na nekom terminalnom linku X – što je ovaj član veći, to je na odgovarajućem terminalnom linku potkrepljenje manje odloženo.
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6b 9
USLOVNO POTKREPLJENJE Značaj uslovnog potkrepljenja
Ljudsko složeno individualno i socijalno ponašanje nije uvek nagrađeno biološki primarnim nagradama tj. primarnim potkrepljenjem. Problem: na koji način je onda ljudsko ponašanje kontrolisano potkrepljenjem? Generalizovani uslovni potkrepljivači nastaju kada se uslovni potkrepljivač asocira za više različitih primarnih potkrepljivača, npr:
• gest odobravanja kod ljudi... • posvećena pažnja... • znakovi naklonosti... • novac.
generalizovana socijalna potkrepljenja
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6b 10
DISKRIMINACIJA I GENERALIZACIJA Diskriminativno operantno uslovljavanje (Skiner)
crveno svetlo
Postoji određeni stimulus, realizovan u Skinerovoj kutiji, koji je znak da će određena reakcija biti potkrepljena. SD – diskriminatorni stimulus Oznake (najčešće): SD – R će biti potkrepljena
SΔ – R neće biti potkrepljena
SD R SR Shema diskriminativnog
operantnog uslovljavanja
SD – diskriminativni stimulus
R – operantna reakcija
SR – operantni stimulus (potkrepljenje)
SΔ R ⌐SR
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6b 11
DISKRIMINACIJA I GENERALIZACIJA Gradijent generalizacije
Pitanje: ukoliko diskriminativno operantno uslovimo goluba na SD = 580nm, da li će on pokazati R ukoliko promenimo diskriminativni stimulus, npr. na SD = 550nm?601nm? 750nm? Rodžer Šepard: kako odrediti skup stimulusa koji imaju iste posledice kao određeni stimulus čije su posledice već poznate (problem određivanja konsekvencijalnog regiona)? Kada treba da generalizujemo, koliko široko? Problem empirijske indukcije: učenje shvaćeno kao problem matematičke statistike.
Gradijent generalizacije u eksperimentu Gutmana i Kališa, 1956.
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6b 12
DISKRIMINACIJA I GENERALIZACIJA Diskriminacija: fenomen pomeranja vrha
Eksperiment Hensona, 1959. Kontrolna grupa Diskriminativni stimulus SD = 550 nm potkrepljeno Eksperimentalna grupa Diskriminativni stimulus SD = 550 nm potkrepljeno Diskriminativni stimulus SΔ = 555 nm nepotkrepljeno Fenomen pomeranja vrha: gradijent generalizacije se „pomera od“ SΔ i postaje uži, specifičniji (peak shift phenomenon).
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6b 13
DISKRIMINACIJA I GENERALIZACIJA Diskriminacija
Dženkins i Harison, 1962.
Kontrolna grupa Diskriminativni stimulus ton SD = 1000Hz potkrepljeno (hrana) Eksperimentalna grupa Diskriminativni stimulus ton SD = 1000Hz potkrepljeno (hrana) Diskriminativni stimulus SΔ = 950Hz nepotkrepljeno Test R na rasponu 300 do 3500Hz. Diskriminacija: gradijent generalizacije postaje uži, specifičniji.