Warsztaty szkoleniowe z zakresu oceny oddziaływania instrumentów aktywnej polityki rynku pracy Ustalanie mocy testu i optymalnej wielkości próby Piotr Ćwiakowski, Kraków, 7 czerwca 2017 r.
Warsztaty szkoleniowe z zakresu oceny oddziaływania
instrumentów aktywnej polityki rynku pracy
Ustalanie mocy testu i
optymalnej wielkości próby
Piotr Ćwiakowski, Kraków, 7 czerwca 2017 r.
Plan wykładu
Dlaczego próbkowanie jest potrzebne? (powtórzenie)
Jakie znaczenie ma wielkość próby? (nowość)
Jaka próba jest dostatecznie duża? (nowość)
Jak zwiększyć moc testu? (nowość)
DLACZEGO PRÓBKOWANIE JEST KONIECZNE?
Próbkowanie pozwala…
1. Populacja docelowa 2. Próba badawcza
Takie same charakterystyki
(trafność zewnętrzna)
wnioskować o charakterystykach populacji
Typowe dylematy badacza (o wielkości próby)
• Powinienem wylosować 200, czy raczej 500
obserwacji do mojej próby?
• Jaka jest praktyczna różnica między próbą 200 a
500? Czy da się to skwantyfikować?
• Czy są jakieś reguły pozwalające ustalić optymalną
wielkość próby?
• Jak duża próba jest już wystarczająco duża?
JAKIE ZNACZENIE MA WIELKOŚĆ PRÓBY?
Przykład – badanie wzrostu Polaków
Załóżmy, że wybraliśmy (losowo) 10 osób z populacji Polski, mierząc ich
wzrost i następnie opierając się o prostą średnią wzrostu w próbie,
twierdzimy:
„średni wzrost Polaka wynosi 170 cm”
Dajecie wiarę temu wnioskowi? Dlaczego? Dlaczego nie?
Przykład – badanie wzrostu Polaków
Załóżmy teraz, że wybraliśmy (losowo) 1000 osób z populacji Polski,
mierząc ich wzrost i następnie opierając się o prostą średnią wzrostu
w próbie, twierdzimy:
„średni wzrost Polaka to 170 cm”
Czy wierzycie teraz mniej lub bardziej we wnioski z badania? Dlaczego?
Znaczenie wielkości próby
Duża próba losowa zwiększa wiarygodność badania, ponieważ:
• Mamy większą pewność że próba ma takie same
charakterystyki jak populacja.
• Jest mniejsza szansa, że ewentualne obserwacje odstające
spowodują obciążenie wyników.
• Jest większa szansa, że otrzymany wynik będzie bliższy
prawdziwemu i że błąd wynikający z przypadkowości losowania
będzie mniejszy.
Intuicyjnie: Im większa jest próba, tym mniejsza niepewność związana z wynikiem.
Case study - opis Pewien PUP postanowił zbadać średni wzrost osób bezrobotnych w swoim
okręgu. Całkowita liczba bezrobotnych w powiecie wynosi 1553.
Jakie mamy możliwości?
Case study - opis Pewien PUP postanowił zbadać średni wzrost osób bezrobotnych w swoim
okręgu. Całkowita liczba bezrobotnych w powiecie wynosi 1553.
Jakie mamy możliwości?
1) Zmierzyć wzrost wszystkich osób w populacji docelowej i podać wynik
(średnia).
2) Skonstruować próbę losową, policzyć średnią, przeprowadzić prosty test
statystyczny i wyciągnąć wnioski nt. wzrostu w populacji.
Ponieważ było wystarczające finansowanie projektu, analitycy PUP-u zmierzyli
wzrost wszystkich osób bezrobotnych w powiecie. Zatem bez wykorzystania
testów statystycznych, mogli stwierdzić że prawdziwy średni wzrost wśród
bezrobotnych (na terenie ich powiatu) wynosi 165,1 cm.
Dodatkowo, pewien dociekliwy analityk postanowił sprawdzić co by było, gdyby
zamiast obranej strategii zdecydowano się oprzeć badanie na próbie losowej
i estymować oczekiwany wzrost bezrobotnego, za pomocą średniej z próby.
Badacz przeprowadził w tym celu następujący eksperyment. Z tej samej
populacji wylosował 30 podprób – 10 po 5 os., 10 po 10 os. wreszcie 10 po 20
os.
Case study - analiza wyników
Średnie w podpróbach
n = 5 n = 10 n = 20
170,1 170 170
169,4 169 169
168 168,5 168,4
167,19 167 167
166,8 166,16 166,2
165,7 165,70 165,95
164,0 164,51 164,65
163,22 163 163,6
162,4 162 162,9
161 161,9 161
Średnie z średnich
166,0 165,5 165,4
Błąd standardowy oszacowań
2,72 1,78 1,51 Źródło: Kopczyński M. (2005). Podstawy statystyki. Podręcznik dla humanistów. Warszawa:
Oficyna Wydawnicza „Mówią wieki”.
Case study - analiza wyników
Średnie w podpróbach
n = 5 n = 10 n = 20
170,1 170 170
169,4 169 169
168 168,5 168,4
167,19 167 167
166,8 166,16 166,2
165,7 165,70 165,95
164,0 164,51 164,65
163,22 163 163,6
162,4 162 162,9
161 161,9 161
Średnie z średnich
166,0 165,5 165,4
Błąd standardowy oszacowań
2,72 1,78 1,51
Ta liczba oznacza, że w
pierwszej podpróbie
składającej się z 5 obs.
średni wzrost wyniósł 170,1
cm Ta liczba oznacza, że w
trzeciej podpróbie składającej
się z 20 obs. średni wzrost
wyniósł 168,4 cm.
Ta liczba oznacza, że w
drugiej podpróbie składającej
się z 10 obs. średni wzrost
wyniósł
169 cm.
Case study - wnioski Średnie w podpróbach
n = 5 n = 10 n = 20
170,1 170 170
169,4 169 169
168 168,5 168,4
167,19 167 167
166,8 166,16 166,2
165,7 165,70 165,95
164,0 164,51 164,65
163,22 163 163,6
162,4 162 162,9
161 161,9 161
Średnie z średnich
166,0 165,5 165,4
Błąd standardowy oszacowań
2,72 1,78 1,51
Przeciętny rezultat eksperymentu jest bliższy prawdzie w próbie
liczniejszej.
Case study - wnioski
Niepewność wyniku (mierzona bł. std.) jest mniejsza dla prób
liczniejszych
Średnie w podpróbach
n = 5 n = 10 n = 20
170,1 170 170
169,4 169 169
168 168,5 168,4
167,19 167 167
166,8 166,16 166,2
165,7 165,70 165,95
164,0 164,51 164,65
163,22 163 163,6
162,4 162 162,9
161 161,9 161
Średnie z średnich
166,0 165,5 165,4
Błąd standardowy oszacowań
2,72 1,78 1,51
Case study - podsumowanie
- W liczniejszej próbie jest większa szansa na to aby
wynik był dokładniejszy.
- Liczniejsze próby mają mniejszy błąd wyniku związany z
losowaniem (błąd czysto losowy).
- Liczniejsze próby mają bardziej stabilny wynik w ramach
eksperymentu (mniejszy błąd standardowy).
Skąd wiemy, że wnioski z badań nie
są przypadkowe?
Zwyczajowo przyjmuje się 95% poziom ufności.
Przez „ufność” rozumiemy pewność, że zaobserwowany
wynik nie jest przypadkowy (tzn. że nie wynika z błędu czysto
losowego).
Przedziały ufności są statystyczną miarą naszej ufności
w wyniki.
Testowanie przedziałem ufności
Grupa
eksperymentalna
Statystycznie
nieistotny wynik
Poziom
bezrobocia
95% poziom ufności
Wielkość próby = 200
35%
45%
40%
Grupa
kontrolna
Przykład
Rząd chciałby przetestować nowy model aktywizacji bezrobotnych i zdecydował
się na przeprowadzenie programu pilotażowego w jednym z powiatów. Połowa
losowo wyselekcjonowanych bezrobotnych została wybrana do nowego
programu, a wobec pozostałych stosowano politykę sprzed reformy.
Do badania ewaluacyjnego wylosowano po 200 osób do grupy kontrolnej i
eksperymentalnej.
Załóżmy teraz, że stopa zatrudnienia po roku działania wśród osób
obserwowanych w badaniu ewaluacyjnym, objętych nowym programem wynosiła
65%, a w grupie kontrolnej 55%. Pojawia się kluczowe pytanie:
Czy różnica między grupami jest statystycznie istotna?
Spróbujmy rozważyć kilka analiz statystycznych z różnymi zestawami
parametrów badawczych.
35%
45%
30%
Grupa
eksperymentalna
Grupa
kontrolna
Statystycznie
nieistotny wynik
Poziom
bezrobocia
95% poziom ufności
Wielkość próby = 200
Testowanie przedziałem ufności
Przykład (2) – ufność w wyniki
Co by się stało, gdyby wskaźniki 55% i 65% były
prawdziwe, a my byśmy wyselekcjonowali do badania 1000
osób (500+500) zamiast 400 (200+200).
Liczniejsza próba oznacza pewność wyniku
35%
45%
40%
Grupa
eksperymentalna
Grupa
kontrolna
Statystycznie
istotny wynik
Poziom
bezrobocia
95% poziom ufności
Wielkość próby = 500
Intuicja: szerokość przedziału ufności (błąd) a wielkość próby
błąd = ½ * szerokość przedziału ufności/efektu programu
Duża próba v. mała próba wnioski
• Liczniejsza próba zwęża przedziały ufności, co
odzwierciedla wzrost pewności wyników.
• Z licznością próby rośnie prawdopodobieństwo
zaobserwowania statystycznie istotnego wyniku.
Przykład (2) – Wielkość efektu
(effect size)
Załóżmy, że w wyniku działania tego samego
programu spodziewany jest większy efekt (20
punktów procentowych różnicy zamiast
wyjściowych 10 pp.).
Projektując ewaluację, powinno się zwiększyć czy
zmniejszyć próbę badawczą?
CLICKER QUESTION Program A: oczekujemy dużej różnicy w stopie zatrudnienia pomiędzy grupą eksperymentalną a kontrolną (20 pp.) Program B: oczekujemy małej różnicy w stopie zatrudnienia pomiędzy grupą eksperymentalną a kontrolną (10 pp.) Aby oba badania miały tę samą moc, który scenariusz badawczy powinien zakładać większą próbę? A. Program A
B. Program B
C. Taka sama próba dla
scenariuszy A and B
A. B. C.
0% 0%0%
Wielkość efektu v. wielkość próby
N = 200 N = 500
Wielkość efektu wnioski
• Im większy rezultat naszej polityki, tym
mniejszej próby potrzebujemy aby go
udowodnić.
Podsumowanie
Zakładając, że estymowany efekt jest prawdziwy, zwiększamy
prawdopodobieństwo jego udowodnienia jeśli nasza próba będzie
dostatecznie duża.
Więc jeśli zwiększanie próby może tylko poprawić jakość badania,
czemu nie badać za każdym razem całej populacji?
Podsumowanie
Zakładając, że estymowany efekt jest prawdziwy, zwiększamy
prawdopodobieństwo jego udowodnienia jeśli nasza próba będzie
dostatecznie duża.
Więc jeśli zwiększanie próby może tylko poprawić jakość badania,
czemu nie badać za każdym razem całej populacji?
• ograniczone fundusze,
• malejąca korzyść z dodatkowej jednostki w próbie (np. malejący
wzrost wiarygodności wyników z 1 dodatkowej osoby w dużej próbie).
Potrzebne jest zatem narzędzie, które pozwoli na policzenie optymalnej
wielkości próby.
Optymalnej, czyli minimalnej próby potrzebnej do udowodnienia na
danym poziomie ufności założonego a priori efektu.
JAKA PRÓBA JEST DOSTATECZNIE DUŻA?
POWER CALCULATIONS
Moc
Prawdopodobieństwo wykrycia efektu, pod
warunkiem że hipoteza o istnieniu efektu jest
prawdziwa.
Standardowo przyjmuje się poziom mocy testu
80%.
Oznacza to akceptację 20% prawdopodobieństwa
nie wykrycia efektu nawet jeśli jest prawdziwy.
Potrzebna jest większa próba, aby moc była większa!
Liczenie wielkości próby
• Mając:
• ustalony poziom ufności (zwykle 95%),
• założony poziom mocy testu (zwykle 80%),
• założoną wielkość efektu (zależy od
charakteru programu, ale za istotny uznaje się
efekt co najmniej na poziomie 20% odchylenia
standardowego w próbie),
możemy wyznaczyć minimalną wielkość próby
potrzebną do otrzymania statystycznie
istotnego wyniku.
Liczenie wielkości próby - przykład
Minimalny wykrywalny efekt
• Mając:
• ustalony poziom ufności (zwykle 95%),
• założony poziom mocy testu (zwykle 80%),
• założoną wielkość próby,
możemy policzyć minimalny efekt, jaki musimy
osiągnąć, aby udowodnić pozytywne skutki
ewaluowanej polityki.
JAK ZWIĘKSZYĆ MOC?
1. Zmienności w populacji
2. Wielkości efektu
3. Reprezentatywności próby
• Czy potrzebujemy stratyfikacji w schemacie
losowania?
4. Sposobu randomizacji (jednostki v. grupy):
• Czy losujemy pojedynczych respondentów,
czy raczej klastry? (szkoły, powiaty, etc.)
Moc testu zależy od wielu czynników
1. Jak podobne/różne są osoby w populacji?
Populacja
jednorodna
Populacja
zróżnicowan
a
Test: Jak reagują na zmiany?
Podobnie
W różny
sposób
Jeśli populacja jest jednorodna, jest mniejsza szansa na uzyskanie przypadkowego wyniku
130 cm
140 cm
130 cm Bez dodatkowego dożywiania wzrost dzieci wynosi 130 cm.
Jeśli w grupie eksperymentalnej dzieci są wyższe (140 cm) to jest to wynik
działania programu.
W eksperymencie kontrolowanym przeprowadzonym na grupie
heterogenicznej wnioskowanie nie jest takie proste – przypadkowość wyniku
jest większa.
Jeśli oczekiwany jest duży efekt, zostanie wykryty nawet w
małej próbie badawczej.
Dlaczego? Ponieważ przy zaobserwowaniu dużej różnicy w
punkcie końcowym prawdopodobieństwo, że taki wynik jest
przypadkowy, jest niewielkie.
Odwrotnie, jeśli oczekujemy małych efektów (ale mających
praktyczne znaczenie), należy zwiększyć próbę aby
zwiększyć szansę udowodnienia go w analizie statystycznej.
UWAGA: NIE NALEŻY ROBIĆ NIEREALISTYCZNYCH
ZAŁOŻEŃ ODNOŚNIE WIELKOŚCI EFEKTU!!
2. Jak poprawnie założyć wielkość efektu?
Kto jest wyższy?
Kto jest wyższy?
3. Stratyfikacja próby losowej
Czasami próba losowa nie jest wystarczająco duża,
abyśmy ex ante mieli zapewnioną
reprezentatywność badania (trafność zewnętrzna)
więc może okazać, że nie możemy rozciągnąć
wniosków z badania na populację.
Dlatego, musimy w schemacie losowania dokonać
stratyfikacji (warstwowania) aby upewnić się, że
kluczowe charakterystyki będą miały taki sam
rozkład w próbie i populacji.
4. Losowanie grupowe
Czasami zależy nam na posiadaniu w próbie osób
należących do różnych jednostek – szkół,
miejscowości, powiatów, etc. Co wtedy?
TEST Rząd zamierza dokonać ewaluacji nowego programu edukacyjnego w szkołach podstawowych. Badanie ewaluacyjne jest randomizowane na poziomie powiatu. Aby zwiększyć moc testu i wiarygodność badania analityk ma do wyboru jedną z dwóch strategii. Którą powinien zastosować?
A. Zwiększyć liczbę osób
badanych na poziomie
wybranego powiatu
B. Zwiększyć liczbę
powiatów
wyselekcjonowanych do
badania
Zw
ięks
zyć l
iczbę o
sób b
...
Zwię
kszy
ć licz
bę pow
iat..
0%0%
Przykład: losowanie grupowe v. indywidualne
Przykład: losowanie grupowe v. indywidualne
Przykład: losowanie grupowe v. indywidualne
4. Losowanie grupowe
Czasami zależy nam na posiadaniu w próbie osób
należących do różnych jednostek – szkół, miejscowości,
powiatów, etc. Co wtedy?
Jeśli losujemy na poziomie klastrów (np. powiatów), aby
utrzymać moc testu musimy zwiększyć ich liczbę.
Zwiększenie liczby osób wewnątrz klastrów nic nie da –
do próby będą trafiały osoby z tych samych klastrów,
wnosząc relatywnie niewiele nowej informacji – ich
zachowanie jest silnie powiązane z przynależnością do
konkretnego klastra.
Przykład: wyniki uczniów w ramach szkoły
Szkoła A
Szkoła B
Intuicyjnie: obciążenie wyników przy małej liczbie klastrów
A
B
A
B
Zwiększenie liczby uczniów w klastrze nie zwiększa wiarygodności badania.
Uczniowie w ramach szkoły będą podobni (profil
ucznia w ramach szkoły jest w miarę jednolity).
Nowy uczeń z tej samej szkoły w badaniu nie niesie
zbyt wielu nowych informacji i nie zwiększa
znacząco reprezentatywności badania.
Aby zwiększyć moc badania trzeba zwiększyć
liczbę szkół (czyli klastrów).
Współczynnik korelacji wewnątrzgrupowej (ρ)
Stopień w jakim są podobni (homogeniczni) respondenci w ramach klastra.
Jeśli ρ=1
• Wszystkie osoby w ramach klastra są takie same.
• Zwiększenie liczby osób w ramach klastra w ogóle nie poprawia jakości badania
• Efektywna wielkość próby jest równa liczbie klastrów
Jeśli ρ=0
Sytuacja taka sama, jak gdybyśmy mieli do czynienia z randomizacją na poziomie osób (z pominięciem klastrów).
Poniższe badania mają dokładnie taką samą
moc:*
• 80 klastrów, 20 osób w klastrze
• 40 klastrów, 1 067 osób w klastrze
Porównajmy koszty: 1 600 osób v. 42 680!
*Założony współczynnik korelacji wewnątrzgrupowej 5%
Przykład - klastry
Przykład – klastry vs losowanie indywidualne
Oba poniższe badania mają taką samą moc*:
• Poziom indywidualny: po 393 w grupie
kontrolnej i eksperymentalnej [N=786]
• Losowanie grupowe: 80 klastrów, 20 osób na
klaster [N=1600]
Jeśli losujemy z klastrów, potrzebna jest większa próba.
*Założony współczynnik korelacji wewnątrzgrupowej 5%
CLICKER QUESTION Zakładając, że rząd ma fundusze na 2000 wywiadów, którą opcję powinniśmy wybrać aby zmaksymalizować moc badania? (Wnioski z analizy mają dotyczyć populacji bezrobotnych w całej Polsce)
A. Przeprowadzenie 20 ankiet
na powiat w 100 powiatach.
B. Przeprowadzenie 50 ankiet
na powiat w 40 powiatach.
C. Przeprowadzenie 500 ankiet
na powiat w 4 powiatach.
D. Nie ma znaczenia, moc testu
i tak będzie wystarczająca.
A. B. C. D.
0% 0%0%0%
Inne sposoby zwiększania mocy przy tej
samej wielkości próby
• Stratyfikacja
• Kontrolowanie wszystkich istotnych zmiennych (e.g.
płeć, wiek, zawód)
• Solidne, rzetelne zbieranie danych
• Adekwatna metoda statystyczna
wskazówki dla analityków
REGUŁY KCIUKA
Reguły kciuka
Losowanie indywidualne:
• 100 osoba próba losowa rzadko jest wystarczająca.
• 1000 osobowa próba losowa (i równy podział między
grupę kontrolną i eksperymentalną) zwykle wystarcza.
Dobór grupowy:
• 10 klastrów w grupie eksperymentalnej i 10 w kontrolnej
rzadko jest wystarczające.
• 50 klastrów w grupie eksperymentalnej i 50 w kontrolnej,
z co najmniej 15 osobami w klastrze, zwykle wystarcza.
ZASTRZEŻENIE: ostateczna optymalna wielkość próby zależy od takich
czynników jak: zmienność zjawiska, korelacja wewnątrzgrupowa,
oczekiwana wielkość efektu, korelacja między wartościami punktów
końcowych przed i po badaniu, itd.
Kluczowe wnioski z wykładu
• Aby badanie było wiarygodne należy mieć
odpowiednią wielkość próby
• Zwiększenie próby powoduje zwiększenie
mocy badania • Randomizacja na poziomie osób poprzez wzrost liczby
osób
• Randomizacja na poziomie klastrów poprzez wzrost liczby
klastrów (a nie osób w klastrach)
• Wykrycie mniejszego efektu wymaga użycia
większej próby