Impact Evaluation 4 Peace 24-27 March 2014, Lisbon, Portugal 1 Muestreo para evaluación de impacto… en la practica Latin America and the Caribbean’s.

Impact Evaluation 4 Peace 24-27 March 2014, Lisbon, Portugal

1

Muestreo para evaluación de

impacto… en la practica

Latin America and the Caribbean’s Citizen SecurityTeam

Vincenzo Di MaroBanco Mundial

25 de marzo de 2014

Índice

1. Componentes para determinar el tamaño de la muestra Efecto mínimo detectable Potencia estadística Variabilidad de los resultados Muestreo por conglomerados (clustering)

2. Complicaciones Múltiples grupos de tratamiento Estratificación

3. Problemas Adicionales Adopción del programa Calidad de los datos 2

Determinar el tamaño de la muestra

Piensa en el tamaño de la muestra como la precisión de un “dispositivo de medición”. Entre más observaciones, más preciso será tu “dispositivo de medición”.

Mayor precisión significa que estás seguro de las conclusiones de tu evaluación

Ejemplo: ¿Cuál es la frase de abajo si sólo puedes ver dos letras?

El número de letras reveladas es análogo al número de observaciones Donde cada letra, por ejemplo, cuesta 100,000 dólares

Tu presupuesto es de US $ 1.3 millones. Si usas todo tu presupuesto, podrás revelar todas las letras Si tu predicción es incorrecta, perderás toda la inversión

3

a a a a

e a

Si incrementas el número de “observaciones” (en este caso letras)

4

Más observacio

nes

Más precisión

Más confianza

Determinar el tamaño de la muestra

a m o a e a u a c i ó

e i m a t o

Muestreo para evaluación de impacto

En evaluación de impacto: el objetivo es tener una muestra suficientemente grande para estimar el impacto con validez estadística.

Los conceptos estadísticos son similares (al muestreo en general), pero existen algunas consideraciones específicas para la evaluación de impacto.

En general, el tamaño de la muestra requerido para estimar un impacto es mayor al que se requiere para estimar promedios.

Componentes para determinar el tamaño de la

muestra en IE

Efecto mínimo detectable

Potencia estadística

Varianza de los resultados

Muestreo por conglomerados (clustering)

Lo siguiente aplica a experimentos (asignación aleatoria)

Efecto mínimo detectableDetectar pequeñas diferencias es más difícil

7

¿Quién es más alto? Cuanto más grande sea la muestra, más preciso será el dispositivo de medición es más fácil

detectar efectos más pequeños

Muestra más grande ≈ mayor precisión (del dispositivo de medición)

Efecto mínimo detectable

¿Cómo elegimos?

¿Cómo elegir el tamaño del efecto mínimo deseado? Efecto mínimo para un cambio de política Efecto mínimo para concluir que la intervención

no fue un fracaso Este programa aumentó las ventas en 40% y este

efecto es significativo desde el punto de vista estadístico ¡Muy bien! Vamos a pensar en cómo expandir el programa

Este programa aumentó las ventas en 10% y el efecto es significativo desde el punto de vista estadístico ¡Muy bien ! .... ¡Uy! espera un minuto, ¿gastamos todo este

dinero y las ventas sólo aumentaron 10%? 8

Potencia estadística(poder estadístico)

Potencia estadísticaError tipo 2: Se concluye que un programa no ha tenido impacto cuando realmente tuvo un impacto

Relacionado al error tipo 1: Concluir que un programa ha tenido un impacto a pesar de que el programa no ha tenido impacto en realidad (típicamente 1% ó 5%)

En la práctica: Los niveles más habituales de potencia son

80% o 90% Es decir, 20% o 10% es la probabilidad de

que no seamos capaces de detectar un impacto cuando este impacto realmente existe

Muestra más grande Mayor potencia9

Varianza de los indicadores del

resultado¿Cómo afecta la variabilidad de un indicador de resultado nuestra habilidad para detectar un impacto?

Ejemplo: ¿Qué patos son más grandes? ¿Cuántas observaciones en cada círculo se necesitan para responder?

10


resultado La comparación es más complicada; es decir, necesitamos más información (una muestra más grande) La respuesta puede depender de qué animal escojas

en el círculo azul o el círculo rojo

11


resultadoEn resumen: Más varianza (heterogeneidad) Más difícil detectar diferencias Necesitamos una muestra más grande

Complicación: ¿Cómo podemos saber sobre la variabilidad antes de decidir el tamaño de la muestra y recolectar los datos?

Ideal: Datos pre-existentes ... pero a menudo inexistentes

Puede utilizar los datos ya existentes de una población similar

Sentido común12

Muestreo por conglomerados

(clusters) En muchos casos prácticos, la aleatorización se realiza a nivel de los conglomerados (escuelas o centros de salud).

El problema radica en que las unidades dentro del mismo cluster suelen ser similares:

Unidad adicional (estudiante) de un cluster diferente (la escuela) te da más información.

Unidad adicional (estudiante) en el mismo cluster le dará menos información.

Conclusión: Cuando la correlación es muy alta dentro del cluster, se necesita una muestra más grande (porque se necesitan más clusters).

13

Otras consideraciones

1. Múltiples grupos de tratamiento

2. Estratificación

3. Adopción del programa

4. Calidad de los Datos

14


Múltiples grupos de tratamiento Cada grupo de tratamiento se compara al grupo de

control Comparar grupos de tratamiento requiere muestras

muy grandes Especialmente si los tratamientos son similares, las

diferencias en el impacto esperado entre los grupos de tratamiento serán probablemente pequeñas.

Resultados desagregados por grupos ¿Los efectos son diferentes para hombres y

mujeres? ¿Qué tal para diferentes industrias? Si se espera que el género/ industrias reaccionen de

una manera similar (similar impacto), entonces estimar las diferencias en el efecto del tratamiento también requiere muestras más grandes

15


Estratificación para obtener balance Para asegurar el balance entre los grupos de

tratamiento y de control, es deseable estratificar la muestra antes de la asignación al grupo de tratamiento

Estratos Sub-poblaciones Estratos comunes: ubicación, género,

industria, los valores de base (iniciales) de los resultados de interés

La asignación al grupo de tratamiento (o muestra) se lleva a cabo dentro de estos grupos 16

¿Por qué necesitamos estratificar?

Ejemplo de estratos con base en la región

= T = C


¿Cuál es el impacto en una región en particular? Es difícil decir con confianza


Asignación aleatoria dentro de cada estrato (región)

Dentro de cada región, ½ a el grupo de tratamiento y ½ al grupo de control.

Lógica similar para género, industria, tamaño de la empresa, etc.


Adopción del programa Una baja adopción del programa en el grupo

de tratamiento aumenta el tamaño del efecto detectable mínimo. En la práctica, baja adopción del programa equivale una

reducción en el tamaño de la muestra Sólo se podrá detectar un efecto si éste es realmente grande

Ejemplo: Ofrecer subsidios a las PYMEs en forma de servicios de apoyo al desarrollo empresarial Ofrecer a 5,000 empresas Sólo 50 participantes Probablemente sólo se puede decir con seguridad que hay un

efecto en las ventas si se convierten en parte de las empresas de la lista de Fortune 500!

20

Otras cuestionesCalidad de los datos

Calidad de los datos Datos de poca calidad en la práctica,

incrementan el tamaño requerido de la muestra Muchas observaciones faltantes (necesitan

remplazo) Aumento del error aleatorio.

Un punto importante es tener un buen coordinador de campo supervisando la recolección de datos 21

Otras cuestionesMétodos no

experimentales en la práctica

Todo esto aplicó a las evaluaciones experimentales (asignación aleatoria): En general, los métodos no

experimentales requieren muestras más grandes. Por ejemplo, Diseño de Regresión Discontinua require

muestras 3 o 4 veces más grandes)

¿Qué hacer en la práctica? Pregunta a los especialistas en muestreo Software:

Optimal Design (complejo pero hay muchas opciones) Stata (más simple pero hay menos opciones) 22

Resumen final

Muestra más grande

Efecto pequeño

Mayor variabilidad

Más precisión (potencia estadítica)

Unidades en cada grupo son muy similares (Clustering)

Adopción del programa y

calidad de los datosMúltiples grupos

de tratamiento y estratos

Impact Evaluation 4 Peace 24-27 March 2014, Lisbon, Portugal 1 Muestreo para evaluación de impacto… en la practica Latin America and the Caribbean’s.

Documents

muestra en

impacto en evaluacin

impacto es mayor

muestra piensa en

quin es ms alto

ventas en

entre ms observaciones

los niveles ms habituales