lunes, abril 04, 2011

¿Donde están los encuestados?

Confieso que con este tema suele saltarme la fecha, y que siempre que veo algo raro en algún dato del INDEC sospecho que hay tongo (sobre todo conociendo, por ejemplo, cosas como estas) pero seguro esta vez hay una buena y razonable explicación.

¿Alguien sabe porque, luego de la incorporación de Viedma, San Nicolas y Rawson en el tercer trimestre de 2006 (y en particular desde la intervención dos trimestres después) el número de personas encuestadas en la Encuesta Permanente de Hogares (EPH) ha mostrado una persistente tendencia declinante?
Me contengo de hacer comentarios, así no levanto la perdiz como aquella vez.

Atte

L

12 comentarios:

El Pulpo Paul dijo...

Muy buen post Luciano!
Siempre al día con la manipulación de datos de la EPH!
Un abrazo grande!

Pasate por el blog!
http://www.expectativasirracionales.blogspot.com/

Hector M. dijo...

Probablemente han reducido el tamaño de la muestra para "ahorrar". Esto podría ser racional si se hace bien, por ejemplo introduciendo diseños muestrales más estratificados para reducir la varianza muestral, pero no sé por qué sospecho que probablemente no ha sido de ese modo.
Por otro lado, lo que se muestrea en la EPH no son personas sino hogares. No creo que en tan poco tiempo haya bajado mucho el tamaño promedio de los hogares, pero la medida correcta para este post sería el número de hogares encuestados. Con la base de datos se puede obtener fácilmente ya que hay datos por persona y datos por hogar. Solo con los datos de personas, el número de hogares viene dado por el número de personas que son jefes de hogar.

Hector M. dijo...

Otra posible causa de declinación puede ser un aumento importante del número de rechazos (gente que rehusa ser encuestada) y que no son reemplazados por otros hogares mejor dispuestos.
En este tipo de encuestas, los rechazos están usualmente correlacionados con el nivel socioeconómico (los marginales y los más ricos son los que más rehusan ser encuestados), y no siempre se consiguen reemplazos de nivel equivalente (por ejemplo vecinos), de modo que eso puede causar distorsiones muestrales. Este tipo de distorsión siempre ha estado presente como posibilidad, pero es posible que haya aumentado desde la intervención del INDEC, en especial en la encuesta de Capital y Conurbano que la realiza el propio INDEC.
De todas maneras es difícil saber cuál es la causa dada la falta de transparencia (por decirlo suavemente) que rige en el INDEC desde 2007.

Luciano dijo...

Hector: Estuve viendo y, en efecto la caida se explica por una caida del número de hogares, que explica el 60% de la caida, y del promedio de personas en el hogar que explica el 40% restante (hay un efecto compuesto despreciable)

Sobre la caida de la muestra de hogares no se me ocurre mucho, pero hay varios factores que podrían explicar la caida de las personas promedio por vivienda (una de ellas puede ser el proceso de "inquilinización" que muestra ELY en este post http://yeyati.blogspot.com/2011/01/de-la-distribucion-del-ingreso-la.html).

Hector M. dijo...

Luciano:

El número de personas por hogar es una variable que viene secularmente cayendo desde hace muchas décadas. Ahora bien, en condiciones de mala supervisión y pobreza metodológica como las que sufre el INDEC puede darse el caso de que se hayan introducido errores de concepto y también "errores" a propósito. Lo primero que se selecciona en las encuestas no son personas ni hogares, sino viviendas, definidas como una unidad habitacional con una salida común al exterior. Cuando un encuestador llega a una vivienda seleccionada, dentro de ella puede encontrar un solo hogar (que es lo más común) o bien más de un hogar aun cuando compartan la misma salida al exterior. Las normas de la encuesta pueden indicar que se entreviste a todos los hogares de esa vivienda, o solo a uno de ellos. Un subgrupo de personas se considera como un hogar cuando cumple con los requisitos establecidos para ello (por ejemplo tener un presupuesto propio, compartir las comidas, u otros semejantes). Para cada hogar se llena una encuesta separada.
Por un lado puede ser que los ilustres científicos que ahora conducen el INDEC hayan introducido cambios en estas definiciones, de modo que (por ejemplo) si un matrimonio mayor convive con su hijo y nuera, tal vez antes las normas lo clasificaban como un solo hogar (con 4 personas) y luego pasaron a considerarlo como dos hogares (con 2 personas cada uno), de los cuales entrevistan solo a uno de ellos. De este modo, donde antes se entrevistaban 4 personas pasan a entrevistar solo 2.
Aparte de las normas explícitas, y considerando que los encuestadores pueden recibir una remuneración por hogar entrevistado (no sé si esto es lo usual en la EPH), podría existir un incentivo para que los encuestadores "definan" el hogar más pequeño posible a fin de poder completar más hogares en el día, y cobrar más (en este ejemplo, entrevistarían a los viejos y no al hijo y nuera, con la ventaja de que el viejo será jubilado y entonces le tocan menos preguntas). Esto supone que al encuestador le paguen por hogar entrevistado. Por supuesto si el encuestador no cobra por hogar sino por día o por vivienda esta posible trampa sería menos aplicable.
Por más que haya aumentado el inquilinato no creo que por eso el tamaño promedio de los hogares haya bajado mucho en tan pocos años. Por el contrario, los hogares de inquilinato no son típicamente los más pequeños, porque en los niveles socioeconómicos más bajos hay típicamente mayor número de hijos menores por mujer, y también mayor número de hogares compuestos (con abuelos y otros parientes). Un descenso pronunciado del tamaño medio de hogar podría producirse por un aumento del número de personas solas, pero tampoco creo que eso haya cambiado mucho en pocos años.

gus dijo...

No sera que debido al horario de trabajo de nuestros esforzados funcionarios publicos encuestadores,aqui y en provincias,se de que terminen encuestando hogares de jubilados,que estan siempre en casa?

Mariano T. dijo...

Ese aglomerado significó un 30% de aumento de la muestra?No estarán sobrerepresentadas esas tres localidades?

Hector M. dijo...

Mariano,
ignoro el tamaño de muestra de esas tres localidades. No sé si el aumento se debe solamente a ello, o si aumentaron también las muestras de otras localidades.
Ahora bien, si una ciudad tiene una muestra más grande o más chica, ello incide en el margen de error de los datos de esa ciudad, pero no distorsiona los promedios o los totales, porque la muestra de cada ciudad es ponderada por la población total estimada de cada ciudad, sin importar el tamaño de su muestra.
De hecho, la capital y conurbano deberían tener una muestra más grande, en mi humilde opinión, para generar datos representativos de cada cinturón del conurbano y cada zona de la Capital.
Pero la ganancia de precisión cuando la muestra aumenta, digamos, de 3000 a 6000 hogares en una ciudad no es una ganancia tan grande. El incremento de precisión es decreciente. Pasar de 1500 a 3000 añade más precisión que pasar de 3000 a 4500 casos. Después de un cierto límite, la ganancia marginal es desdeñable, excepto para cifras pequeñas (por ejemplo, para estimar el número de desempleados de sexo femenino con más de seis meses de desocupación y con niños a su cargo, pues hay pocos casos de ese tipo en cualquier muestra).
Debe aclararse también que algunas provincias pagan por un número adicional de hogares en las muestras, por encima del presupuesto EPH del INDEC (o al menos así ocurría hace unos años).

Sirinivasa dijo...

Che, y qué querés decr con esto? Còmo era la serie antes de lo que mostràs? O antes aún, cuando estaban los impolutos saboteadores, no fluctuaba la muestra efectivamente contactada y encuestada? La pregunta con que titulas el post se responde sola con el grafico, pasaron de cuarentipico lucas a sesenta lucas.

Luciano dijo...

Siri, sinceramente, no quiero decir nada sino que era una duda genuina (la suba es previa a la intervención).

Simplemente me interesa entender la tendencia de los encuestados. En esta oportunidad (aunque en mi mente no puedo evitar elaborar teorias conspirativas) realmente creo que debe haber una buena explicación.

Luciano dijo...

y contestando a tu pregunta, en todas las bases disponibles de la EPH, con desagregación por aglomerado, no se encuentra ninguna tendencia decreciente de la muestra como la que hay desde la intervención. Cuando hay cambios son discretos.

¿Sabés qué? indagando un poco más me cuesta no transformar esa duda inicial en sospecha abierta.

Hector M. dijo...

Las muestras de cada aglomerado varían entre 1000 y 3000 hogares, generalmente mas cerca de mil cuando se trata de ciudades relativamente pequeñas. Esos 1000-3000 hogares corresponden aproximadamente a un rango entre 3000-4000 y 9000-12000 personas (el tamaño promedio por hogar está usualmente entre 3 y 4 personas, aunque naturalmente hay muchos hogares de 1-2 personas, o unos cuantos con 5 y más personas, algunos con más de 10.
Esto significa que la adición de tres conglomerados no puede explicar un saldo de más de 20000 personas. Por ello yo decía en un comentario anterior que en algunas provincias podrían haber aumentado el tamaño de la muestra para poder obtener estimaciones más confiables, especialmente de aquellos subgrupos relativamente más minoritarios (por ejemplo los desempleados, que suelen ser como 10% de la PEA, y alrededor del 5% de la población total: en una ciudad con una muestra total de 3000-4000 personas salen apenas 150-200 desempleados, que por ello no pueden ser desagregados confiablemente por sexo, edad, nivel educativo u otros aspectos).

Lo llamativo no es el brusco aumento de la muestra, que seguramente es el fruto de la incorporación de conglomerados y algún aumento en el tamaño de las muestras, sino la tendencia decreciente posterior a la intervención.