miércoles, febrero 06, 2013

El otro B.L.U.E.

“Falta de timing” me dirán, ahora que está de moda el spanglish, o “Este post atrasa cinco años” o “¿Otra vez con esto?” y tendrán razón, pero quien sabe, quizás puedo salvar el alma de algún pobre desprevenido que caiga en la trampa del cada vez más pequeño grupo de paladares negros defensores de la intervención del INDEC.

Un argumento repetido es que no hay privado que pueda, por la escala necesaria para la tarea, replicar un índice de precios como el que elaboraba el INDEC antes de que decidieran destruirlo. Armar un índice requiere que decenas de encuestadores releven miles de comercios para registrar decenas de miles de precios. Ningún privado cuenta con esta estructura y, por ende, sus índices son poco representativos y no deben ser tomados en serio.

Este argumento, sin embargo, comete un error básico de estadística. Cuando uno tiene una muestra chica, el resultado que obtiene no está “sesgado” - es decir, es sistemáticamente distinto al real que obtendría si pudiera medir todos los precios - sino que, en cambio, tiene mayor varianza, es decir, oscila alrededor del verdadero valor con un margen de error mayor. Al igual que con el cepo cambiario, el problema con el INDEC es el BLUE

Si bien creo que la respuesta es bastante intuitiva, permítanme mostrarles un ejemplo que armé en un Excel que pueden descargar acá*

Imaginen que el siguiente gráfico representa la evolución verdadera de la inflación de los millones de productos que se venden a diario en la economía en cientos de miles de locales.

Ahora bien, ese índice captura el promedio, ponderado de alguna forma, de los precios de cada producto que, a su vez, es el promedio de los precios registrados en cada local. Para ello, en el Excel simulé aleatoriamente el precio de 800 productos distintos que mes a mes van acumulando una inflación igual a la inflación real +- 10%, cifra que se determina de manera aleatoria. Es decir que si, por ejemplo, la inflación de un mes es 1.5% la suba de precio promedio de cada producto se ubica entre 1.58% y 1.43%.

Así, por ejemplo, el acumulado de 36 meses para 9 productos elegidos al azar se ve en el siguiente gráfico. Como se ve, al hacerlo aleatorio se combinan precios que suben un 23% con otros que más que duplican su precio.

Pero esto es el precio promedio de un producto y lo que se registran son productos en locales, con lo cual el siguiente paso es abrir cada producto en una cantidad amplia de locales. Para ello, repito el paso previo simulando, para cada uno de los 800 productos, precios individuales en 70 locales. El precio en cada local oscila alrededor del precio promedio +- 10%. Es decir que si el precio promedio es 1.5, el precio en los locales va de 1.35 a 1.65.

La evolución del precio en cinco locales para uno de los productos se presenta en el siguiente gráfico.

Ahora supongamos que somos el INDEC, con capacidad de relevar el precio de los 800 productos en 70 locales (en realidad se releva aproximadamente el doble, pero el Excel se me hacía demasiado lento). La relación entre esta estimación y la inflación real es la del siguiente gráfico.

Noten como, en primer lugar, aun con una muestra de casi 60.000 precios, la inflación estimada por el INDEC no es la real, sino una estimación que oscila alrededor de ella.

Ahora bien, supongamos que en vez de ser el INDEC somos una consultora privada que artesanalmente recoge cinco precios por producto, en vez de 70. La estimación de la inflación mensual tomando dos grupos de cinco locales es la del siguiente gráfico.

Ahora imaginemos que somos una consultora aún más pequeña o incluso un estudiante que recorre locales y registra no cinco precios de 800 productos sino tan solo de 200. La estimación resultante se presenta en el siguiente gráfico.

Los gráficos muestran como, efectivamente, el Índice del INDEC es mejor que el de los privados. Su varianza es menor y oscila más cerca de la inflación real, mientras los privados en el caso más extremo de 200 productos llegan a tener diferencias de hasta un punto en la variación mensual.

¿Qué pasa si en vez de las variaciones mensuales vemos las interanuales?

A diferencia de un índice que este diseñado para sistemáticamente subestimar la inflación, los índices de los privados presentados arriba no presentan un error con un patrón reconocible sino que simplemente oscilan alrededor del valor real, a veces por arriba, a veces por abajo. Esto lleva a que la desventaja que tienen los privados, que hace que el dato de inflación mensual transmita relativamente poca información, se vaya diluyendo con el tiempo, a medida que se acumulan observaciones. Noten como el margen de error se redujo sensiblemente al pasar a variaciones interanuales, variación que se vuelve aún menos importante para los seis años de intervención del INDEC desde el día del *.

Así que ya saben, el argumento del tamaño muestral ya no sirve, no cinco años después del enchastre. Sólo queda pensar que estamos perpetrando un gigantesco y coordinado complot, aunque por suerte está Moreno y todo el poder del Estado para acallarnos y desarmar las células que subvierten al orden público.

Atentamente

L



*es archivo es grande y tiene pegadas las fórmulas como valores salvo la primer fila de cada grupo de datos, resaltada en un color distinto.

54 comentarios:

Musgrave dijo...

Tamaño de muestra
Intervalo de confianza



Cuando yo daba los prácticos con Landro-Vitale siempre pensé q era un tema muy fácil de entender
en fin.

H dijo...

Sos un capo.
H

Dario dijo...

El problema es que TODAS las mediciones de consultoras privadas dan por arriba del indice oficial. Si haces el mismo calculo pero SIEMPRE por arriba, entonces no arribas a la misma conclusion.

Anónimo dijo...

Buenas, estoy de acuerdo con que el tamaño de la muestra, no es la genera el sesgo, sino la volatilidad, pero en tu análisis me parece que faltan dos puntos claves, en cuanto a la medición de las consultiras privadas:

1) Los datos relevados sólo en algunos barrios de CABA, no sé hasta que punto son representativos de GBA, habría que estudiar si los precios se mueven de la misma manera, aunque posiblemente se vea que la correlación es alta, asique es sólo un punto vago el que planteo.

2) El tamaño de la muestra no tiene que ver con el sesgo, pero si la CALIDAD de la muestra, es decir, cómo se tomó esa muestra, y qué datos se utilizaron (si al azar o seleccionados), para calcular el índice despúes. Esto si ya me genera algunas dudas con respecto a los resultados que planteás.

niemca dijo...

Realmente muy bueno el razonamiento. Respecto al comentario de Darío, creo que estás asumiendo que la estimación oficial es o coincide con el parámetro poblacional.
Que no es el parámetro poblacional, sino otra estimación más, debería estar más que claro. Como estimador, la crítica al INDEC es obviamente que su estimación es todos los meses sesgada (hacia abajo), con lo cual no tiene sentido tomarla como referencia para establecer si las mediciones privadas son insesgadas y/o consistentes.

SQLero dijo...

Alguno en el 2007 antes de irse del Indec metió de jodita un *0.5 en el SQL de la consulta principal, y todavía siguen buscándolo.

Anónimo dijo...

discutimos sobre el INDEC, no vale la pena
ahora, si discutimos sobre estadistica, estas tomando como premisa no mencionada que el comportamiento sigue el teorema central del limite, y, la verdad, no se si es muy cierto, pretendes que efectivamente todo es gaussiano, y, no se si lo es.
pero, es discutir sobre estadistica, no sobre el INDEC

ejemplo, usar los precios de la comida en la costa no es adecuado, sin embargo, segun tu tesis, no tendria importancia.

en fin

ayj

PS repito, no discuto lo del INDEC, eso es indefendible, ahora, lo otro es bastante distinto, la distribucion puede ser de muchas formas, lo cual te lleva a complicaciones donde vos queres demostrar que los intervalos de confianza no dependen del tamaño muestral, que es lo implicito, asumiendo que en el largo plazo convergen

PS di estadistica 3 veces cuando recien existia el Visicalc

Anónimo dijo...

No Luciano, no...

Lo que vos afirmas (estimadores insesgados pero ya no de minima varianza), seria correcto si y solo si el sampling design que se lleva a cabo con una muestra chica es el "correcto."

Ahora bien, si por falta de recursos el sampling design de una empresa es "incorrecto" (por ejemplo, se saltea algunas estratificaciones, o elimina PSUs en forma no muy kosher), el estimador resultante va a ser sesgado.

Realmente, es carisimo hacer un survey de este tipo. Es mas que probable que una empresa chica no tenga los recursos necesarios, y pase a "ajustar" el disenio para hacerlo feasible... Obvio, puede que no, pero....

En fin, tu comentario no es muy kosher que digamos. Como minimo es simplista.

Utis

Anónimo dijo...

Otra vuelta de tuerca sobre tu comentario, el cual lamentablemente creo erroneo (o por lo menos, misleading).

Por que el estimador de precios debe ser insesgado?

No seria mejor un estimador apenas sesgado, pero de mucha menor varianza? (el clasico trade off entre precision y varianza de los estimadores muestrales).

Por el uso que se les va a dar, lo mas importante de estos estimadores de precios es que sean consistentes a traves del tiempo, por lo que deberia ser primordial aplicar estimadores de minima varianza. Y si eso se logra a costa de un sesgo equenio, adelante!!

Utis

Luciano dijo...

Pero el problema del sampling no tiene que ver con el tamaño, que es lo que planteo en el post.

No es una defensa a las estimaciones mal hechas, sino mas bien del hecho de que el tamaño importa menos de lo que se cree.

Anónimo dijo...

el tamaño importa poco siempre y cuando la distribucion geografica sea uniforme, no lo es, por eso el ejemplo de la costa, y el movimiento de las variables sea uniforme, coherente y simultaneo (esto ultimo es menor, en el limite convergen)

ayj

vuelvo, discutimos estadistica, no INDEC

Mariano T. dijo...

Se puede aplicar el mismo concepto al supuesto "sesgo plutocratico", a la larga es razonable. Suponer que todas las canastas convergen.

Anónimo dijo...

No, Luciano: el tamanio importa (como se suele quejar mi mujer)

Es mas, en casos como el de indice de precios, no interesa tanto que el estimador sea insesgado como que sea ECM optimo (que la suma de su varianza y el sesgo al cuadrado sea minima).

Y esto es porque el indice que se calcula en si mismo, no dice nada. Que sea 10,000 o 15,000 no dice per se nada. Su importancia va en relacion a un indice base (cuanto aumenta o baja). Por lo que si bien es deseable que sea insesgadom, vos lo que necesitas si o si que sea de minima varianza.

Y este no es un concepto nuevo en sampling. Quizas vos sepas que en animal breeding, el valor genetico de un toro se estima con un estimador que no es BLUE, sino que es optimo ECM !! Y esto es porque el valor de cria (el numerito que va al lado de cada toro) en si mismo no interesa, lo que interesa es su posicion en el ranking de estimaciones (para tomar decisiones de seleccion genetica).

Ojo, Luciano. Yo no digo que no sea bueno que el estimador sea insesgado. Es mas, es bien posible que estimadores de empresas chicas sean optimos!! Por que no? Solo marcoi que tu argumento de centrarte solo en el sesgo y no tant oen la varianza es tecnicamente erroneo.

Te repito, para arguir sobre estimadores optimos aca, tenes que centrarte en estimadores ECM (again: es bien posible que los estiumadores privados lo sean. Yo solo marco la falla de tu argumento)

Utis

PS: que tiene que ver eso del sesgo plutocratico en esta discusion?

Marcelo dijo...

Dejando aclarada mi total ignorancia en temas estadísticos, dos preguntas:
- ¿Por qué siempre que se habla del INDEC, de su destrucción, del desastre de la intervención, etc etc, sólo se refiere al IPC, y nunca se mencionan los demás programas estadísticos?
- ¿Por qué nadie habla del INDEC previo a la intervención, y siempre se da por hecho que era una maravilla, que era un santuario de las estadísticas? O sea, ¿la corrupción alcanzaba a todo el Estado menos al INDEC?

Anónimo dijo...

Mi opinion (desde la ignorancia)

>>¿Por qué siempre que se habla del INDEC, de su destrucción, del desastre de la intervención, etc etc, sólo se refiere al IPC, y nunca se mencionan los demás programas estadísticos?

Porque ese fue el tema que instalo el gobierno cuando intervino el INDEC. El motivo que se dio se centro en el IPC.

>>¿Por qué nadie habla del INDEC previo a la intervención, y siempre se da por hecho que era una maravilla, que era un santuario de las estadísticas? O sea, ¿la corrupción alcanzaba a todo el Estado menos al INDEC?

Es claro que, antes de la intervencion, el INDEC era considerado una institucion que produicia estadisticas confiables. Con limitaciones, pero de las mas solidas de Latinoamerica (y del mundo periferico/no desarrollado).

Pero creo que el concepto erroneo que tenes (me permito interpretar tu pregunta) es el pensar que una agencia no tiene fallas. Siempre las tiene. Sus estadisticos raramente son perfectos (entre otras por comentarios que sumariamente le comente a Luciano hace poco mas arriba). Por ende, una agencia de este tipo SIEMPRE y en forma CONTINUA requiere cambios y modificaciones para ajustar sus mediciones a la realidad que cambia y que sus estimadores empiezan a no reflejar. Simepre han habido cambios y ajustes con los indices.

El tema de este gobierno con el INDEC no es que el gobierno haya ordenado se cambie (lo cual siempre ocurre), sino que en vez de ajustar nuevamente el indice, directamente dinamito el anterior, empezando de cero con uno nuevo del cual aun no se sabe quien que metodologia usa.

Esto, tecnicamente, es una burrada.

Pudo haberla hecho para asi bajar el pago de la deuda (si la inflacion real se reflejara en el IPC, la deuda publica aumentaria significativamenete) o para propaganda interna (aunque cualquiera que viva en argentina sabe que hay inflacion alta)

Pero sin duda, lo que ha hecho con esta burrada es hacer no solo que el IPC carezac de confianza, sino aal mismo tiempo erosiono toda confianza en los demas indicadores de la agencia.

Utis

Anónimo dijo...

Utis
es que el problema es que los demas indicadores lentamente fueron mutando para ajustarse a la defincion oficial (notese el uso cuidadoso de las palabras).
Sino, tenias indicadores que decian blanco, otros gris y otros negro, lo cual no pasaba ponele en el 2005, creeria que en 1980 y 1990 si, pero no tan acentuado, o el establishmente estaba contento, no lo se, mentiras del INDEC siempre hubo, uy, se me escapo

ayj

Anónimo dijo...

Disculpame ayj, pero no entiendo bien lo que queres transmitir.

Estas tratando de justificar la intervencion del INDEC?

Espero que no, claramente no tiene justificacion

Estas tratando de decir que los indices anteriores tenian fallas, motivadas pro razones de interes partidario?

Es seguro con probabilidad uno que tenian fallas. Con respecto a las motivaciones que pudieron haber habido para esas fallas, no tengo data para poder afirmar nada. Vos tenes? O estas repitiendo algo que alguien dijo oen algun lado?

De todas formas, a esta altura no importan las motivaciones ni las fallas de lo anterior, tanto como el resultado de la intervencion del INDEC fue espantoso. Si las anteriores eran malas (como vos aseguras), al menos daban la posibilidad de ser ahustadas. Las de ahora son peor, ya que son totalmente inservibles.

Andrés dijo...

Cuantas vuletas... El problema es que los datos del indec están falseados. Todo este análisis lo sabe cualquier estudiante de economía de cualquier universidad decente. Busquen Inflación Verdadera o PriceStats si quieren la inflación en Arg y listo.

Anónimo dijo...

anonimo, vos leiste?
absolutamente
lo que pasa es que como consecuencia de ehem, usar datos cuyo origen no es kosher, cambia un indice, por ende, una vez o dos el ensemble se lo banca, muchas no, y por ende, debes usar datos no kosher en cada vez mas series.
de todas formas, empece, creo, o termine, o ambas, diciendo, estamos discutiendo de estadistica, no del INDEC

but, y eso si lo dije, las anteriores no eran todo lo rabinicas que debian ser, por mas que ahora digan que eran la tierra prometida
y tambien dije, creo, sino lo digo, que eso no justifica nada

last but not least, en los 70s 80s 90s dibujaban, vos ibas al super y decias, donde esta el caviar que no aumento, por ejemplo, lo que si me parece es que el establishment disimulaba esos, digamos, lapsus, no se la causa, como asi tambien acertaban sistematicamente con el al 2 do digito dias antes que el INDEC. podes buscar en los archivos de cualquier diario de la epoca.

vuelvo, eso no justifica nada del zafarrancho actual. debo repetirlo?

ayj

Anónimo dijo...

Impecable: simple, demoledor.

Como siempre lo mejor de la BEA,
por lejos.
A anios luz de todo lo conocido.

Abrazo y no aflojes !

Anónimo dijo...

Concuerdo con lo ultimo. Lo tuyo Luciano es lo mejor de la BEA.

Lo aclaro porque muchas veces aparezco criticando lo que haces, pero aun con errores aqui y alla, lo que haces es una contribucion solida para todos, para hacernos pensar, para entender. Y eso no es moco'e pavo

Gracias

Utis

Anónimo dijo...

BLUE también es Best Linear Unbiased Estimator. Hubiese estado bueno que hagas ese enganche también. Si bien no es 100% cierto.

Cresto dijo...

Ahora se me viene a la cabeza una duda a despejar antes de dar opinión sobre el post. ¿El IPC releva precios en los mismos locales siempre? Es decir, ¿se seleccionan X locales y se relevan Y precios y cada mes se hace el relevamiento en esos mismos X locales? ¿O cada mes (o cada determinado período de tiempo) se modifica parte o la totalidad de la muestra de locales? En el primer caso, sería un diseño de panel, ¿verdad?

Luciano dijo...

Se relevan siempre los mismos comercios aunque imagino (no estoy seguro) que una parte del panel se debe renovar periodicamente.

Leo Calabresi dijo...

Lástima que es una discusión superficial, ya que el problema del INDEC no es estadístico. Les dejo mi blog, recién empiezo http://elhijodecuca.blogspot.com.ar/

Saludos.

Leandro dijo...

Apenas lei esta frase, ya supe por que el análisis completo que seguiria estaba mal:
"Cuando uno tiene una muestra chica, el resultado que obtiene no está “sesgado” - es decir, es sistemáticamente distinto al real que obtendría si pudiera medir todos los precios - sino que, en cambio, tiene mayor varianza, es decir, oscila alrededor del verdadero valor con un margen de error mayor."

Lo que afirma es cierto, que la muestra sea chica no implica que este sesgado. Si la muestra fue representativa de la distribución estadistica de los datos, la media debería tender a media verdadera, aunque con mas dispersión.

Ahora, la clave aca es que las muestras no sólo son chicas, sino que todas y cada una de ellas están sesgadas. Por cuestiones regionales donde se tomo la muestra, por cuestiones de accesibilidad a las zonas deonde la gente REAL compra, y por mil factores. Y eso sin tener en cuenta el sesgo ideológico, es decir, como todos sabemos, manipulando la seleccion de meustras se puede manipular el resultado.

En teoría, si la razon de esos sesgos fuera a su vez aleatoria, y la cantidad de estimadores suficientemente grande, los sesgos de cada estimador se compensarían, y en promedio daría una medicion no sesgada.
Pero HE AQUI LA TRAMPA de este análisis: los sesgos de las encuestadoras preivadas son TODOS (o en su gran mayoria) para el mismo lado, porque son generados por instituciones que adversan al gobierno nacional y manejan sus estimadoes para que den más que lo que corresponde. Para dar un ejemplo, si la media fuera cero, y tengo un monton de estimaciones, algunas positivas, otras negativas, todas sesgadas pero con sesgo con distribución simétrica alrededor de la media, la media dara cero. Pero si tengo un monton de estimadores donde todas las mediciones dan positivo, el promedio de esas mediciones tendra un sesgo positivo, indefectiblemente. Simplemente porque la distribucion de los estimadoes no era simetrica respecto del valor verdadero.

Es decir, si hubiera mentirosos para ambos lados, por exceso y por defecto en similar distribución, el análisis seria razonable. Pero en un escenario donde las consultoras compiten entre si por ver cual se muestra mas opositora dando el resultado mas alto de IPC posible, suponer que el promediado de esos estimadores pueda ser insesgados es no solo de una ignorancia absoluta (cosa que no creo sea el caso del autor del post) sino de una mala leche absoluta (hipotesis por la cual me inclino).

Mariano T. dijo...

El problema Leandro es que estas comparando muestreos pequeños (que pueden o no ser suficientes) con un número falsificado como es el del INDEK, por eso no vas a ver estimaciones en defecto.
O sea que hay una sola medición sesgada, que se aleja de la realidad, y un montón de mediciones con error pero cuya media puede darnos una razonable estimación de la inflación real.
El día que el INDEK vuelva a publicar datos no retocados, todos van a converger. Por el momento, si a un docente le ofrecen 18% de aumento (que según el INDEK es 7 puntos arriba de la infación, y según los privados es 7 puntos menos), lo toma como un insulto y una provocación. El ya eligió quien es el que tiene la información sesgada.

Leandro dijo...

"O sea que hay una sola medición sesgada, que se aleja de la realidad, y un montón de mediciones con error pero cuya media puede darnos una razonable estimación de la inflación real."

Aha, si, claro.
Apenas salio el tema de que moreno les pidio detalles de las metodologias, nos enteramos por ejemplo que una de las consultoras lo que hacia era relevar los precios por internet (que suelen ser mucho mas alto, y encima sólo estan disponibles en las grandes cadenas de hipermercados). El que me diga que un estimador semejante es insesgado es un mentiroso absoluto.

No se por que sacas a colacion el INDEC si yo en mi comentario ni lo mencione. Lo que yo dije lo podes resumir en tres puntos:

1) El promedio de estimadores insesgados es insesgado.
2) El promedio de estimadores sesgados, pero donde el sesgo tiene una distribución simétrica respecto del valor real, tambien será insesgado (cuando N tienda a infinito, obvio)
3) El promedio de estimadores sesgados cuya distribución no sea simétrica respecto del valor real, es imposible que sea insesgado.

Cual es el origen del sesgo de las mediciones privadas?
- Origen regional: para ser representativos debe ser una muestra que tome toda la zona geografica con razonable cantidad de muestras. Pero si la muestra es chica es imposible que se capture la comlejidad de la distribucion, esto da lugar al sesgo.
- Origen logistico: a ciertas zonas no se entra por temor a la inseguridad, por distancia, por desconocimiento de la localizacion de los locales comerciales, etc.
- Origen metodológico: la muestra elegida no refleja las reales preferencias de los usuarios. Por ejemplo, en una zona donde el 80% de la poblacion compra en el almacen del barrio y sólo el 20% va a hipermercados, el 80% de las muestraas de precios se tomaron en hipermercados y no en almacenes de barrio.

Y seguro me olvido de muchas fuentes mas de sesgo. Como dije, si las consultoras fueran NEUTRALES y el numero de ellas grande, cada cual tendria sesgos diferentes y en promedio se anularian los sesgos. Es decir, tendrias una distribucion simetrica de los sesgos alrededor del valor verdadero.
Ahora bien, cualquiera de los sesgos que mencione, y muchos mas, pueden ser incluidos A PROPOSITO al seleccionar las muestras que se tomen (como el ejemplo que di de la "consultora" muy seria que relevaba precios de hipermercados por internet). Y dado que la mayoria de las consultoras responden a intereses que no concuerdan con las politicas economicas del gobierno, es bastante claro que sus medidas cuentan con un sesgo ideológico.

Suponer que del promedio de tales estimadores sesgados todos para dar lo mas alto posible, saldra un estimador insesgado, es tan absurda que no puedo creer tener que discutirla.

Leandro dijo...

Justo justo releyendo los comentarios veo uno de Andres que afirma que para saber la inflacion la cosa es tan sencilla como entrar a InflacionVerdadera. Justo justo la "consultora" tan super super seria que se encarga de relevar los precios por internet, como dice su propia pagina web, de la que pego lo siguiente:

"Es un indice mas amplio, que abarca más categorías de productos y servicios, y utiliza decenas de miles de precios diarios obtenidos en forma online de un gran número de comercios y fuentes de datos de todo el país"

Haganse un favor, agarren todos sus conocidos y preguntenle a todos los que se les crucen, cuantos de ellos hacen sus compras por internet.
Calculen despues el porcentaje de los que les respondieron que compran por internet.
Ese es el porcentaje de representatividad que tiene semejante estimador sesgado.

Y pensar que sobre las conclusiones elaboradas en base a semejantes brutadas hay gente dispuesta a decidir su voto, que tristeza! despues hablan de que hay votos de baja calidad porque supuestamente sus autores serian poco educados...

Leandro dijo...

Para concluir.
La gran falacia de este análisis es que parte de la hipotesis de que el tamaño de la muestra es la unica fuente posible de sesgo. Y eso es una ENORME falacia, facilmente detectable por cualquiera que tenga un minimo conocimiento estadistico.

Para esto voy a dar un ejemplo:
supongamos que en una ciudad hay 1000 comercios donde se puede comprar leche, y dados los costos implicados, una cosultora hace un muestreo de 10 locales. Aún si la seleccion de esos locales fuera al azar, podria pasar que los 10 locales sorteados fueran hipermercados, con lo cual claramente se introduce un sesgo porque la muestra no es representativa del fenomeno real.
Ahora bien, la hipotesis del autor es que si las consultoras son muchas, probablemente a otra el sorteo le de 10 super chinos y a otra 10 despensitas de barrio, y asi, al promediar un gran numero de mediciones, donde cada cual tiene sesgos distintos, el promedio pueda ser insesgado.

Bien, donde esta el error?
En que las muestras no se sortean, se eligen. Y esa eleccion no refleja la proporcion en la cual la poblacion elige cada tipo de comercio, por ejemplo, sino que se basa en cosas tan dispares como, por ejemplo, que tan facil es llegar desde el sistema de transporte para hacer la medicion, que tan seguro es el barrio, que tan rápido puedo hacer el relevamiento, cuanta gente tengo para hacer el relevamiento, cuanta plata estoy dispuesto a gastar en movilidad para hacer el relevamiento, y mas importante aún, qué quisiera que me dé el relevamiento (que es precisamente el sesgo ideologico que mencione antes). Mas de una consultora no toma precios en los chinos por que "son mas baratos", por ejemplo. O toma una proporcion mínima de super chinos cuando la poblacion de la zona en su mayoria los elige a ellos.

Esto da lugar, como ya explique, a sesgos que NO SE COMPENSAN.

Si partimos de hipotesis tan claramente falsas, llegaremos a conclusiones tan falsas como las falacias sobre las que las construimos.

Anónimo dijo...

Perdon Leandro, pero creo estas confundido.

>>Ahora, la clave aca es que las muestras no sólo son chicas, sino que todas y cada una de ellas están sesgadas
>>..el tamaño de la muestra es la unica fuente posible de sesgo

Perdona, pero esto no tiene sentido: El sesgo (o falta de) es una caracteristica del estimador, no de la muestra. El tamanio de la muestra afecta la varianza del estimador, pero no su sesgo.

El resto del mensaje tampoco esta muy claro. Puede ser que estes pensando que el unico tipo de muestreo que existe es el muestreo completamente aleatorio? Da la impresion como que estas pensando este tipo de muestreo, cuando en realidad los censos siguen claramente algun tipo de muestreo estratificado.

Quizas sea yo, y de ser asi perdoname que no te entienda, pero realmente creo que estas muy confundido en temas de muestreo.

Utis




Leandro dijo...

Yo estoy confundido?

Vaya a buscar "Sesgo muestral" en algun libro de estadistica.

Por si no tiene a mano, aca tiene de wikipedia, una fuente no tan "cientifica" y confiable pero razonablemente buena.

http://es.wikipedia.org/wiki/Sesgo_muestral

Saludos

Leandro dijo...

Utis, voy a tratar de explicarlo mejor, porque precisamente el asunto del muestreo es la clave del asunto, responsable del sesgo. Fijate que en mi texto dije "AUN cuando la muestra se tomara en forma aleatoria" se presentaria el problema, es quiere decir que más aún, se presentaria si no fuera aleatoria.

Cuando uno hace una estimación estadística, hay dos fuentes de sesgo. Una es el mismo estimador, que puede o no ser sesgado. Si el estimador es sesgado, va a ser sesgado siempre y punto. Ahora bien, aún si el estimador es no sesgado, la estimación puede estar afectada por un sesgo muestral, asociado a la metodologia usada para tomar la muestra.

Te lo ilustro con un ejemplo: suponete que queres estimar la media de una variable aleatoria con distribucion normal de media cero, a partir de una serie de N mediciones de la variable. La media muestral (es decir, sumar todos los valores y dividirlos por N) es un estimador insesgado de la media, perfecto.
Ahora suponete que el instrumento que use para medir la variable sólo mide valores positivos. Eso quiere decir que las N muestras que haya elegido son positivas. Eso implica que su media sera positiva, distinta de cero, siempre, sin importar que tan grande sea N. Hay un sesgo en la estimacion, por mas que el estimador en teoria era insesgado, y se debe simplemente a que la muestra NO ERA REPRESENTATIVA de la distribución verdadera.

De eso precisamente estoy hablando. Si cuando vos elegis las muestras que vas a usar, introducis un sesgo que hace que las muestras no sean representativas de la distribucion real, no importa que tan bueno e insesgado sea tu estimador, metiste un sesgo.

Ahora, lo que interesa aca es cómo influye N es el asunto?
Bueno, para eso consideremos qúe cosas pueden introducir el sesgo.
Supongamos que hay que relevar el precio del pan en una region donde hay 100 comercios que pueden vender pan. Supongamos que 10 de ellos, o sea el 10%, son hipermercados. Para un muestreo con N muestras deberia asegurar que no mas del 10% de las muestras correspondan a hipermercados. Suponete que tomo 5 muestras, indefectiblemente meti un sesgo, si o si, porque si hay un hipermercado entre las 5, la proporcion es del 20% y no del 10%, y si no hay ninguno es del 0 y no del 10%.
Pero mas aún, la cosultora elije su muestra dentro de los comercios QUE CONOCE. La probabilidad de que una despensita de barrio perdida en el medio de la villa 31 este incluida en esa lista es menor que la probabilidad de que el carrefour cercano este en la lista. Eso introduce un sesgo.
Mas aún, al elegir su muestra las consultoras podrian tener en cuenta la accesibilidad al comercio, para que puedan llegar sus encuestadores. Como todos sabemos, los hipermercados hacen estudios de mercado y analizan muy finamente donde poner su local, maimizando la accesibilidad, mientras que la despensita de doña tota se puso en el garage de su casa, sin tener en cuenta la accesibilidad de encuestadores, por lo que habra un sesgo en la seleccion que hara mas probable que salgan elegidos los hipermercados. Asi, si la muestra es de 10 comercios, probablemente te encuentres con mas de un hipermercado ahi alterando la proporcion del 10%, mientras que si la muestra es de 50, seguro habra como maximo 10 hipermercados lo que mejorará la representacion de estos. Entonces, el tamaño de la muestra SI AGRAVA la introduccion de este tipo de sesgo.
Otro ejemplo: si tenes que muestrear una distribucion multimodal con 10 modos, y para eso tomas 10 valores, es altisimamente probable que la estimacion este recontra sesgada, porque es imposible capturar la complejidad de 10 modos con 10 datos.

Leandro dijo...

(sigo)

Y asi, hay un monton de criterios que se usan para la seleccion de la muestra que introducen sesgos. Por ejemplo, ademas de la muestra respetar la proporcion de los distintos tipos de comercios (hipermercados, super chinos, despensitas, panaderias de bariio, tc.) tambien deberia respetar las preferencias de los usuarios (la mayoria en tal zona prefiere comprar en la panaderia del barrio, mientras que el 60% de tal otra zona elige los hipermercados, tc.). En la estimacion de estas proporciones TAMBIEN INFLUYE el tamaño de la muestra que se use, lo que influira en el muestreo de comercios.

En fin, el articulo sostiene que el N no influye en la estimacion de las estimadoras privadas porque considera que el estimador es insesgado. Pero se olvida que al muestrear se introducen sesgos muestrales QUE SI SON MUY AFECTADOS por el tamaño de la muestra.

Y eso sin tener en cuenta el caso de que las muestras sean elegidas "a proposito" para que refuercen lo que uno quiere que refuercen. Como el caso donde elegis relevar sólo los precios por internet, que implica que dejaste si o si fuera de la muestra absolutamente todos los comercios pequeños que no tienen recursos para poner y mantener actualizada una pagina web con sus precios.

Ahora si entendes mejor el asunto?
Saludos

Anónimo dijo...

>>Ahora, lo que interesa aca es cómo influye N es el asunto?

Estas, disculpame, confundido :-)

Quizas sea que quisiste sobresimplificar (o nuevamente no te malinterprete), pero tu ejemplo del precio del pan es muy muy simplista. Pareciera como que que el muestreo de deberia hacer exclusiamente proporcional a la cantidad de outlets. Tenes que tener en cuenta entre otras cosas, los gastos "expenditure" (voy a tratar de usar el ingles no por snobismo, sino por ignorancia, asi corro menos riesgo de meter la pata como hace poco)

>>
Pero mas aún, la cosultora elije su muestra dentro de los comercios QUE CONOCE.
>>

Esto si, es selection bias. Sin duda.

>>
>> Entonces, el tamaño de la muestra SI AGRAVA la introduccion de este tipo de sesgo.

No esta para nada claro que queres decir. Si se muestrean 10 establecimientos cada uno con un sesgo "de 10", o se muestrean 100 tambien cada uno con un sesgo "de 10", el resultado es el mismo: un "sesgo de 10". La composicion porcentual del sesgo muestral es el que determina el sesgo muestral, no la cantidad de veces que multipliques ese sesgo.

Bueh, hay excepciones... pero por tu ejemplo no parece ser que esas sean el foco de tu critica.

>>Ahora si entendes mejor el asunto?

Disculpame, pero el post de Luciano iba a la calidad del estimador (sesgo y varianza del estimador). Mi respuesta y critica a Luciano mostrando que el "n" importa tambien se centraba en este tema.

Vos en cambio, te referis al selection bias. OK. Creo que lo haces para decir que los estimadores de las consultoras falla por selection bias. OK.

Utis

Anónimo dijo...

>>Yo estoy confundido?
Vaya a buscar "Sesgo muestral" en algun libro de estadistica.

Disculpame Mi error. Mi culpa. Yo no me di cuenta que hablabas de sampling bias. Pense que hablabas del sesgo que mencionaba Luciano

Tenes razon. Me equivoque.

perdon

Utis

Mariano T. dijo...

Lo importante es la magnitud del sesgo.
Cuando nos referimos a supermercados, almacenes y chinos puede haber un sesgo que nos complique si estamos estimando nivel absoluto de pre ios de una canasta de bienes.
Pero lo que se mide en este caso es la variacion de precios. Tal vez un mes determinado una categoria de comercios aumente mas que otros, pero no parece logico que ese hecho represente un sesgo a largo plazo. Los produ tos se originan muchas veces de los mismos proveedores, no me parece razonable que la brecha de precios entre dos tipos de comercio se incremente o disminuya consistentemente a lo largo del tiempo.
Por lo tanto la hipotesis de que la variacion de los precios on line es similar a la de los precios de otras maneras de comprar parece bastante razonable. Y en otros paises ajusta bien con la variacion de precios de los institutos oficiales.

Leandro dijo...

Vuelvo a lo que ya dije (releer lo anterior no hace daño):
Si y solo si la distribucion del sesgo alrededor de la media es simetrica, y estacionaria (es decir, la misma a lo largo de ciempre, lo que requiere, entre otras cosas, que el criterio de muestreo sea estático, siempre el mismo), se podria afirmar lo que decis, Mariano.

Ahora bien, una fuente de sesgo muestral es que la seleccion de muestras se haga "a proposito" para que de lo que uno quiere.

Voy a dar un ejemplo.
Suponete que una consultora usa una muestra de diez comercios para calcular su estadistica. Ahora bien, suponete que esos 10 comercios no son siempre los mismos. Suponete que en realidad releva los precios de 30 comercios, luego para cada item los ordena de mayor a menor incremento y elije los 10 de mayor incremento. Te parece que el sesgo en tal caso tendra una distribución simetrica alrededor del valor real, o sera siempre del mismo signo?

Mas aún, sin existir malicia alguna la selección de la muestra puede mostrar un sesgo siempre positivo (o sea exagerando). Pero pero si el "encuestador" tiene particular "interes" en que su indice de mas alto.

De hecho, esa fue una de las razones de la intervencion al INDEC: habia gente "de adentro" que se ocupaba que el índice dé mas alto que lo real, porque recibia pagos de tenedores de bonos atados a la inflacion para ello. Al intervenirse varios de esos "vivillos" fueron hechados del INDEC, y que hicieron? se pusieron una consultora privada, desde la cual se dedicaron a tirar estimaciones exageradas de la inflacion, precisamente para lo mismo, por una via mas indirecta: generar espectativas de inflacion que se manifiesten al periodo siguiente cono un aumento de la inflacion real, y obviamente cobrar por ello.
De hecho ese proceder fue desenmascarado por gentuza como Nicolas Salvatore, que fue muy franco al confesar que era su objetivo que la inflacion diera lo mas alto posible, para desestabilizar lo mas posible al gobierno.

O por que te crees que las consultoras, todas ellas, se resistieron tan salvajemente a mostrar su metodología de muestreo?

Si estuviera todo transparente, si el muestreo siguiera criterios cientificos, si fuera todo tan lindo, que problema habria en que se conozca el o los criterios metodologicos de las consultoras? En vez de estar haciendo análisis donde te olvidas la mitad de los factores para tratar de demostrar que son correctos, seria muy simple, cualquiera podria reproducirlos y ver si da asi. Claro que tambien se detectaría si existe sesgo metodologico y seria facil ver si responde a cuestiones objetivas cientificas o logisticas, o simplemente a una voluntad de falsear el índice, no?


Leo Calabresi dijo...

Leandro, anda a un supermercado y deja de mirar Duro de Domar, que te va a hacer mal.

Luciano, no me conoces, pero puse un link a un post tuyo en un post mío y quisiera tu bendición (ahora que tenemos Papa argento volvemos a ser devotos)

http://elhijodecuca.blogspot.com.ar/
Saludos.

Santiago Avellaneda dijo...

Y que me decís de los índices provinciales, Leandro? También están sesgados? Porque el argumento de que es otro universo no es válido ya que el arbitraje no permitiría que de manera constante aumenten más los precios en una zona geográfica que en otra.

Leandro dijo...

Yo no argumente a favor del INDEC, Avellaneda. Nunca dije que las mediciones del indec sean perfectas.
Lo que argumente es que el corazon, el centro, la base en la que se sustenta ESTE POST para defender las mediciones de las consultoras, es FALSA de total falsedad. Desde el punto de vistametodologico estadistico. Es decir, el argumento técnico usado en este post para defender los indices de consultoras y darlos por válidos, es ridiculo y no tiene sentido.

Esta usted en desacuerdo, metodologicamente hablando, con lo que dije sobre ESTE POST?

Si quiere, luego, en algun post al respecto, discutimos sobre los indices provinciales, sobre el precio del pan flauta, de fulbo o de lo que quiera. Pero respecto de lo que plantea ESTE post, y mi critica a los aspectos falaces del mismo, tiene algo para decir?

Anónimo dijo...

>>Lo que argumente es que el corazon, el centro, la base en la que se sustenta ESTE POST para defender las mediciones de las consultoras, es FALSA de total falsedad. Desde el punto de vistametodologico estadistico.
>>

El punto de Luciano es erroneo, pero no falso.

El punto de Luciano es erroneo no por lo que vos decis (que esta mal), sino porque Luciano arguye que la varianza del estimador es irrelevante a la calidad del mismo, ya que lo que importa es que el estimador sea insesgado. Yo le mostre que en este tipo de estimadores, no importa tanto que el estimador sea insesgado, como de minima varianza. ES preferible un estimador BLUP que uno BLUE.

>>
Esta usted en desacuerdo, metodologicamente hablando, con lo que dije sobre ESTE POST?
>>

Lo que vios dijiste fue confuso, y encima metodologicamente erroneo.


Fue confuso porque el post de Luciano se centraba en el estimador (si el estimador era insesgado y/o de minima varianza), mientras que vos hablaste del disenio muestral (si habia sampling bias o no).

Y fue erroneo porque afirmas que el sampling bias depende de el tamaño de la muestra. Y eso no es asi.

Si se muestrean 10 stablecimientos cada uno con un "sesgo de 10", o se muestrean 100 tambien cada uno con un "sesgo de 10", el resultado es el mismo: un "sesgo de 10".

Es el sampling design el que contribuye (o no) al sampling bias.

Si el disenio permite sampling bias, no hay tamanio muestral que lo corrija. El estiamdor va a ser sesgado si o si.

Utis



Leandro dijo...

Utis, el post de luciano es erroneo porque se centra en afirmar que lo UNICO que importa en una estimacion estadistica es que el estimador usado no tenga sesgo. Esa es la gran falacia del post.

Vos afirmas que es falso (y tenes razon) por que la varianza del estimador también es importante.

Yo afirmo que ademas de la calidad del estimador, cuenta la calidad de la muestra (que es lo que introduce un sesgo).

Tanto vos, como yo, desde ángulos distintos, atacamos la hipotesis central en la que se basa el post.
Si lo unico que importa en una estimacion es si el estimador es insesgado. Entonces luciano tiene razon. Si ademas importan otras cosas como la varianza o la calidad de la muestra, entonces el argumento de luciano es FALAZ, y se cae.

Quiero decir con eso que los estimadores privados sean peores que el del INDEC? NO, no se si es asi o no, pero si queda claro que el argumento usado por luciano para sostener que los estimadores privados son buenos, NO ES VALIDO. No quiere decir que en realidad no sean buenos, quiere decir que luciano no pudo demostrarlo. Nada mas.

Respecto de tu apreciacion, te comento que el tamaño de la muestra SI AFECTA al muestreo, EMPEORANDO el sesgo. Te remito a los ejemplos que di mas arriba, releelos. Sin contar con la malicia, es decir, la expresa voluntad de introducir un sesgo, aún asi en el muestreo la magnitud del sesgo puede variar con el tamaño de la muestra.

Tu error es suponer que un sesgo es independiente de N, y sin importar el tamaño de la muestra si el sesgo es 10 para una muestra de 10 casos, seguira siendo 10 para una muestra de 1000 casos.

Bueno, no es asi. En general, asi como la varianza de los estimadores se reducen con N, los sesgos suelen tambien reducirse con N. Por ejemplo, podrias tener un estimador que para muestras chicas tiene un sesgo grande y a medida que se agranda la muestra, se achica el sesgo, hasta converger a un numero distinto de 0 para N tendiendo a infinito. El estimador tal, es sesgado, porque para N infinito el sesgo es distinto de cero, pero no sólo eso sino que el sesgo es cada vez peor cuanto mas chico el N. De eso hablo yo. Busca un poco en bibliografia y vas a encontrar ejemplos.

Tu problema es uqe pensas el sesgo en condiciones asintoticas, y eso vale sólo para N tendiendo a infinito. Bueno, precisamente estamos hablando de que pasa cuando N no solo no es infinito sino que encima es chico. Luciano habla de promediar multiples estimadores, todos ellos sesgados, con sesgos independientes estadisticamente entre si y cuyas magnitudes de sesgo son fuertemente dependientes del N, para consultoras que sabemos tienen muestras chicas, y pretende que todos esos efectos desaparecerán magicamente (porque de hecho parte de la hipotesis de suponer que ni siquiera existen).

Como bien decis, si el diseño permite sampling bias, no hay tamaño muestral que lo corrija. Precisamente ese es mi punto. Pero más aun, tamaños muestrales pequeños no sólo no lo corrigen sino que LO EMPEORAN, se entiende?

Saludos

Anónimo dijo...

De ninguna manera,. Tu comentario es erroeno. El sampling bias depende del disenio muestral, no del tamanio de la muestra.

La unica posibilidad en la cual el tamanio de muestra rediuciria el tamanio muestral es si en la estratificacion de la muestra hubiera bias solo en algunos estratos y no en otros, pero se muestraran de los dos (lo cual seria una burrada de disenio muestral!!), y se hiciera oversampling del no sesgado. Logicamente, cuanto mas oversampling, menos sampling bias.

PERO este problema de sampling bias se relaciona mas con el hecho que alguien disenia un muestreo muy muy malo (adrede?), que con otra cosa.

O sea, si vos opinas que el sampling de las empresas chicas tiene adrede sampling bias, OK. Pero mas alla de eso, la justificacion que vos intentaste es metodologicamente erronea.

Muestreos basados en muestras chicas tiene el problema de una varianza muestral muy grande. Para estimadores que deben ser consistentes en el tiempo, el tener esa variabilidad de un tiempo a otro es todo un problema, ya que le quita consistencia a cualquier trend. Es por eso que los indices de las empresas chicas no son creibles

Mas alla de eso, disculpame, pero tu critica no tiene valor metodologico (ya que el sampling bias -bien puede ocurrir en muestras chicas (como con las empresas privadas) como con muestras grandes (como las del INDEC).

Para finalizar, valoro la valentia de Luciano de intentar una explicacion metodologica, aunque erronea; y me molesta mucho que lo acuses de decir falsedades/ Todos nos equivocamos. Vos lo acabas de hacer. Pero el error no implica que alguien actua con falsedad.

Utis

Mariano T. dijo...

Mas alla del tamaño muestral, las mediciones de las consultoras son hasta ahora mucho mas consistentes con el resto de los números de la economía (recaudacion de iva e ib, salarios, facturacion de empresas).
Asi que es lo que hay, mejor no tenemos.

Leandro dijo...

Utis, que a vos no se te ocurran posibilidades donde el sesgo muestral depende de N no quiere decir que no existan. Ni que no sean mas comunes de lo que vos pensas.

Te voy a dar un ejemplo bien simple, para que lo entiendas de una vez. Voy a ser paciente, teniendo en cuenta que despues de todo, hasta que te lo expliqué 20 veces y te mandé a buscar bibliografia, ni te acordabas que existia el sesgo muestral.

Suponete que lo que queremos medir, para plantearlo lo mas simplificado posible, es el precio del pan. La variable que nos interesa es el precio promedio del pan en mi barrio (para hacerlo bien simple). Suponete que relevamos todos los negocios que venden pan en mi barrio, y resultan ser 100. Vamos a los 100 negocios, tomamos el precio, calculamos la media sumando todo y dividiendo por 100. Perfecto, ese es el VALOR VERDADERO, porque se calculó usando todos los casos, el resultado no tiene varianza, no tiene sesgo, no tiene nada de nada.
Notar esto: ese es el resultado perfecto, simplemente porque usamos todos los valores que existen. No es un estimador, es el valor exacto del valor promedio del pan en mi barrio.

Bien, ahora supongamos que somos una consultora que decide muestrear la cosa para no ir a los 100 negocios. Supongamos que de esos 100 negocios, 10 son hipermercados y 90 son despensas, supermercados de barrio, kioscos, etc.
El muestreo ideal deberia respetar nó solo la proporcion de los distintos tipos de comercio, sino tambien las preferencias de los usuarios. Es decir, al elegir las muestras no deberian tener todos la misma probabilidad de salir elegidos, sino que esa probabilidad deberia estar estratificada por tipo, y encima la cantidad de cada tipo debería ser proporcional a las preferencias de los usuarios por ese tipo de comercio. Claro que estimar esas preferencias es todo un problema estadistico en si mismo, y las consultoras no van a gastar la guita necesaria para averiguarlas, asi que te garantizo que en la mayoria de las consultoras ni se calientan en evaluar eso, y con suerte te respetaran la proporción de tipos de comercio (por ejemplo, no creo que Salvatore, con su voluntad explicita en 1que la inflación le de lo mas alta posible, se caliente mucho en estratificar adecuadamente su muestra). Y esto sin tener en cuenta que es probable que ni siquiera tengan la lista de los 100 comercios, ya que muchos son chiquitos y perdidos por ahi, por mas que tengan muchisimos clientes del barrio.

(sigue)

Leandro dijo...

(sigue)

Supongamos que en la consultora bajo estudio el criterio ni siquiera es ese, de respetar las proporciones por tipo de comercio, sino simplemente la facilidad de acceso al comercio. Como es sabido, los hipermercados hacen estudios de mercado y de accesibilidad, asegurandose cercania a medios de transporte, rutas, caminos importantes, lugares neuralgicos. Asi que con ese criterio es probable que los elegidos primero sean los hipermercados.

Bien, planteado esto, suponete que la consultora decide que el tamaño de muestra es 5. Segun la estratificacion, en la muestra elegida no debería haber mas de 10% de hipermercados. Sin embargo, dado el criterio de seleccion por accesibilidad, es probable que los 5 elegidos sean hipermercados, con lo cual la proporcion de éstos en la muestra es 100%.
Ahora, que pasa al aumentar el tamaño de muestra?
Simple, si tomas 10, probablemente tengas el mismo escenario, con los 10 hipermercados elegidos y proporcion de 100%. Pero si tomas 20, la proporcion de hipermercados baja a 50% y si tomas 50 comercios en la muestra, baja a 20%. Podes ver que, al aumentar el tamaño de muestra, por mas que seguis teniendo un sesgo muestral debido al criterio de seleccion de muestras, a medida que N se acerca al numero ideal de 100 comercios, el efecto del sesgo es cada vez menor.

Viste que simple? te plantee un caso bien simple, muy verosimil dadas las metodologias que usan normalmente las consultoras, que te muestra cómo se introduce un sesgo muestral, y cómo, dado que el tamaño de muestra ideal es finito en los casos que nos interesan, al aumentar la muestra ese sesgo se reduce.

Y antes que digas que el caso es muy "artificial", pensa un poco en cómo se hacen las cosas en una consultora chica, con poca gente dedicada a eso. De hecho, el sólo elaborar la lista completa de negocios en la zona de interés es un tema, y su misma elaboración introduce este sesgo, suponete que los tipos tratan de ser serios y hacen estratificacion por tipo de comercio y por preferencias de usuarios, pero su lista de comercios sólo incluye 50 en vez de 100. Seguro en esos 50 estan los 10 hipermercados, por lo que automaticamente introdujiste un sesgo por sobrerepresentacion muestral de estos.

Y todo sin ni siquiera pensar todavia en "mala fe" en el diseño muestral, cosa que yo estoy seguro que, al menos en muchos de los casos existe.

Ahi lo tenes, demostrado: el tamaño de muestra afecta la magnitud del sesgo muestral.
Pareciera ser a la luz de todo esto que lo que vengo diciendo es correcto, que el que se equivoca claramente sos vos (que recordemos, ni siquiera tenias presente que pudiera existir sesgo muestral), y que luciano se equivoca en su análisis, que por lo tanto no sirve para demostrar lo que él pretende demostrar.

Y a mi lo que me molesta es que ni te calientes no digo ya en ir a buscar bibliografía que te explique lo que claramente no sabes, sino ni siquiera en LEER lo que dije, porque esto mismo que te acabo de explicar tan detallado, ya lo dije varias veces.

Si despues de esto, seguis sin entender que el sesgo muestral en general, sea introducido en forma deliberada o por un mal diseño del muestreo, se agrava para muestras pequeñas, por la senscilla razon de que en poblaciones finitas, al aproximarse el tamaño de muestra al de la poblacion, el sesgo simplemente desaparece, entonces me doy por vencido, no va a haber forma de que lo entiendas. Leete un libro de estadistica bueno y hablamos despues, pero seguir discutiendo algo tan simple con alquien que ni se calienta en pensar ni leer bien lo que se le dice, no tiene sentido.

Anónimo dijo...

Leandro, el ejemplo que das es pobre y confus: en el mezclas disenios muestrales diferentes, con tamanios de muestra crecientes!!

Porque espero que adviertas que lo que tu vos haces en tu ejemplo es cambiar de sampling design: el sampling design inicial, no es el que existe al final!!

Natalucci, la corto aca. Te dejo en tu error y tu terquedad

Utis

Leandro dijo...

Mi error y mi terquedad?
Cual sería el sampling inicial que cambie al final?
Si te referis a que te mostre cómo evoluciona el tamaño del sesgo si uno aumenta el tamaño de la muestra, y si, es obvio que fui cambiando el N, de que otra forma estudias cómo cambia algo con el tamaño de muestra, sin cambiar el tamaño de muestra? Es básico, lo que yo digo es que el tamaño de muestra cambia la magnitud del sesgo, por lo tanto muestras chicas tienen sesgos mas grandes, y entonces, obviamente, si las consultoras toman muestras chicas (como se sabe y el autor lo reconoce en su post) los sesgos debidos a muestreos deficientes serán grandes, y el ejemplo dado por el autor no estará centrado en la media verdadera sino en ese valor mas el valor del sesgo.
Como se estudia esto? simple, se toma un tamaño de meustra, se calcula el sesgo, se aumenta el tamaño, se ve si el sesgo aumento o disminuyo, y asi. Relee claramente, una o dos veces, tranquilo, por ahi lo llegas a entender.

Ultimo intento, sin ejemplos para que dejes de decir pavadas, sino
puramente teórico.

La particularidad de este problema es que la poblacion en estudio es FINITA. Hay M comercios en los que hay que recabar precios. M puede ser alto, pero es finito. Y de esos M se toma una muestra N.

Bien, suponete que el precio que estas midiendo, sobre los M casos, tiene una distribución mas o menos gaussiana (pongo esto para tener una distribución simétrica y con colas pequeñas, pero podria ser cualquiera. Suponete que tu método de sampling, cualquiera sea, ya sea deliberadamente o por su propio diseño, lo que hace es dar predominio los comercios que tienen los valores dentro de la cola superior de la distribución. Esta claro (o deberia estarlo, salvo que la terquedad te impida pensar) que la estimación que hagas a partir de esos valores de la cola superior, tendran una media cercana al extremo superior de la cola, bastante lejana de la media (esta claro? necesitas un dibujito?).
Ahora, dado que M es finito (ponele 1000 si te gusta) si mi método para elegir N (ponele 20 si te gusta) me da valores en la cola superior, el estimador dara como ya dije, valores alejados de la media hacia la derecha. Pero a medida que haga crecer N (ponele 100 si te gusta), si o si, necesariamente, incorporaré valores más cercanos al centro de la distribución, con lo cual el promedio se irá hacia abajo, acercandose a la media, y cuanto más grande elija N, más cercano a la media estará (lo ves? necesitas un dibujito?). Si, por ejemplo, con una poblacion de M=1000, tomo una muestra de N=900, necesariamente habrá muchos valores del centro y del lado izquierdo de la distribución, que "tirarán" mi estimador hacia la media verdadera (nuevamente, lo podes imaginar?) simplemente porque al acercarse N al valor de M, si o si incorporo datos que cubren cada vez más todas las zonas de la real distribución. Claramente, si N=M=1000, los datos cubren exatamente toda la distribucion y la media converge a la real, y desapareció el sesgo generado por el muestreo.
Es decir, que para N chico el sesgo es grande y para N grande el sesgo es chico, sin importar qué mecanismo de muestreo haya usado, o si combine varios o lo que sea. Simplemente, al N tender a M, el sesgo desaparece naturalmente, porque lo que se diluye es el defecto de muestreo que lo genero.

(sigo)

Leandro dijo...

(termino)


Mas claro que eso es imposible explicarlo. Sin ejemplos concretos, sin pan, sin especificar cual es el muestreo, cosa que no recurras a pseudoargumentos como "el muestreo lo hiciste combinando métodos asi que está mal". Bien genérico te lo hice, cosa que hasta uno de mis alumnos pueda entenderlo (espero que estes a la altura de alumnos de 5 año de ingeniería). Proba hacerte un grafiquito de la gaussiana, de cómo primero tomas valores de la cola de arriba, y cómo al aumentar N irias cubriendo mas y mas de la distribucion.
Todo es consecuencia de que la poblacion es finita, que es el caso que discutimos ya que los lugares donde se venden cosas son finitos. Y sin importar el mecanismo de muestreo particular que haya generado el sesgo, al aumentar N coincidiendo con M, ese sesgo desaparece.

No creo que estes dispuesto a aceptar que te equivocaste y esto es tal cual lo describo. Pero espero que algun otro lector sea menos necio y no se deje llevar por las conclusiones ridiculas a las que llegas, sin ni siquiera entender el problema que estas tratando.

Anónimo dijo...

Natalucci, tus mensajes hoy dia, como los de antes, siguen siendo largos, confusos, y erroneos.

Vayamos paso a paso. Deja de lado el bla bla y pasemos a lo tecnico.

Empeza diciendome cual es el disenio muestral que usaste en tu ejemplo? (randomized, stratified, defini estratos, etc.).

Pregunta directa y facil. No te vayas por las ramas. Vos como experto en sampling deberias poder enunciar tu disenio en forma tecnica, sin bla bla.

Sin haber definido tu disenio, el resto es bla bla. Asi que, definilo por favor. Una vez que definas tu sampling design, entonces seguimos.

Utis

Leandro dijo...

Payaso, te di un ejemplo que ni siquiera requiere explicar el método de muestreo, porque es válido cualquiera sea la forma por la que se haya introducido el sesgo. Si no te da la cabeza para entenderlo dedicate a otra cosa.

Y deja de buscar nombres en wikipedia para sonar a que tenes idea de lo que hablas. Si tuvieras la menor idea de algo relacionado con lo que muestreo, no tendria que explicarte 20 veces cada cosa. Si tenes que pedirme a mi que te explique los criterios de muestreo que aparecieron en mi ejemplo del pan (que estan clarisimos y son muy obvios para cualquiera que tenga la minima idea de lo que habla) es porque no entendes un cazzo. Agarra los libros antes de hablar de cosas que no entendes.

Y no se por que me llamas natalucci, sera alguien que acostumbra darte palizas teoricas por aca? yo me llamo leandro y comento hace años en diversos blogs, con este mismo nombre. Preguntale a Marianote con quien varias veces he discutido.

Anónimo dijo...

“Hay que recorrer un par de barrios de la ciudad de La Rioja para ver que las cifras del INDEC no coinciden”, sostuvo en diálogo con Cadena 3. Quintela graficó su asombro con un ejemplo: "En este momento yo tengo en la puerta de mi casa 40 o 50 personas indigentes. Hay mucha gente que necesita mucho. Si la indigencia fuera del 0,1%, habría 360 indigentes, nomás. Eso es un absurdo”.
http://www.infobae.com/notas/707911-Con-las-cifras-del-Indec-parece-que-solo-hay-360-indigentes-en-La-Rioja.html

Mauro A. dijo...

Es sorprendente que despues de 2 años que no se lo ve a Natalucci por la blogosfera, todavía haya gente que discutió con él y que sigue sin intender el sesgo plutocrático.

Esta nota no puede discutir sobre ese sesgo. El sesgo plutocrático afecta a las ponderaciones, en este caso no se analiza esto, solo se analiza la desviación con respecto al valor real del producto (o canasta).

Si se quisiera discutir el sesgo plutocrático, lo que se debería analizar es cuánto gasta el universo medido en distintos productos. Sería un lindo ejercicio de explicación.

Para los que a todavía no les cierra lo del sesgo plutocrático, repito mas o menos el ejemplo de natalucci: Supongamos que tenemos un pais con 100 personas que gastan en 2 productos nomas. 100 personas gastan $1 por mes en pan, y 1 persona gasta $5000 por mes en comprarse un LCD. Las ponderaciones dirían que ese pais gasta el 98% en LCD's y el 2% en pan. O sea que si el pan pasa de costar $1 a $2, su aumento es del 100%, sin embargo el aumento del IPC sería del 2%, mientras que si el televisor pasa de costar $5000 a $5500, su aumento es del 10%, pero el aumento del IPC sería del 9,8%. Por lo tanto se ve que el IPC representa mas al consumo del único rico que puede comprar un televisor, es decir que tiene un sesgo plutocrático, siempre para el mismo lado.
Esto no quiere decir que el IPC plutocrático siempre va a dar un valor mayor que uno NO plutocrático. Eso es una interpretación absurda de sentido común, la misma interpretacion que se hace cuando dicen que al habilitar a los chicos de 16 a votar, lo hicieron para que gane Cristina.