con este post dedicado al muestreo por conglomerados, concluimos nuestro primer bloque de posts sobre muestreo aleatorio. Con nuestro próximo post, lanzaremos métodos de muestreo no random, que se usan más comúnmente en la investigación en línea.
El muestreo por clústeres es un método que aprovecha al máximo los grupos o clústeres de la población que representan correctamente la población total en relación con la característica que deseamos medir., En otras palabras, toda la variabilidad que existe en una población está contenida dentro de la población. Cuando este es el caso, podemos seleccionar solo algunos de estos grupos para llevar a cabo nuestro estudio.
veamos este método desde otro punto de vista. En la mayoría de los métodos que hemos visto hasta ahora, las unidades de muestreo han coincidido con las unidades a estudiar (individuos). Con el muestreo por conglomerados, sin embargo, las unidades de muestreo son grupos de unidades a estudiar, lo que puede ser muy beneficioso a la hora de minimizar el costo del proceso de muestreo., Por supuesto, hay una compensación: esta técnica generalmente implica menos precisión, ya que hay una falta de heterogeneidad entre los clusters.
el proceso de muestreo
el primer paso para aplicar este método es definir los clusters. Esto implica identificar una característica que nos permita dividir la población en grupos discretos (sin solapamiento) e incluir a cada individuo en un grupo (Ninguno puede ser excluido) de tal manera que no haya diferencia entre los grupos en relación con lo que queremos medir., Una vez que hemos definido estos grupos, podemos seleccionar aleatoriamente algunos para estudiar.
una característica que se usa a menudo para definir clusters es la geografía. Por ejemplo, si queremos estudiar qué porcentaje de la población argentina fuma, podríamos dividir a toda la población en provincias y estudiar solo algunas de ellas. Siempre que no tengamos motivos para pensar que la tasa de tabaquismo cambia de una provincia a otra, esta solución nos permite concentrar nuestros esfuerzos de muestreo en una única ubicación geográfica., Si vamos a realizar el estudio a través de una entrevista personal, esto podría suponer un gran ahorro en gastos de viaje.
una vez que hemos definido los clústeres, el siguiente paso es seleccionar los clústeres que se van a estudiar a través de muestreo aleatorio simple o muestreo sistemático.
finalmente, una vez seleccionados los clusters a estudiar, podemos investigar todos los sujetos que componen los clusters, o incluso aplicar un nuevo proceso de muestreo dentro del cluster—por ejemplo, podríamos obtener una muestra a través de muestreo aleatorio simple o muestreo sistemático., Si optamos por hacer esto, estamos tratando con un proceso de muestreo de dos etapas: en la primera etapa, seleccionamos el clúster, y en la segunda seleccionamos los individuos dentro del clúster. Si, por otro lado, estudiamos todos los individuos dentro de los grupos, lo llamamos muestreo de conglomerados de una sola etapa.
muestreo estratificado y por conglomerados
la idea de muestreo por conglomerados es una reminiscencia del muestreo estratificado. En ambos casos, dividimos la población en grupos. Sin embargo, en cierto sentido, los enfoques subyacentes de estos métodos están en oposición.,
el muestreo estratificado es especialmente adecuado cuando los grupos (estratos) tienen un alto nivel de homogeneidad interna y son muy diferentes entre sí. En ese caso, es bueno asegurarse de que nuestra muestra es representativa de todos los estratos. Con el muestreo por conglomerados, es todo lo contrario: queremos que los grupos en los que dividimos la población sean muy similares, de modo que no haya una gran diferencia entre estudiar individuos en un grupo u otro.,
entonces, a pesar de que ambos métodos dividen la población (en estratos o grupos), el proceso de selección individual es radicalmente diferente.
ventajas y desventajas del muestreo por conglomerados
- La mayor ventaja de este método es operacional: seleccionar un conglomerado para estudiar suele ser más fácil y más asequible que crear una muestra aleatoria o sistemática. Por ejemplo, vimos anteriormente cómo el uso de clústeres geográficos puede suponer un ahorro significativo en viajes.,
- extrañamente, es común que los estudios realizados en línea sigan pensando en términos de regiones, aunque no exista un incentivo operativo para hacerlo; muy por el contrario, este enfoque aumenta el riesgo de imprecisión debido a las diferencias entre las regiones estudiadas y el resto de la población. Esta práctica es el legado injustificado de técnicas que eran buenas para las entrevistas en vivo, pero que no tienen sentido para otros métodos.
- La principal desventaja de usar el muestreo de conglomerados es el riesgo notable de que los conglomerados no sean verdaderamente homogéneos entre sí., En el ejemplo anterior sobre los fumadores Argentinos, tal vez una de las provincias está más inclinada a fumar porque es más urbana, o por razones culturales, o debido a cualquier otro número de factores posibles.
la efectividad del muestreo por conglomerados
¿Cómo se compara este método con los que vimos antes? Al igual que con el muestreo estratificado, qué tan bien funciona Este método depende de la «relación» entre la varianza dentro de los clústeres y la varianza fuera de los clústeres.,
esta relación se expresa con un coeficiente de correlación intracúmulo (δ), que se define como el coeficiente de correlación lineal entre todos los pares de valores de la variable en el estudio medido sobre las unidades de clúster y extendido a todos los clústeres. En última instancia, este coeficiente es una medida de homogeneidad dentro de los grupos.
cuanto menor sea el coeficiente de correlación intracumular δ, mayor será la efectividad del muestreo por conglomerados., Tenga en cuenta que el objetivo es que los grupos sean tan heterogéneos como toda la muestra, de modo que la selección de un grupo dado produzca la misma información que la selección aleatoria de individuos de toda la población.
Si comparamos el muestreo aleatorio simple con el muestreo por conglomerados, podemos demostrar que si δ = 0, ambos métodos son equivalentes. Esta condición implica que los conglomerados son tan heterogéneos como la población en su conjunto. El peor escenario sería si δ=+1, y el mejor de los casos sería δ=-1/(M-1), donde M es el tamaño del clúster., Pero normalmente, δ siempre va a ser mayor que cero, ya que es normal que las unidades dentro de un cúmulo tengan un cierto parecido entre sí.
otra forma de ver el impacto de este problema es calcular el tamaño de muestra necesario para que el muestreo por conglomerados alcance el mismo nivel de precisión que el muestreo aleatorio simple. Esto se expresa como
nc = na (1 + (M-1) δ)
donde nc es el tamaño de la muestra en el muestreo por conglomerados y nais el tamaño de la muestra que necesitaríamos para el muestreo aleatorio simple., Por lo tanto, el factor (1+(M-1) δ) es la variación del tamaño de la muestra que necesitaríamos para usar clusters. La variación es generalmente un aumento. Este hecho se conoce como el efecto de diseño.
esperamos que este post te haya ayudado a entender mejor este método de muestreo aleatorio.,ut los enlaces a continuación para leer los otros artículos que forman esta serie:
tabla de contenidos: Series on sampling
- muestreo: Qué es y por qué funciona
- muestreo aleatorio y no Aleatorio
- muestreo aleatorio: muestreo aleatorio simple
- muestreo aleatorio: muestreo estratificado
- muestreo aleatorio: muestreo sistemático
- muestreo aleatorio: muestreo por conglomerados
- muestreo no Aleatorio: muestreo de disponibilidad
- muestreo no Aleatorio: muestreo por cuotas
- muestreo no Aleatorio: muestreo por bolas de nieve