Imagina que deseas estudiar si alguna variable presenta diferencias en ciertos grupos de individuos, animales, plantas o cosas. Este es el origen del análisis de la varianza (o ANOVA). ¿No dicen que “las diferencias siempre suman”? Pues déjame que te cuente... Dentro HILO ⬇️⬇️

4:11 PM · Nov 26, 2020

31
323
85
809
GIF
Imagina que deseas realizar un estudio de ciertas especies de pájaros 🦉🦜🐦 que son de similar naturaleza y comparten un medio común: el malviz pardo, el cuelliamarillo común y el towhee. Cada una de ellas conforma una población diferente.
1
2
0
28
GIF
Una característica de interés es su canto, ya que cada especie presenta sus particularidades y debes analizar, por ejemplo, su duración (en segundos). No sin dificultades has obtenido tres conjuntos de datos: doce datos de malvices; nueve, de cuelliamarillos; y once, de towhees.
1
1
0
22
GIF
La pregunta surge de manera natural: ¿Se puede afirmar, a la luz de los datos observados, que la duración del canto de las diferentes especies es la misma? O, equivalentemente, ¿existen diferencias entre las tres especies en base a dichos datos?
1
1
0
24
GIF
Quizás se te haya ocurrido calcular la media de cada uno de los tres conjuntos, y compararlas…
1
1
0
22
GIF
O, tal vez, se te haya pasado por la cabeza construir los histogramas de los tres conjuntos de datos… Por cierto, los tres presentan una parte central más elevada que los extremos… Qué forma tan curiosa, ¿no?
1
1
0
21
GIF
O, mejor todavía, puede que hayas pensado dibujar los tres diagramas de caja (y bigotes)… Grosso modo, esta es la representación de los datos en términos de sus cuartiles: mediana, primer y tercer cuartil, y demás. ¿Parece que los cuelliamarillos son verdaderos cantores, eh? 🎶
1
1
0
26
GIF
Sí, ya sé que se observan ciertas diferencias, pero esas medias y representaciones gráficas no son más que las de TU “muestra”… ¿Cómo pretendes generalizarlo? ¡No me seas político! Puestos a inferir, hagámoslo bien.
1
2
0
28
GIF
La duración media del canto de los malvices, por ejemplo, es de 0.67 segundos. Si la duración del canto de uno de ellos es de 1.05 (como efectivamente es), podemos escribir: 1.05=0.67+0.38, es decir, su media más (o menos) una perturbación propia del dato concreto.
1
1
0
22
GIF
De hecho, esto lo podemos hacer con todos los datos de los malvices: 1.05=0.67+1.38 0.93=0.67+0.26 … 0.48=0.67-0.19 0.39=0.67-0.28 Así, cada canto/dato de los malvices queda caracterizado por la media de su grupo y una cantidad que depende del canto/dato concreto.
2
1
0
18
GIF
Lo mismo podemos hacer para los cuelliamarillos y los towhees. Date cuenta que cada uno de los treintaidós datos comparte con su grupo un sumando (no cantan igual los niños que los adultos), pero también es resultado de sus características propias (no cantas igual que Beyoncé).
1
1
0
22
GIF
Ahora bien, ¿cuál de las dos componentes tiene mayor protagonismo en la variabilidad de los datos: las medias grupales o las perturbaciones dentro de los grupos? Si las responsables fueran las medias grupales, entonces podremos decir que hay diferencias.
1
1
0
18
GIF
Una medida de la variabilidad total del conjunto de datos (SCT) es la suma total de los cuadrados de las diferencias de las observaciones y su media. Esta cantidad está relacionada con una medida de dispersión archiconocida denominada #varianza.
1
1
0
21
GIF
Observa que cuanto más lejanos a la media sean los datos, mayor será esta suma. No en vano, la estimación de la varianza muestral se obtiene dividiendo dicha suma por el número total de datos menos uno.
1
1
0
20
GIF
A fin de calcularla, observa en primer lugar que tus datos conforman un conjunto de treintaidós valores cuya media es, aproximadamente, 1.16. La suma de los cuadrados de cada dato menos 1.16 es, aproximadamente, SCT=8.04.
1
1
0
20
GIF
Curiosamente, SCT se puede descomponer en dos sumandos (SCT=SCE+SCD): la variabilidad “inter-grupos” (SCE) y la variabilidad “intra-grupos” (SCD). Lo mejor de todo es que ambos sumandos se relacionan con las dos partes en que dividimos los datos (media grupal y perturbaciones).
1
1
0
21
GIF
Observa estas dos situaciones hipotéticas: Si fuera SCE=7 y SCD=1.04, la variabilidad inter-grupos sería la principal responsable de la magnitud de la variabilidad total. Si, por el contrario, fuera SCE=1.04 y SCD=7, la responsable sería la variabilidad intra-grupos.
1
1
0
20
GIF
Entonces… ¿Cómo calcular SCE y SCD? Observa que, una vez obtenida la variabilidad total (SCT), es suficiente con calcular una de ellas (SCE ó SCD). Por ejemplo, si computamos SCE, entonces SCD=SCT-SCE.
1
1
0
19
GIF
El cálculo de SCE, for instance, es sencillo y se realiza a partir de las medias grupales y la media global. La variabilidad inter-grupos (SCE) no es más que la suma de los cuadrados de las diferencias de las medias grupales y la media global, por el tamaño de cada grupo.
1
1
0
17
GIF
Cuanto más alejadas de la media global estén las medias de cada grupo, mayor será SCE. En este caso, SCT (8.04) es igual a SCE (7.32) más una cantidad (0.72) que, tal y como se puede comprobar, representa la variabilidad de las perturbaciones (intra-grupos).
1
1
0
20
GIF
Dado que SCE=7.32 es un valor mucho más grande que SCD=0.72, parece que la mayor carga de variabilidad se debe a las diferencias entre los distintos grupos. Pero, ¿es suficiente la distancia entre SCE y SCD para afirmar que existen diferencias en la duración del canto?
1
1
0
17
GIF
A fin de alcanzar una conclusión válida en términos probabilísticos (la única salida puesto que nunca conoceremos todas las duraciones de todos los cantos de todas las aves de todos los tiempos), debemos acudir al contraste conocido como ANOVA y propuesto por R.A. Fisher.
1
1
0
18
GIF
En primer lugar, debemos comprobar que cada una de las de las muestras, una por población, cumple tres propiedades. Y solo contamos con la complicidad de nuestros datos. Deben sincerarse. Deben cantar sobre su origen a partir de gráficos y otros procedimientos estadísticos.
1
1
0
18
GIF
1 Las muestras de las tres especies de aves son independientes (es decir, los valores en cada muestra no dependen de los valores de las otras dos).
1
1
0
17
GIF
2 Las poblaciones de las que procede cada grupo son normales (es decir, la variable “duración del canto” restringida a cada una de las tres especies sigue una distribución normal).
1
1
0
16
GIF
3 Todas las poblaciones tienen la misma varianza. Esto quiere decir que, de alguna manera, las tres curvas normales son similares (homocedasticidad). No son iguales, lo sé. Pero la diferencia no debe ser significativa (recurrente palabra en estadística).
1
1
0
15
GIF
Estas cuestiones se pueden estudiar, y así es recomendable hacerlo, mediante el estudio de las perturbaciones (o residuos) que pueden ser calculadas como la observación correspondiente menos la media de su grupo (o especie). Algunos gráficos útiles se pueden ver en la animación.
1
1
0
15
GIF
Su comprobación debe llevarse a cabo no solo mediante ilustraciones, sino también con pruebas estadísticas llamadas contrastes de hipótesis. ¿Me creéis si os digo que las tres condiciones se cumplen? ¡Por el amor de Fisher!
2
1
0
17
GIF
La conclusión final llegará en función del análisis del cociente de SCE y SCD entre sus respectivos grados de libertad k y l (lo llamaremos F). Si F=(SCE/k)/(SCD/l) es muy grande, será porque la variabilidad inter-grupos es grande en comparación con la intra-grupos.
1
1
0
15
GIF
Los grados de libertad k de SCE es el número de grupos (3) menos 1, es decir, 2. De esta forma, 7.32/2=3.66. Los grados de libertad l de SCD es el número total de datos (32) menos el número de grupos (3), es decir, 29. Así, 0.72/29=0.02. De esta forma, F=3.66/0.02=183.
1
1
0
16
GIF
La pregunta es obligada: ¿es F=183 lo suficientemente grande para afirmar que el numerador es mucho más grande que el denominador? ¡Necesitamos alguna referencia para poder realizar una comparación! ¿150? ¿5? ¿230?
2
1
0
19
GIF