ANOVA - Dr. Fernando Tuya

Report
Técnicas estadísticas paramétricas
univariantes: ANOVA y su familia
Fernando Tuya, Investigador I3
Universidad de Las Palmas de G.C.
www.fernandotuya.org
ANOVA
Conocer el efecto de un factor categórico sobre una variable
continua ¿diferencias entre los niveles de distintas variables
categóricas causan diferencias sign. sobre la variable
respuesta/dependiente?
Y
Ej. 1 factor con 4 niveles y medimos respuesta Y en
n réplicas para cada nivel del factor; ¿Son las
medias diferentes entre los 4 tratamientos?
µ1
µ2
µ3
µ4
X (categorías/grupos/tratamientos)
2
ANOVA: comparamos medias entre categorías /grupos/tratamientos
Ho: µ1 = µ2 = µi
H1: µ1 = µ2 ≠ µi
(al menos una diferencia entre grupos)
Ej: Hay diferencias en el rendimiento (variable
continua, dependiente) entre 4 grupos sometidos a
distintos niveles de entrenamiento (factor o variable
categórica)
T-student (caso más sencillo): comparamos medias entre 2
categorías /grupos
Ho: µ1 = µ2
H1: µ1 ≠ µ2
3
Var total = Var entre grupos + Var dentro de grupos (residual)
IDEA GENERAL: ANOVA parte la varianza ( = variabilidad) total =
toda la variabilidad debida a los factores que contrastamos y un término residual
(“cajón desastre”) que incluye todos aquellos factores, variables q influyen a la
variabilidad natural dentro de los grupos, pero q decidí no contrastar (“ruido”)
Idea conceptual: comparar ambas fuentes de variabilidad
Si Var entre grupos > Var residual – diferencias entre grupos son
importantes; evidencia para rechazar Ho; es decir, mi factore(s) son
importantes
Si Var entre grupos < Var residual – diferencias entre grupos NO
son importantes; evidencia para no rechazar Ho, mi factore(s) NO
son importantes
4
Var entre grupos/Var residual
0-1 si Var entre grupos < Var residual
> 1 si Var entre grupos > Var residual
Idea para construir el estadístico¡¡¡ (F-ratios = cociente:
variabilidad entre grupos/variabilidad dentro de
grupos)
5
Lenguaje del ANOVA: Funcionamiento del ANOVA-I
Fuente de variación
Suma de
cuadrados
Grados
libertad
Cuadrados
medios
Entre grupos = niveles
SS g
a-1
SS g/df
Dentro de grupos
(Residual)
SS res
n-1
SS res/df
Total
SS tot
an -1
F-ratio
P-valor
Como hemos visto: ANOVA estima 2 fuentes de
variabilidad y compara sus tamaños
F-ratio = Var entre grupos/Var dentro grupos
6
Lenguaje del ANOVA: Funcionamiento del ANOVA-I
Fuentes de variación
Entre muestras
(entre grupos)
Dentro muestras
(dentro grupos)
Total
Suma de cuadrados (SS) g.l. (d.f.) Cuadrados medios (MS)
( Xi-X)2
k-1
SCa / k-1
(Xij- Xi)2
k (n -1)
SCw / k (n-1)
(Xij- X)2
(k n ) -1
SCt /( kn)-1
El nombre de ANOVA procede de la utilización de la comparación de las
varianzas para determinar si aceptamos la hipótesis de igualdad de
medias: medias = supone = varianzas y si las medias son ≠, la varianza
entre los tratamientos es > que el error (dentro de muestras).
CMa
F = ----------CMw
Vamos a complicar la cosa….más de un factor
Precisamente, es lo q hace de ANOVA una técnica muy
empleada
8
ANOVA-2: modelo lineal de fuentes de variación
Yijk = µ + Ai + Bj + ABij + Residual k(ij)
Efectos principales
(efecto independiente y
aditivo de cada factor;
promediando el efecto
del otro u otros factores)
Interacción (efecto
interactivo entre factores; es
decir, si las diferencias que A
causa sobre Y varían en
función de los niveles de B)
 Precisamos de un estadístico para cada término para
testar (contrastar) su significancia
9
ANOVA-2 parte la variabilidad
Variación total
SST =
Variación debida al
factor A
Variación debida al
factor B
• SSFA +
SSFB +
Variación debida a la
interacción A x B
SSAB +
Variación residual
• SSE
10
ANOVA-3 y así sucesivamente…
Yijkl = µ + Ai + Bj + Ck + ABij + ACik + BCjk + ABCijk +
Residual l(kij)
En teoría no hay limitación, en la práctica la cosa se
complica: recomiendo análisis fáciles al principio, ya
tendrás tiempo de complicarlo¡
11
ANOVA-2: “su lenguaje”
df
SS
MS
F-ratio
A
a-1
Ssa
Ssa/dfa
MS A/MS denominador
B
b-1
SSb
Ssb/dfb
MS B/MS denominador
AxB
(a-1)(b-1) Ssab
Ssab/dfab
MS AB/MS denominador
Residual
Total
ab(n-1)
abn-1
Ssres/dfres
Ssred
P
 La significancia de todo término F ratio =MS numerador/MS
denominador; si F está cercano a 0-1 = no hay efecto significativo
del factor; si F=↑ hay efecto.
12
¿Y todo este rollo de las interacciones?
La gran ventaja de ANOVA es precisamente el q podamos contrastar el efecto de las
interacciones en diseños multifactoriales (incluyen muchos factores); además de los
efectos principales (efectos aditivos): es decir, si el efecto de un factor depende del
otro¡…¿Por qué son tan importantes las interacciones?
Interacciones: sinergias, antagonismo vs. efectos aditivos. Es decir, las interacciones
cuantifican si los tratamientos actúan aditivamente, sinergísticamente o
antagonísticamente.
…se lo muestro con un ej.
¿Influye el recibir fisioterapia en el número de lesiones de corredores? ¿Depende del
nivel de intensidad, p.e. élite, sub-élite y amateurs?
13
Tests a posteriori
¿Pq? - ANOVA te dice q hay diferencias pero no entre
quién (e.g. entre qué niveles)
Test de todos los posibles pares de medias: SNK, Tukey, etc.–”cada maestrillo su
librillo” (nosotros ya veremos los nuestros en las prácticas)
Student-Newman-Keuls (SNK)
extensión secuencial del t-test
14
Tests a posteriori: “problemilla”
Incrementar la probabilidad de cometer error de Tipo I
Ho: µ1 = µ2 = µ3
Ho:
µ1 = µ2
µ1 = µ3
µ2 = µ3
a= 0.05
a= 0.05
a= 0.05
a= 0.05
atotal = 0.15
“Inflamos” error Tipo I
Solución: aunque podemos aplicar ajuste (corrección de Bonferroni),
una decisión salomónica es reducir α de 0.05 a 0.01
Asunciones del ANOVA: test paramétricos
 Homogeneidad de varianzas (entre
niveles/tratamientos). Hay batería de Tests: Cochran’s,
Levene’s . Si no hay: ↑ error tipo I
Peligro¡¡
16
Asunciones del ANOVA
 Normalidad (recuerda si n> 30- Teorema Central del Límite - no problema.
Realmente, es la asunción menos estricta: ANOVA (diseños balanceados) es
robusta a desviaciones de la normalidad
 Independencia Si no hay independencia: muestras son muy similares;
error residual pequeño y consecuentemente ↑ error tipo I. En el planteamiento
del experimento está la solución: problema biológico no estadístico
17
¿Qué hago si se violan las asunciones del
ANOVA
(1) “outliers” como causa de la violación de las asunciones; si datos
siguen distribución bimodal puedes dividir los datos en 2 niveles
(2) Trasforma datos: raíz, log, doble raíz, arc-sen
(3) Si la trasformación no funciona, pero diseño es balanceado y n>
30 – corre ANOVA y aumenta el nivel de confianza. Juega con el
nivel de significación (α); de 0.05 a 0.01; aumentamos nuestra
confianza de un 95 a un 99% y así reduzco la P(error tipo I)
(4) Si la trasformación no funciona, pero el diseño es pequeño –
alternativa no paramétrica (e.g. K-W, Wilcoxon) –los vemos en Rcom.
18
Transformación de datos
X+1
Raíz cuadrada
•Poblaciones que siguen una distribución de Poisson:
medias y varianzas son iguales
Transformación de datos
log (X+1)
Logarítmo
•Muestreos con valores muy altos: medias mayores y
varianza mucho mayores (distribución log-normal)
•Medidas de tasas, concentraciones, relaciones,...
•Independiente del tipo de logaritmo usado
•Sumar una constante (1) para aplicar logaritmos
por los valores que son 0
Transformación de datos
sen-1  X
Arcoseno
•Porcentajes y proporciones (distribución binomial)
•Ej. Porcentaje de cobertura algal
Corolario
 Procura diseños con n alto y distribución balanceada
de muestras
 Toma extra muestras
 Fuerza siempre que puedas ANOVA frente técnicas no
paramétricas: al usar rangos pierdo información. En tal
caso, reporta tus conclusiones con la precaución que
requiere el análisis
22
ANCOVA
Covariables: variables continuas que influyen en la
variable respuesta, pero cuyo efecto no es de interés
Conceptualmente, mismo fundamentos q ANOVA, pero
nos permite incluir una o + covariables, cuyo efecto quiero
eliminar para determinar exclusivamente el efecto de ciertos
factores sobre dicha variable respuesta.
Forma de eliminar “ruido”, pq eliminamos la varianza debido a las
covariables; es decir, a la varianza total le quitamos la varianza
debida a la covariable(s); esto nos permite aumentar el poder del
análisis
23
Ejemplo de ANCOVA
¿Influye el recibir fisioterapia en el número de lesiones de corredores?
¿Depende del nivel de intensidad, p.e. élite, sub-élite y amateurs?
ANOVA-2
Pero queremos quitar el posible efecto del peso de los individuos.
Establezco el peso como covariable en el análisis.
24

similar documents