viernes, 8 de abril de 2011

El análisis de la varianza

Supongamos que tenemos a diferentes niveles para un factor que deseamos comparar.  La respuesta observada para cada uno de los a tratamientos es una variable aleatoria.  Los datos pueden ordenarse como se muestra en la tabla:

<><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><>
Observaciones
Totales
Promedios
1
y11
y12

y1n
y1.
y1.
2
y21
y22

y2n
y2.
y 2.
:






a
ya1
ya2

yan
ya.
y a.





y..
y..

Un dato de la tabla (p.e., yij) representa la j-ésima observación tomada bajo el tratamiento i. esto es en general, n observaciones bajo el i-ésimo tratamiento.
Podemos describir las observaciones con un modelo estadístico lineal de la forma:

yij=µ + τi + εij

i=1,2,…,a y j=1,2,…,n

donde yij es la ij-ésima observación, µ  es un parámetro común para todos los tratamientos llamada media general,  τi es un parámetro único para el i-ésimo tratamiento llamado efecto, y  εij es un componente del error aleatorio que mide la desviación del valor observado.

Para pruebas de hipótesis, las variables aleatorias están distribuidas independientemente con µ0 y varianza σ2, la cual se asume como constante para todos los niveles del factor.  Este modelo es llamado de un solo camino o de análisis de varianza de un factor único. Actualmente, el modelo estadístico de la ecuación describe dos situaciones diferentes con respecto  a los efectos del tratamiento.  Primero. Los a tratamientos pueden haber sido específicamente seleccionados por el experimentador.  En esta situación deseamos probar hipótesis acerca del tratamiento de medias, y las conclusiones se podrán aplicar solo a los niveles del factor considerados en el análisis.  Las conclusiones no pueden ser extendidas a tratamientos similares.  Solo se estimarán los parámetros del modelo.  Ese es llamado un modelo de efectos fijos.  Los a tratamientos pueden ser una muestra aleatorizada de una población grande de tratamientos.  En este caso, desearemos extender las conclusiones (las cuales están basadas en una muestra de tratamientos) para todos los tratamientos en la población, estén explícitamente considerados en el análisis o no.  Aquí,  es la variable aleatoria, y el conocimiento acerca de otras investigaciones en particular es prácticamente inútil.  Se probarán las hipótesis acerca de la variabilidad de τ. Este método es llamado modelo de efectos aleatorios.

Experimentos con un factor

De los diseños experimentales que vamos a estudiar en la presente unidad, el más sencillo de ellos es el diseño experimental en el que interviene en el proceso un solo factor, es decir, una sola variable independiente, a varios niveles.
Un ingeniero está interesado en desarrollar una nueva fibra sintética con una elasticidad máxima que se utilizará para fabricar camisetas para caballero.  El ingeniero conoce por experiencia previa que la elasticidad es afectada por el porcentaje de algodón añadido a la fibra.  Así mismo, él sospecha que un incremento en el contenido de la fibra, podría incrementar así mismo la elasticidad de ella.  Se sabe que el contenido de algodón en un rango del 10 al 40% en el producto final proporciona la elasticidad requerida en nuestro producto.  Se decide probar muestras a cinco niveles de porcentaje de algodón: 15%, 20%, 25%, 30% y 35%.  Decide probar cinco especímenes para cada nivel.
Este es un ejemplo de un experimento de un factor a cinco niveles con cinco réplicas.  Las cinco corridas  deben ser realizadas en orden aleatorio.  Para ilustrar como correr el experimento en orden aleatorio, supongamos que numeramos las corridas como sigue:
% algodón
Número de corrida experimental
15
1
2
3
4
5
20
6
7
8
9
10
25
11
12
13
14
15
30
16
17
18
19
20
35
21
22
23
24
25

Luego se selecciona en orden aleatorio un número del 1 al 25. Supongamos ese número es el número 8.  Entonces el número de observación 8 (con 20% de porcentaje de algodón) se correrá primero.  El proceso deberá ser repetido 25 veces, hasta asignar un lugar a cada una de las observaciones. Esto se realiza de esta manera para evitar errores por factores no controlables, tales como que máquina en que se realiza la fibra se descomponga en el proceso, lo que podría contaminar nuestros resultados.  Supongamos que la secuencia de prueba es la siguiente:

ORDEN ALEATORIO EN EL QUE SE CORRERÁ EL EXPERIMENTO

Secuencia de prueba
Número de corrida
Porcentaje de algodón
1
8
20
2
18
30
3
10
20
4
23
35
5
17
30
6
5
15
7
14
25
8
6
20
9
15
25
10
20
30
11
9
20
12
4
15
13
12
25
14
7
20
15
1
15
16
24
35
17
21
35
18
11
25
19
2
15
20
13
25
21
22
35
22
16
30
23
25
35
24
19
30
25
3
15


Para ilustrar este ejemplo, supongamos que los resultados obtenidos después de correr aleatoriamente nuestro experimento son los siguientes:
<>  <>  <>  <>  <>  <>  <> 
1
2
3
4
5

15
7
7
15
11
9

20
12
17
12
18
18

25
14
18
18
19
19

30
19
25
22
19
23

35
7
10
11
15
11
















De estos datos, obtenemos las siguientes sumatorias y promedios:
Porcentaje de algodón
Observaciones
1
2
3
4
5
total
promedio
15
7
7
15
11
9
49
9.8
20
12
17
12
18
18
77
15.4
25
14
18
18
19
19
88
17.6
30
19
25
22
19
23
108
21.6
35
7
10
11
15
11
54
10.8






376
15.04


Al graficar los resultados anteriores, se obtiene una gráfica de la siguiente forma: (realiza la gráfica con los datos de la tabla anterior, con el porcentaje de algodón en el eje de las x y la elasticidad en el eje de las y).

En la gráfica se puede observar que la elasticidad se incrementa conforme el contenido de algodón es incrementado hasta el 30 % de algodón.  Por arriba del 30%, hay una marcada disminución en la elasticidad. Basándonos en el análisis de la gráfica, podemos sospechar que:

1.    el contenido de algodón afecta la elasticidad de la fibra, y
2.    alrededor del 30% de algodón se alcanza la elasticidad máxima.
Supongamos que deseamos ser más objetivos en el análisis de los datos.  Específicamente, supongamos que deseamos probar la diferencia entre la elasticidad media de todos los a=5 niveles de porcentaje de algodón.  Esto es, estamos interesados en probar la igualdad de las cinco medias.  Podríamos pensar en resolver el problema utilizando una prueba t para todos los posibles pares de medias.  Esta solución podría ser incorrecta, dado que tendríamos un error tipo I acumulado en cada una de las pruebas de hipótesis realizadas. Si decidimos comparar los posibles pares, tendríamos 10 pares, y si la probabilidad de aceptar la hipótesis nula para cada  prueba individual es 1-α=0.95, entonces la probabilidad de aceptar correctamente la hipótesis nula de las diez pruebas es (0.95)10=0.60, si las pruebas son independientes.  Esto es un incremento sustancial de que ocurra un error tipo I.
El método apropiado para probar la igualdad entre muchas medias es el análisis de la varianza.  Así mismo, el análisis de la varianza se puede aplicar a este problema en particular.  Es una técnica muy utilizada dentro de la estadística inferencial.