Prueba Chi cuadrada para proporciones de grupos independientes

En esta entrada estudiaremos el uso de la prueba Chi cuadrado o Ji cuadrada, para proporciones de grupos independientes. Esta prueba al igual que la prueba Z para proporciones es una prueba de aproximación, recuerde que la pruebas para variables nominales, datos expresados en frecuencias o proporciones, la prueba exacta es la correspondiente a la prueba binomial.

La prueba Chi cuadrado es una prueba muy versátil que su abordaje e interpretación de resultados, depende de cómo se asuma la pregunta de investigación; así que puede utilizarse para verificar si existe diferencias entre proporciones de dos grupos independientes o puede asumirse como una prueba de independencia o asociación entre dos variables. La herramienta fundamental para la presentación y análisis de variables nominales o categóricas es la tabla de contingencia ya estudiada en la entrada dedicada a este tipo de variables y el cálculo de riesgos y razón de momios (OR). Aquí como recordatorio se presenta de nuevo una tabla de contingencia (en este caso de 2×2, pero no se restringen a ese número de categorías), para recordar la designación de las celdas de la matriz de tabla (celdas «a» a la d), las celdas marginales (subtotales y total o n).

tabla prueba estado de salud

La prueba chi cuadrada se basa en la suma de todas las diferencias entre las frecuencias observadas de una variable y las frecuencias teóricas o esperadas de las mismas, estas últimas entendidas como frecuencias esperadas según una distribución teórica particular. A modo de ejemplo, y para demostrar cómo obtener las frecuencias esperadas de una tabla de contingencia con las frecuencias observadas, tomaremos la tabla ya utilizada para el cálculo del índice Kappa en otro lugar del blog -con la diferencia que en Kappa solo nos interesaba las celdas donde ocurrían coincidencias (celdas sombreadas en azul de la siguiente tabla), en cambio en Chi cuadrado se tomarán en consideración todas las celdas de la matriz de la tabla (celdas «a» a la «d»).

Ej Sokolow obs

Para calcular las frecuencias teóricas o esperadas, se copian los marginales correspondientes de la tabla de frecuencias observadas en la tabla de frecuencias esperadas y basados en las marginales, calculamos las celdas de la matriz de la tabla de frecuencias esperadas, a través de una simple regla de tres, como sigue:

Para la celda «a» la frecuencia esperada es:

Celda «a» ——————————– Marginal (a+b)
Marginal (a+c)———————— n = a+b+c+d

Celdas «a» = [(a+b)(a+c)]/(a+b+c+d)   o sea:  (65×75)/116 = 42,03 (ver celda «a» de la tabla de frecuencias esperadas siguiente). Al tener uno de las celdas de una tabla de contingencia de 2×2, el resto de las celdas se calculan con las marginales, como sigue:

Celda «b» = 65 – 42 = 23
Celda «c» = 75 – 42 = 33
Celda «d» = 51- 33 = 18

 

Ej Sokolow esperado

Como ocurre con la mayoría de las pruebas de contraste, la prueba chi cuadrada tiene algunas limitantes para poder utilizarla, así: ninguna de las celdas de la matriz de la tabla de frecuencias esperadas puede tener un valor < 2, así como menos del 20% de las celdas de la matriz de frecuencias esperadas puede tener un valor <5. En el caso que se violen estas condiciones se utilizará la Prueba Exacta de Fisher (solo para tablas de 2×2), en vez de utilizar la prueba chi cuadrada.

La estadística de la prueba (Chi), se basa en la distribución Chi cuadrada y su correspondiente tabla. Como ocurre con la prueba t, existe una curva de distribución Chi para cada grado de libertad. Los grados de libertad se calculan a través de la siguiente fórmula:

Gl = (R – 1)×(C – 1)   donde R = renglón (líneas)   y    C = columnas de la matriz de la tabla de contingencia; así para una tabla de 2×2 los grados de libertad serían = (2-1)(2-1) = 1 grado de libertad.

La curva de la distribución Chi cuadrado no tiene valores negativos (las diferencias de frecuencias observadas y esperadas se elevarán al cuadrado como veremos más adelante,  y los valores negativos al elevarse al cuadrado se hacen positivos). La curva de la distribución Chi está fuertemente sesgada a la derecha y a medida que crecen los grados de libertad, la curva se hace «más simétrica».

Las fórmulas correspondientes para el cálculo de la estadística de la prueba Chi cuadrado son:

Fórmula Chi cuadrada

donde O representa las frecuencias observadas y E las frecuencias esperadas o teóricas.

La siguiente es la fórmula corregida de Yates (corrección de continuidad) para el cálculo de la estadística chi, donde se resta 0,5 al valor absoluto de restar las frecuencias esperadas a las observadas antes de elevar al cuadrado dicha resta. Esto disminuye el valor total de Chi cuadrado y la hace una prueba algo más conservadora (menos potente, para rechazar la hipótesis de nulidad). No existe un acuerdo general entre los estadísticos con relación a si la prueba Chi debe o no ser corregida.

Fórmula Chi cuadrada corrección de Yates

Esta fórmula se denomina simplificada y solo es aplicable a tablas de 2×2. Tiene la «ventaja» que no hay que calcular las frecuencias esperadas o teóricas, pero por eso mismo no podemos darnos cuenta si se violan los preceptos para poder utilizar la prueba chi (véase más arriba).

Fórmula Chi cuadrada abreviada

Cuando se violan los preceptos como ya mencionamos se debe utilizar la Pruebas Exacta de Fisher a través de la siguiente fórmula

Fórmula exacta de Fisher

Observe que esta fórmula se resuelve con números factoriales, donde factorial es igual:

Fórmula para factorial

Por ejemplo 5! = 5x4x3x2x1=120     recuerde que tanto 0! y 1! tienen un valor = 1.

A continuación vamos a realizar la prueba chi cuadrada de forma manual y luego compararemos los resultados con aquellos arrojados por el programa estadístico SPSS ® , para ello utilizaremos el siguiente ejemplo

Planteamiento:
«Un investigador quiere evaluar si existe relación entre el sobrepeso (IMC 25-29,9) y la presencia de Esteatohepatitis no alcohólica (Enfermedad hígado graso no alcohólico) en mujeres adultas de una ciudad, para ello seleccionó una muestra aleatoria de doscientos cincuenta mujeres adultas no alcohólicas de esa localidad. » Los resultados se presentan en la siguiente tabla de contingencia:
Nota: utilice un nivel de significancia de α=0,05.

Tabla valores observados ej IX chi

 

1.- Planteamiento de las hipótesis estadísticas

H0: «La hipótesis nula postula que el sobrepeso y la esteatohepatitis no alcohólica no están asociadas (son independientes).»
H1: «La hipótesis alterna establece que el sobrepeso y la esteatohepatitis no alcohólica están asociadas (no son independientes).»

 

2.- Decidir la prueba estadística apropiada

Como el objetivo de investigación es verificar si existe o no asociación entre variables categóricas y cero casillas de la matriz de la tabla de frecuencias esperadas tiene un recuento menor que 5 (El recuento mínimo esperado es de 12), por lo que podemos utilizar la prueba chi cuadrada.

Tabla valores esperados ej IX chi

3.- Elegir el grado de significancia estadística

Se utilizará una hipótesis estadística no direccional, con un nivel de significancia de α = 0,05.

4.- Determinar el valor Chi crítico

GL = (2-1)(2-1) = 1

El valor Símbolo Chi cuadradocrítico  para un α = 0,05  y un grado de libertad es = 3,841 (ver tabla de distribución chi cuadrada)

5.- Calcular la Chi obtenida o calculada

Aplicando la fórmula no corregida correspondiente, tenemos:

Fórmula Chi cuadrada

chi cuadrado resultado ej IX

 

 

Veamos los resultados que ofrece la prueba con el programa SPSS ®:

Tabla resultados ej IX chi

Como podemos observar, los resultados con la prueba realizada de forma manual y los resultados con el programa estadístico SPSS son los mismos. Observe que el programa ofrece el resultado para la prueba con corrección (Yates) y la prueba exacta de Fisher, y adicionalmente se suministra en el pie de tabla el porcentaje de casillas o celdas con frecuencias esperadas menores de 5 (en nuestro caso cero celdas).

 

6.- Hacer las conclusiones

 El valor chi calculado (10,101) es superior al valor chi crítico (3,841) por lo que dicho valor cae en la zona de rechazo de la hipótesis nula. El p valor correspondiente es de 0,001 que es menor a 0,05 (grado de significancia preestablecido) lo que significa que en mujeres adultas existe asociación entre la presencia de sobrepeso y la esteatohepatitis no alcohólica y esta asociación no puede ser explicada por el azar.

Para finalizar, es importante resaltar que la prueba de Chi realizada para indagar si existe asociación o no entre las variables nominales, solo determina si existe o no esta asociación y en el caso existir esta asociación no puede ser explicada por el azar, pero el lector debe observar que la prueba no establece la fuerza de esta asociación (la prueba chi es una prueba cualitativa para asociación); para ello utilizamos el Coeficiente de contingencia «C» y el Coeficiente V de Cramer, el primero no es muy utilizado ya que depende del número de renglones y columnas, por lo que se prefiere utilizar el Coeficiente V de Cramer, en tal sentido este coeficiente puede tener valores entre -1 y 1, donde valores de -1 a 0 significa nula a escasa fuerza de asociación y mientras más cercano a +1 mayor es la fuerza de asociación; otro coeficiente que se utiliza es  el Tau de Goodman y Kruskal aunque este indica más que fuerza de asociación es la capacidad de una variable independiente de predecir con certeza a la variable dependiente. Para el caso del ejemplo anterior, veamos los resultados que nos ofrece SPSS ® y Epidat.

Coeficientes de contingencia

Coeficientes de contingencia 2

Como podemos observar por los coeficientes de asociación, la fuerza de la asociación entre el sobrepeso y la esteatohepatitis no alcohólica.

search previous next tag category expand menu location phone mail time cart zoom edit close