viernes, 15 de junio de 2012

ASOCIACIÓN ENTRE VARIABLES



COEFICIENTE DE CORRELACIÓN PHI

El coeficiente de correlación phi, expresado por la letra griega φ, se emplea cuando nos encontramos ante dos variables dicotómicas, es decir, variables para las cuales sólo es posible considerar dos modalidades. El coeficiente de correlación φ es el resultado de aplicar rxy a los valores correspondientes a dos variables de este tipo.
Si asignamos los valores 0 y 1 a cada una de las dos modalidades de la variables dicotómicas X e Y, podremos construir una tabla (tabla 6), en la que quede reflejada la distribución conjunta de frecuencias para las dos variables.

Tabla 6: Tabla de contingencia para variables dicotómicas
X
0
1
Y
1
a
b
0
c
d
A partir de los valores a, b, c y d, que representan la frecuencia en cada una de las celdillas de la tabla, es posible calcular el coeficiente φ. Basta aplicar la siguiente fórmula:



Propiedades
a) El coeficiente φ es un caso particular de rxy, puesto que se calcula a partir de éste, por aplicación del coeficiente de Pearson a una serie de valores de carácter dicotómico.
b) El coeficiente de correlación φ se encuentra comprendido entre los valores -1 y 1. Es decir, -1 < φ < 1.
Este coeficiente de correlación será positivo cuando cb sea mayor que ad. En este caso, existe una relación entre las dos variables en el sentido de que los sujetos que presentan el valor 0 en la variable X tienden a presentar el valor 0 también en Y, y sujetos que presentan el valor 1 en X tienden al valor 1 en la variable Y.
Por el contrario, el coeficiente será negativo cuando cb sea menor que ad. En tal situación, predominan los sujetos situados en las casillas correspondientes a las frecuencias a y d. Es decir, existe relación entre presentar el valor 0 en X y presentar el valor 1 en Y. De forma recíproca, existe relación entre presentar el valor 1 en X y el valor 0 en la variable Y.
c) El valor de φ será 1 cuando todos los sujetos que presentan la modalidad 1 en X presentan la modalidad 1 en Y, y todos los sujetos con 0 en X obtienen 0 en Y. El valor de φ será -1 cuando todos los sujetos que presentan la modalidad 1 en X presentan la modalidad 0 en Y, y todos los sujetos con 0 en X obtienen 1 en Y (ver tabla 8).
Tabla 8: Cálculo de φ con casillas vacías en diagonales
X
X
0
1
0
1
Y
1
0
b
b
Y
1
a
0
a
0
c
0
c
0
0
d
d
c
b
a
d
A partir de los valores de la tabla 8, calcularemos el coeficiente cp para el caso en que las diagonales presentan frecuencia nula.

d) Si calculamos el valor de χ2 para una tabla de contingencia de dos filas por dos columnas, se cumple la equivalencia:
Ejemplo 8.5
De un grupo de 200 estudiantes universitarios que han pasado una prueba objetiva, se sabe que 140 han acertado el ítem 34. Se sabe además que 30 varones han fallado, del grupo total de 80 varones. Determina el valor de la relación entre el sexo y el número de aciertos al ítem 34.
Consideraremos de una parte la variable sexo, con los valores 0 (hombre) y 1 (mujer), y de otra el resultado de la respuesta al ítem, con los valores 0 (error) y 1 (acierto). La tabla de contingencia con la que trabajamos puede completarse a partir de la información del enunciado (ver tabla 7).
Tabla 7: Tabla de contingencia correspondiente al ejemplo 8.5
Ítem 34
0
1
Sexo
1
30
90
120
0
30
50
80
60
140
200
Conociendo todos los valores de las celdas, podemos aplicar la fórmula del coeficiente φ

El valor resultante no es muy elevado. El signo de la correlación indicaría que la tendencia observada es la asociación entre las modalidades 0 de cada variable y entre las modalidades 1. Así, acertar el ítem se asociaría a las mujeres y errarlo a los hombres.
COEFICIENTE DE CORRELACIÓN DE SPEARMAN
Para aplicar el coeficiente de correlación de Spearman se requiere que las variables estén medidas al menos en escala ordinal, es decir, de forma que las puntuaciones que las representan puedan ser colocadas en dos series ordenadas. A veces, este coeficiente es denominado por la letra griega ρs (rho), aunque cuando nos situamos en el contexto de la Estadística Descriptiva se emplea la notación rs, que será la que utilicemos aquí.
La fórmula de cálculo para rs puede derivarse de la utilizada en el caso de rxy; bastaría aplicar el coeficiente de correlación de Pearson a dos series de puntuaciones ordinales, compuestas cada una de ellas por los n primeros números naturales (ver Amón, 1986:267 y ss.). No nos ocuparemos aquí del modo en que se deduce la fórmula, sino de su aplicación.
A partir de un conjunto de n puntuaciones, la fórmula que permite el cálculo de la correlación entre dos variables X e Y, medidas al menos en escala ordinal, es la siguiente:

donde d es la distancia existente entre los puestos que ocupan las puntuaciones correspondientes a un sujeto i cuando estas puntuaciones han sido ordenadas para X y para Y.
 Propiedades
a) El coeficiente de correlación de Spearman se encuentra siempre comprendido entre los valores -1 y 1. Es decir, -1 < rs < 1.
b) Cuando todos los sujetos se sitúan en el mismo puesto para la variable X y para la variable Y, el valor de rs es 1. Si ocupan valores opuestos, es decir, al primer sujeto en X le corresponde el último lugar en Y, al segundo en X le corresponde el penúltimo en Y, etc., entonces el valor de rs es -1.
c) El coeficiente rs es un caso particular de rxy, puesto que se calcula a partir de éste, por aplicación del coeficiente de Pearson a valores ordinales considerados como puntuaciones. Por ello, al aplicar la fórmula de rxy a los valores de dos series de rangos, obtendríamos el mismo resultado que con la fórmula de rs.
d) Si calculamos el coeficiente de correlación de Pearson entre dos variables X e Y, y el coeficiente de correlación de Spearman para las mismas puntuaciones pero transformadas en rangos, ambos coeficientes se aproximan en valor según aumenta el número de sujetos n.
Ejemplo 8.1
Queremos establecer la correlación existente entre las variables comportamiento en clase (X) y cumplimiento de tareas (Y) medidas en un grupo de 10 alumnos de EGB. Para la primera variable conocemos la puntuación otorgada por un equipo de profesores, mientras que en el caso de la segunda variable, disponemos únicamente de la posición que ocupan los 10 alumnos cuando son ordenados desde el que cumple en mayor grado sus tareas hasta el que lo hace con menor grado. Los datos aparecen recogidos en las dos primeras columnas de la tabla 1.
En este caso no podríamos aplicar el coeficiente de correlación productomomento, puesto que sólo una de las dos variables aparece medida en escala de intervalos. Por esta razón, tendremos que utilizar el coeficiente de correlación rs. Para ello, transformaremos la variable X en una variable ordinal asignando a cada sujeto el rango (o posición) que le corresponde en el grupo de acuerdo con la puntuación alcanzada. El resultado de esta transformación aparece en la columna tercera de la tabla 1.
Tabla 1: Datos y cálculos correspondientes al ejemplo %
Y
Rango (X)
di
di2
3.5
1
2
1
1
2.9
2
6
4
16
3.1
3
5
2
4
3.8
4
1
3
9
2.0
9
9
0
0
2.6
8
8
0
0
3.2
6
4
2
4
3.4
5
3
2
4
2.8
7
7
0
0
1.9
10
10
0
0
Σdi2 = 38
En este caso, hemos ordenado las puntuaciones de mayor a menor, dado que la variable Y también estaba ordenada en este sentido. No obstante, el coeficiente de correlación no cambiaría si las dos variables estuvieran ordenadas de menor a mayor.
A partir de las dos series de puntuaciones expresadas en escala ordinal, hemos procedido a calcular los valores de las distancias al cuadrado entre el puesto que ocupa cada individuo en la ordenación de acuerdo con las puntuaciones X y la ordenación de acuerdo con las puntuaciones Y. El resultado de esta operación y de sumar todos los cuadrados aparece en las columnas cuarta y quinta de la tabla 1. Con estos datos, podremos aplicar la fórmula del coeficiente de correlación de Spearman, obteniendo:

La correlación positiva indica que los sujetos situados en los primeros puestos para la variable X, es decir, los de mejor comportamiento en clase, son también los que ocupan los primeros puestos en la ordenación para la variable Y, o sea, los que en mayor grado cumplen sus tareas. Otro tanto podríamos afirmar de los sujetos que ocupan los puestos más bajos en ambas variables.
En el ejemplo que acabamos de ver no había dos sujetos que tuvieran una misma puntuación en X o en Y. Sin embargo, esta circunstancia podría darse, dificultando la asignación de rangos. En ese caso, el puesto asignado a ambos sería el promedio de los que les hubieran correspondido de no darse esa coincidencia. Por ejemplo, imaginemos las puntuaciones alcanzadas para dos variables X e Y, tal y como se muestra en la primera parte de la tabla 2. Como puede observarse, existen puntuaciones que se repiten, tanto en la variable X como en Y. La parte derecha de esa misma tabla presenta los rangos que asignaríamos a cada una de las puntuaciones al ordenarlas de mayor a menor.
Tabla 2: Asignación de rangos a puntuaciones idénticas
X
Y
Rango (X)
Rango (Y)
35
11
1
5
29
18
4
3.5
31
23
2.5
1
31
18
2.5
3.5
19
21
5
2
La existencia de puntuaciones coincidentes para una variable haría que el coeficiente de correlación se elevara ligeramente por encima de lo que hubiéramos obtenido sin promediar los rangos correspondientes a las puntuaciones repetidas.

No hay comentarios:

Publicar un comentario