COEFICIENTE
DE CORRELACIÓN PHI
El coeficiente de
correlación phi, expresado por la letra griega φ, se emplea cuando nos
encontramos ante dos variables dicotómicas, es decir, variables para las cuales
sólo es posible considerar dos modalidades. El coeficiente de correlación φ es
el resultado de aplicar rxy a los valores correspondientes a dos
variables de este tipo.
Si asignamos los
valores 0 y 1 a cada una de las dos modalidades de la variables dicotómicas X e
Y, podremos construir una tabla (tabla 6), en la que quede reflejada la
distribución conjunta de frecuencias para las dos variables.
Tabla 6: Tabla de
contingencia para variables dicotómicas
A partir de los valores
a, b, c y d, que representan la frecuencia en cada una de las celdillas de la
tabla, es posible calcular el coeficiente φ. Basta aplicar la siguiente
fórmula:
Propiedades
a) El coeficiente φ
es un caso particular de rxy, puesto que se calcula a partir de
éste, por aplicación del coeficiente de Pearson a una serie de valores de
carácter dicotómico.
b) El coeficiente
de correlación φ se encuentra comprendido entre los valores -1 y 1. Es decir,
-1 < φ < 1.
Este coeficiente de
correlación será positivo cuando cb sea mayor que ad. En este caso, existe una
relación entre las dos variables en el sentido de que los sujetos que presentan
el valor 0 en la variable X tienden a presentar el valor 0 también en Y, y
sujetos que presentan el valor 1 en X tienden al valor 1 en la variable Y.
Por el contrario,
el coeficiente será negativo cuando cb sea menor que ad. En tal situación,
predominan los sujetos situados en las casillas correspondientes a las
frecuencias a y d. Es decir, existe relación entre presentar el valor 0 en X y
presentar el valor 1 en Y. De forma recíproca, existe relación entre presentar
el valor 1 en X y el valor 0 en la variable Y.
c) El valor de φ
será 1 cuando todos los sujetos que presentan la modalidad 1 en X presentan la
modalidad 1 en Y, y todos los sujetos con 0 en X obtienen 0 en Y. El valor de φ
será -1 cuando todos los sujetos que presentan la modalidad 1 en X presentan la
modalidad 0 en Y, y todos los sujetos con 0 en X obtienen 1 en Y (ver tabla 8).
Tabla 8: Cálculo de
φ con casillas vacías en diagonales
|
|
X
|
|
|
|
|
|
X
|
|
|
|
|
0
|
1
|
|
|
|
|
0
|
1
|
|
Y
|
1
|
0
|
b
|
b
|
|
Y
|
1
|
a
|
0
|
a
|
|
0
|
c
|
0
|
c
|
|
|
0
|
0
|
d
|
d
|
|
|
c
|
b
|
|
|
|
|
a
|
d
|
|
A partir de los
valores de la tabla 8, calcularemos el coeficiente cp para el caso en que las
diagonales presentan frecuencia nula.
d) Si calculamos el
valor de χ2 para una tabla de contingencia de dos filas por dos
columnas, se cumple la equivalencia:
Ejemplo 8.5
De un grupo de 200
estudiantes universitarios que han pasado una prueba objetiva, se sabe que 140
han acertado el ítem 34. Se sabe además que 30 varones han fallado, del grupo
total de 80 varones. Determina el valor de la relación entre el sexo y el
número de aciertos al ítem 34.
Consideraremos de
una parte la variable sexo, con los valores 0 (hombre) y 1 (mujer), y de otra
el resultado de la respuesta al ítem, con los valores 0 (error) y 1 (acierto).
La tabla de contingencia con la que trabajamos puede completarse a partir de la
información del enunciado (ver tabla 7).
Tabla 7: Tabla de
contingencia correspondiente al ejemplo 8.5
|
|
Ítem 34
|
|
|
|
|
0
|
1
|
|
Sexo
|
1
|
30
|
90
|
120
|
|
0
|
30
|
50
|
80
|
|
|
60
|
140
|
200
|
Conociendo todos
los valores de las celdas, podemos aplicar la fórmula del coeficiente φ
El valor resultante
no es muy elevado. El signo de la correlación indicaría que la tendencia
observada es la asociación entre las modalidades 0 de cada variable y entre las
modalidades 1. Así, acertar el ítem se asociaría a las mujeres y errarlo a los
hombres.
COEFICIENTE DE CORRELACIÓN DE SPEARMAN
Para aplicar el
coeficiente de correlación de Spearman se requiere que las variables estén
medidas al menos en escala ordinal, es decir, de forma que las puntuaciones que
las representan puedan ser colocadas en dos series ordenadas. A veces, este
coeficiente es denominado por la letra griega ρs (rho), aunque
cuando nos situamos en el contexto de la Estadística Descriptiva se emplea la
notación rs, que será la que utilicemos aquí.
La fórmula de
cálculo para rs puede derivarse de la utilizada en el caso de rxy;
bastaría aplicar el coeficiente de correlación de Pearson a dos series de
puntuaciones ordinales, compuestas cada una de ellas por los n primeros números
naturales (ver Amón, 1986:267 y ss.). No nos ocuparemos aquí del modo en que se
deduce la fórmula, sino de su aplicación.
A partir de un
conjunto de n puntuaciones, la fórmula que permite el cálculo de la correlación
entre dos variables X e Y, medidas al menos en escala ordinal, es la siguiente:
donde d es la
distancia existente entre los puestos que ocupan las puntuaciones correspondientes
a un sujeto i cuando estas puntuaciones han sido ordenadas para X y para Y.
Propiedades
a) El coeficiente
de correlación de Spearman se encuentra siempre comprendido entre los valores
-1 y 1. Es decir, -1 < rs < 1.
b) Cuando todos los
sujetos se sitúan en el mismo puesto para la variable X y para la variable Y,
el valor de rs es 1. Si ocupan valores opuestos, es decir, al primer
sujeto en X le corresponde el último lugar en Y, al segundo en X le corresponde
el penúltimo en Y, etc., entonces el valor de rs es -1.
c) El coeficiente rs
es un caso particular de rxy, puesto que se calcula a partir de
éste, por aplicación del coeficiente de Pearson a valores ordinales
considerados como puntuaciones. Por ello, al aplicar la fórmula de rxy
a los valores de dos series de rangos, obtendríamos el mismo resultado que con
la fórmula de rs.
d) Si calculamos el
coeficiente de correlación de Pearson entre dos variables X e Y, y el
coeficiente de correlación de Spearman para las mismas puntuaciones pero
transformadas en rangos, ambos coeficientes se aproximan en valor según aumenta
el número de sujetos n.
Ejemplo 8.1
Queremos establecer
la correlación existente entre las variables comportamiento en clase (X) y
cumplimiento de tareas (Y) medidas en un grupo de 10 alumnos de EGB. Para la
primera variable conocemos la puntuación otorgada por un equipo de profesores,
mientras que en el caso de la segunda variable, disponemos únicamente de la
posición que ocupan los 10 alumnos cuando son ordenados desde el que cumple en
mayor grado sus tareas hasta el que lo hace con menor grado. Los datos aparecen
recogidos en las dos primeras columnas de la tabla 1.
En este caso no
podríamos aplicar el coeficiente de correlación productomomento, puesto que
sólo una de las dos variables aparece medida en escala de intervalos. Por esta
razón, tendremos que utilizar el coeficiente de correlación rs. Para
ello, transformaremos la variable X en una variable ordinal asignando a cada
sujeto el rango (o posición) que le corresponde en el grupo de acuerdo con la
puntuación alcanzada. El resultado de esta transformación aparece en la columna
tercera de la tabla 1.
Tabla 1: Datos y
cálculos correspondientes al ejemplo %
|
Y
|
Rango (X)
|
di
|
di2
|
3.5
|
1
|
2
|
1
|
1
|
2.9
|
2
|
6
|
4
|
16
|
3.1
|
3
|
5
|
2
|
4
|
3.8
|
4
|
1
|
3
|
9
|
2.0
|
9
|
9
|
0
|
0
|
2.6
|
8
|
8
|
0
|
0
|
3.2
|
6
|
4
|
2
|
4
|
3.4
|
5
|
3
|
2
|
4
|
2.8
|
7
|
7
|
0
|
0
|
1.9
|
10
|
10
|
0
|
0
|
Σdi2
= 38
En este caso, hemos
ordenado las puntuaciones de mayor a menor, dado que la variable Y también
estaba ordenada en este sentido. No obstante, el coeficiente de correlación no
cambiaría si las dos variables estuvieran ordenadas de menor a mayor.
A partir de las dos
series de puntuaciones expresadas en escala ordinal, hemos procedido a calcular
los valores de las distancias al cuadrado entre el puesto que ocupa cada
individuo en la ordenación de acuerdo con las puntuaciones X y la ordenación de
acuerdo con las puntuaciones Y. El resultado de esta operación y de sumar todos
los cuadrados aparece en las columnas cuarta y quinta de la tabla 1. Con estos
datos, podremos aplicar la fórmula del coeficiente de correlación de Spearman,
obteniendo:
La correlación
positiva indica que los sujetos situados en los primeros puestos para la
variable X, es decir, los de mejor comportamiento en clase, son también los que
ocupan los primeros puestos en la ordenación para la variable Y, o sea, los que
en mayor grado cumplen sus tareas. Otro tanto podríamos afirmar de los sujetos
que ocupan los puestos más bajos en ambas variables.
En el ejemplo que
acabamos de ver no había dos sujetos que tuvieran una misma puntuación en X o
en Y. Sin embargo, esta circunstancia podría darse, dificultando la asignación
de rangos. En ese caso, el puesto asignado a ambos sería el promedio de los que
les hubieran correspondido de no darse esa coincidencia. Por ejemplo,
imaginemos las puntuaciones alcanzadas para dos variables X e Y, tal y como se
muestra en la primera parte de la tabla 2. Como puede observarse, existen
puntuaciones que se repiten, tanto en la variable X como en Y. La parte derecha
de esa misma tabla presenta los rangos que asignaríamos a cada una de las
puntuaciones al ordenarlas de mayor a menor.
Tabla 2: Asignación
de rangos a puntuaciones idénticas
X
|
Y
|
|
Rango (X)
|
Rango (Y)
|
35
|
11
|
|
1
|
5
|
29
|
18
|
|
4
|
3.5
|
31
|
23
|
|
2.5
|
1
|
31
|
18
|
|
2.5
|
3.5
|
19
|
21
|
|
5
|
2
|
La existencia de
puntuaciones coincidentes para una variable haría que el coeficiente de
correlación se elevara ligeramente por encima de lo que hubiéramos obtenido sin
promediar los rangos correspondientes a las puntuaciones repetidas.