La estadística no paramétrica es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori, pues son los datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado no sea, como mínimo, de intervalo.
La
prueba de la mediana es una prueba no parametrica que podemos considerar un
caso especial de la prueba de chi-cuadrado,
pues se basa en esta última.
Su objetivo es comparar las medianas de dos
muestras y determinar si pertencen a la misma población o no.
Para
ello, se calcula la mediana de todos los datos conjuntamente. Después, se
divide cada muestra en dos subgrupos: uno para aquellos datos que se sitúen por
encima de la mediana y otro para los que se sitúen por debajo. La prueba de chi- cuadrado
determinará si las frecuencias observadas en cada grupo difieren de las
esperadas con respecto a una distribución de frecuencias que combine ambas
muestras.
En
estadística la prueba
U de Mann-Whitney (también llamada de Mann-Whitney-Wilcoxon, prueba
de suma de rangos Wilcoxon, o prueba
de Wilcoxon-Mann-Whitney) es una prueba no parametrica aplicada a dos muestras independientes. Es, de hecho, la versión no paramétrica de la
habitual prueba t de student.
Fue
propuesto inicialmente en 1945 por frank wilcoxon para muestras de igual tamaños y extendido a muestras de tamaño
arbitrario como en otros sentidos por Henry B. Mann y D. R. Whitney en 1947.
Planteamiento de la prueba
La
prueba de Mann-Whitney se usa para comprobar la heterogeneidad de dos muestras
ordinales. El planteamiento de partida es:
- Las observaciones son variables ordinales o continuas.
- Bajo la hipótesis nula, las distribuciones de partida de ambas distribuciones es la misma
- Bajo la hipótesis alternativa, los valores de una de las muestras tienden a exceder a los de la otra: P(X > Y) + 0.5 P(X = Y) > 0.5.
Cálculo del estadístico
Para
calcular el estadístico U se asigna a cada uno de los valores de las dos
muestras su rango para construir
donde
n1 y n2 son los tamaños respectivos de cada
muestra; R1 y R2 es la suma de los rangos
de las observaciones de las muestras 1 y 2 respectivamente.
El
estadístico U se define como el mínimo de U1 y U2.
Los
cálculos tienen que tener en cuenta la presencia de observaciones idénticas a
la hora de ordenarlas. No obstante, si su número es pequeño, se puede ignorar
esa circunstancia.
Distribución del estadístico
La
prueba calcula el llamado estadístico U, cuya distribución para muestras
con más de 20 observaciones se aproxima bastante bien a la distribución normal.
La
aproximación a la normal, z, cuando tenemos muestras lo
suficientemente grandes viene dada por la expresión:
Donde
mU y σU son la media y la desviación estándar de U
si la hipótesis nula es cierta, y vienen dadas por las siguientes fórmulas:
Niveles de medición
Hay
cuatro tipos de mediciones o escalas de medición en estadística. Los cuatro
tipos de niveles de medición (nominal,ordinal, intervaloy razón) tienen diferentes grados de uso en lainvestigaciónestadística. Las medidas de razón, en donde un valor cero y distancias
entre diferentes mediciones son definidas, dan la mayor flexibilidad en métodos
estadísticos que pueden ser usados para analizar los datos.
Las medidas de
intervalo tienen distancias interpretables entre mediciones, pero un valor cero
sin significado (como las mediciones de coeficiente intelectual o temperatura
en grados celcius). Las medidas ordinales tienen imprecisas diferencias entre valores
consecutivos, pero un orden interpretable para sus valores. Las medidas
nominales no tienen ningún rango interpretable entre sus valores.
La
escala de medida nominal, puede considerarse la escala de nivel más bajo. Se
trata de agrupar objetos en clases. La escala ordinal, por su parte, recurre a
la propiedad de «orden» de los números. La escala de intervalos iguales está
caracterizada por una unidad de medida común y constante. Es importante
destacar que el punto cero en las escalas de intervalos iguales es arbitrario,
y no refleja en ningún momento ausencia de la magnitud que estamos midiendo.
Esta escala, además de poseer las características de la escala ordinal, permite
determinar la magnitud de los intervalos (distancia) entre todos los elementos
de la escala.
La
escala de coeficientes o Razones es el nivel de medida más elevado y se
diferencia de las escalas de intervalos iguales únicamente por poseer un punto
cero propio como origen; es decir que el valor cero de esta escala significa
ausencia de la magnitud que estamos midiendo. Si se observa una carencia total de
propiedad, se dispone de una unidad de medida para el efecto. A iguales
diferencias entre los números asignados corresponden iguales diferencias en el
grado de atributo presente en el objeto de estudio.
Prueba
binomial
La
prueba binomial compara las frecuencias observadas encada una de las dos
categorías de una variable dicotómica con respecto a las frecuencias esperadas
bajo una distribución binomial que tiene un parámetro de probabilidad
específico que, por defecto, para ambas categorías es 0.5.Para cambiar las
probabilidades se puede ingresar una proporción de la prueba para el primer
grupo por lo quela probabilidad para el segundo será 1 menos la probabilidad especificada
para el primero. La prueba está basada en la distribución binomial, que permite
estimar que la probabilidad en una muestra de sujetos que puedan proceder de
una población binomial cuyo valor de p y q (donde q es la probabilidad
contraria) son similares a los de la población de donde se obtuvo la muestra.
Se asume que:
1)
Las observaciones son seleccionadas al azar, son independientes y se obtienen
de una sola muestra;
2)
Los datos son de dos categorías distintas, que se les ha asignado un valor de 1
y 0. Esto quiere decir que si la variable no es dicotómica se deben colapsar
los datos en dos categorías mutuamente excluyentes; y,
3)
Se debe de especificar la probabilidad de ocurrencia de un evento en la
población dada. Esta proporción teórica puede venir de registros públicos,
censos o investigaciones previas.
La prueba binomial está indicada cuando la
variable a ser examinada esdicotómica,
es especialmente útil en casos de tamaño demuestra pequeños, que no se cumplen
los requisitos de la bondad de ajuste de la Ji cuadrada. Pasos a seguir Primero:
Planteamiento de hipótesis estadísticas Ho: p = po Las frecuencias observadas
son iguales alas frecuencias esperadasHa:
p=po.
Las frecuencias observadas difieren de las frecuencias esperadas Segundo
conocer el número total de casos observados(N).Tercero. Conocer la frecuencia
de las ocurrencias encada
una de las categorías Cuarto, Se habla de valores binomiales, con una N de2-30,
k de 0-30 y p desde 0.01 a 0.50.Quinto. Si la probabilidad asociada con el
valor observado de valores aún más extremos, es igual o menor a de alfa se
rechaza la hipótesis nula.12-16Alternativa. Debido a que se utilizan sólo datos
categóricos no hay opción. Si la variable de la prueba no es dicotómica, por lo
que se requiere considerar más dedos categorías, se deberá usar la Ji cuadrada
para bondad de ajuste.
Prueba
de las rachas
La
prueba de las rachas mide hasta qué punto en una variable dicotómica la
observación de uno de sus atributos puede influir en las siguientes
observaciones; es decir, si el orden de ocurrencia en la observación de uno de
los atributos de una variable dicotómica ha sido por azar. Una racha es una
secuencia de observaciones de un mismo atributo o cualidad.
Una
serie de datos en los que hay muchas o pocas rachas, hacen pensar que éstas no han
ocurrido por azar, alternativa para probar que dos muestras vienen de poblaciones
con las mismas distribuciones, se emplea la prueba de rachas sugerida por
Wald-Wolfowitz.
La prueba de los signos permite
contrastar la hipótesis de que las respuestas a dos ''tratamientos'' pertenecen
a poblaciones idénticas. Para la utilización de esta prueba se requiere
únicamente que las poblaciones subyacentes sean contínuas y que las respuestas
de cada par asociado estén medidas por lo menos en una escala ordinal.
La hipótesis nula puede expresarse
como:
Siendo Xi la respuesta del
elemento i-ésimo al primer ''tratamiento'' e Yi la respuesta del elemento
i-ésimo al segundo ''tratamiento''.
La hipótesis alternativa puede ser
direccional, cuando postula que X es estocásticamente mayor (o menor) que Y, o
no direccional, cuando no predice la dirección de la diferencia.
Para realizar el contraste se
hallan los signos (+ o -) de las diferencias no nulas entre las respuestas de
los dos componentes de cada par y se cuenta cuántas son positivas, S+, y
cuántas negativas, S-. Si H0 es cierta, es de esperar que aproximadamente la
mitad de las diferencias sean positivas y la otra mitad negativas.
El estadístico de prueba es S= mín
[S+, S-].
Si H0 es cierta, S tiene
distribución binomial de parámetros n= nº de diferencias nulas y
= 0'5. Si n es grande, la distribución de S puede aproximarse
mediante una normal de parámetrosy la decisión dependerá del valor tipificado de S. Para
mejorar la aproximación se realiza una corrección de continuidad, de forma que
el estadístico de prueba es:
Z se distribuye según una normal
tipificada.
Cuando el número de diferencias no
nulas es pequeño la aproximación de la distribución de S mediante la normal no es
buena y en este caso el SPSS realiza directamente la prueba binomial, dando el
nivel de significación a partir del cual se rechaza H0 en un contraste de dos
colas. Si el contraste se realiza a una cola dicho nivel de significación se
reduce a la mitad.
Toma en consideración la deficiencia
anterior. Las observaciones se ordenan de menor a mayor valor absoluto y se les
asignan rangos (ignorando los valores nulos y actuando igual que en el caso de
la prueba de suma de rangos ante empates). Se utilizará como estadístico de
contraste la suma T+ de los rangos asignados a valores positivos o
bien la suma T- de los rangos asignados a valores negativos.
La prueba de correlación por rangos de Spearman
Como resultado de la revisión de varios autores, asumimos el siguiente
concepto: SPEARMAN (Rho de Spearman). Este coeficiente es una medida de
asociación lineal que utiliza los rangos, números de orden, de cada grupo de
sujetos y compara dichos rangos. Existen dos métodos para calcular el
coeficiente de correlación de los rangos: uno, señalado por Spearman y otro,
por Kendall. El r de Spearman llamado también rho de Spearman es más fácil de
calcular que el de Kendall. La formula
en donde d i = r xi – r yi es la diferencia entre los rangos de X e Y. Otra
variante de la fórmula expresada es:
Algoritmo de solución : Observando el criterio de estadísticos actuales, la mayoría confluye en el siguiente algoritmo de trabajo: Los valores de los rangos se colocan según el orden numérico de los datos de la variable.
Los colores no favorecen a la información presentad
ResponderEliminar