viernes, 15 de junio de 2012

ESTADÍSTICA NO PARAMÉTRICA


La estadística no paramétrica es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori, pues son los datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado no sea, como mínimo, de intervalo.
La prueba de la mediana es una prueba no parametrica que podemos considerar un caso especial de la prueba de chi-cuadrado, pues se basa en esta última.

Su objetivo es comparar las medianas de dos muestras y determinar si pertencen a la misma población o no.
Para ello, se calcula la mediana de todos los datos conjuntamente. Después, se divide cada muestra en dos subgrupos: uno para aquellos datos que se sitúen por encima de la mediana y otro para los que se sitúen por debajo. La prueba de chi- cuadrado determinará si las frecuencias observadas en cada grupo difieren de las esperadas con respecto a una distribución de frecuencias que combine ambas muestras.
En estadística la prueba U de Mann-Whitney (también llamada de Mann-Whitney-Wilcoxon, prueba de suma de rangos Wilcoxon, o prueba de Wilcoxon-Mann-Whitney) es una prueba no parametrica aplicada a dos muestras independientes. Es, de hecho, la versión no paramétrica de la habitual prueba t de student.
Fue propuesto inicialmente en 1945 por frank wilcoxon para muestras de igual tamaños y extendido a muestras de tamaño arbitrario como en otros sentidos por Henry B. Mann y D. R. Whitney en 1947.
Planteamiento de la prueba
La prueba de Mann-Whitney se usa para comprobar la heterogeneidad de dos muestras ordinales. El planteamiento de partida es:
  1. Las observaciones son variables ordinales o continuas.
  2. Bajo la hipótesis nula, las distribuciones de partida de ambas distribuciones es la misma
  3. Bajo la hipótesis alternativa, los valores de una de las muestras tienden a exceder a los de la otra: P(X > Y) + 0.5 P(X = Y) > 0.5.
Cálculo del estadístico
Para calcular el estadístico U se asigna a cada uno de los valores de las dos muestras su rango para construir
donde n1 y n2 son los tamaños respectivos de cada muestra; R1 y R2 es la suma de los rangos de las observaciones de las muestras 1 y 2 respectivamente.
El estadístico U se define como el mínimo de U1 y U2.
Los cálculos tienen que tener en cuenta la presencia de observaciones idénticas a la hora de ordenarlas. No obstante, si su número es pequeño, se puede ignorar esa circunstancia.
Distribución del estadístico
La prueba calcula el llamado estadístico U, cuya distribución para muestras con más de 20 observaciones se aproxima bastante bien a la distribución normal.
La aproximación a la normal, z, cuando tenemos muestras lo suficientemente grandes viene dada por la expresión:


Donde mU y σU son la media y la desviación estándar de U si la hipótesis nula es cierta, y vienen dadas por las siguientes fórmulas:

Niveles de medición
Hay cuatro tipos de mediciones o escalas de medición en estadística. Los cuatro tipos de niveles de medición (nominal,ordinal, intervaloy razón) tienen diferentes grados de uso en lainvestigaciónestadística. Las medidas de razón, en donde un valor cero y distancias entre diferentes mediciones son definidas, dan la mayor flexibilidad en métodos estadísticos que pueden ser usados para analizar los datos.

Las medidas de intervalo tienen distancias interpretables entre mediciones, pero un valor cero sin significado (como las mediciones de coeficiente intelectual o temperatura en grados celcius). Las medidas ordinales tienen imprecisas diferencias entre valores consecutivos, pero un orden interpretable para sus valores. Las medidas nominales no tienen ningún rango interpretable entre sus valores.
La escala de medida nominal, puede considerarse la escala de nivel más bajo. Se trata de agrupar objetos en clases. La escala ordinal, por su parte, recurre a la propiedad de «orden» de los números. La escala de intervalos iguales está caracterizada por una unidad de medida común y constante. Es importante destacar que el punto cero en las escalas de intervalos iguales es arbitrario, y no refleja en ningún momento ausencia de la magnitud que estamos midiendo. Esta escala, además de poseer las características de la escala ordinal, permite determinar la magnitud de los intervalos (distancia) entre todos los elementos de la escala.
La escala de coeficientes o Razones es el nivel de medida más elevado y se diferencia de las escalas de intervalos iguales únicamente por poseer un punto cero propio como origen; es decir que el valor cero de esta escala significa ausencia de la magnitud que estamos midiendo. Si se observa una carencia total de propiedad, se dispone de una unidad de medida para el efecto. A iguales diferencias entre los números asignados corresponden iguales diferencias en el grado de atributo presente en el objeto de estudio.

Prueba binomial

La prueba binomial compara las frecuencias observadas encada una de las dos categorías de una variable dicotómica con respecto a las frecuencias esperadas bajo una distribución binomial que tiene un parámetro de probabilidad específico que, por defecto, para ambas categorías es 0.5.Para cambiar las probabilidades se puede ingresar una proporción de la prueba para el primer grupo por lo quela probabilidad para el segundo será 1 menos la probabilidad especificada para el primero. La prueba está basada en la distribución binomial, que permite estimar que la probabilidad en una muestra de sujetos que puedan proceder de una población binomial cuyo valor de p y q (donde q es la probabilidad contraria) son similares a los de la población de donde se obtuvo la muestra. Se asume que:

1) Las observaciones son seleccionadas al azar, son independientes y se obtienen de una sola muestra;

2) Los datos son de dos categorías distintas, que se les ha asignado un valor de 1 y 0. Esto quiere decir que si la variable no es dicotómica se deben colapsar los datos en dos categorías mutuamente excluyentes; y,

3) Se debe de especificar la probabilidad de ocurrencia de un evento en la población dada. Esta proporción teórica puede venir de registros públicos, censos o investigaciones previas.
La prueba binomial está indicada cuando la variable a ser examinada esdicotómica, es especialmente útil en casos de tamaño demuestra pequeños, que no se cumplen los requisitos de la bondad de ajuste de la Ji cuadrada. Pasos a seguir Primero: Planteamiento de hipótesis estadísticas Ho: p = po Las frecuencias observadas son iguales alas frecuencias esperadasHa: p=po.
Las frecuencias observadas difieren de las frecuencias esperadas Segundo conocer el número total de casos observados(N).Tercero. Conocer la frecuencia de las ocurrencias encada una de las categorías Cuarto, Se habla de valores binomiales, con una N de2-30, k de 0-30 y p desde 0.01 a 0.50.Quinto. Si la probabilidad asociada con el valor observado de valores aún más extremos, es igual o menor a de alfa se rechaza la hipótesis nula.12-16Alternativa. Debido a que se utilizan sólo datos categóricos no hay opción. Si la variable de la prueba no es dicotómica, por lo que se requiere considerar más dedos categorías, se deberá usar la Ji cuadrada para bondad de ajuste.
Prueba de las rachas

La prueba de las rachas mide hasta qué punto en una variable dicotómica la observación de uno de sus atributos puede influir en las siguientes observaciones; es decir, si el orden de ocurrencia en la observación de uno de los atributos de una variable dicotómica ha sido por azar. Una racha es una secuencia de observaciones de un mismo atributo o cualidad.

Una serie de datos en los que hay muchas o pocas rachas, hacen pensar que éstas no han ocurrido por azar, alternativa para probar que dos muestras vienen de poblaciones con las mismas distribuciones, se emplea la prueba de rachas sugerida por Wald-Wolfowitz.

 PRUEBA DE SIGNOS
La prueba de los signos permite contrastar la hipótesis de que las respuestas a dos ''tratamientos'' pertenecen a poblaciones idénticas. Para la utilización de esta prueba se requiere únicamente que las poblaciones subyacentes sean contínuas y que las respuestas de cada par asociado estén medidas por lo menos en una escala ordinal.

La hipótesis nula puede expresarse como:
Siendo Xi la respuesta del elemento i-ésimo al primer ''tratamiento'' e Yi la respuesta del elemento i-ésimo al segundo ''tratamiento''.
La hipótesis alternativa puede ser direccional, cuando postula que X es estocásticamente mayor (o menor) que Y, o no direccional, cuando no predice la dirección de la diferencia.
Para realizar el contraste se hallan los signos (+ o -) de las diferencias no nulas entre las respuestas de los dos componentes de cada par y se cuenta cuántas son positivas, S+, y cuántas negativas, S-. Si H0 es cierta, es de esperar que aproximadamente la mitad de las diferencias sean positivas y la otra mitad negativas.

El estadístico de prueba es S= mín [S+, S-].

Si H0 es cierta, S tiene distribución binomial de parámetros n= nº de diferencias nulas y = 0'5. Si n es grande, la distribución de S puede aproximarse mediante una normal de parámetrosy la decisión dependerá del valor tipificado de S. Para mejorar la aproximación se realiza una corrección de continuidad, de forma que el estadístico de prueba es:
Z se distribuye según una normal tipificada.
Cuando el número de diferencias no nulas es pequeño la aproximación de la distribución de S mediante la normal no es buena y en este caso el SPSS realiza directamente la prueba binomial, dando el nivel de significación a partir del cual se rechaza H0 en un contraste de dos colas. Si el contraste se realiza a una cola dicho nivel de significación se reduce a la mitad.

 La prueba de la suma de rangos con signo de Wilcoxon
Toma en consideración la deficiencia anterior. Las observaciones se ordenan de menor a mayor valor absoluto y se les asignan rangos (ignorando los valores nulos y actuando igual que en el caso de la prueba de suma de rangos ante empates). Se utilizará como estadístico de contraste la suma T+ de los rangos asignados a valores positivos o bien la suma T- de los rangos asignados a valores negativos.
La prueba de correlación por rangos de Spearman


Como resultado de la revisión de varios autores, asumimos el siguiente concepto: SPEARMAN (Rho de Spearman). Este coeficiente es una medida de asociación lineal que utiliza los rangos, números de orden, de cada grupo de sujetos y compara dichos rangos. Existen dos métodos para calcular el coeficiente de correlación de los rangos: uno, señalado por Spearman y otro, por Kendall. El r de Spearman llamado también rho de Spearman es más fácil de calcular que el de Kendall. La formula
  
en donde d i = r xi – r yi es la diferencia entre los rangos de X e Y. Otra variante de la fórmula expresada es:





Algoritmo de solución : Observando el criterio de estadísticos actuales, la mayoría confluye en el siguiente algoritmo de trabajo: Los valores de los rangos se colocan según el orden numérico de los datos de la variable.















1 comentario: