ANÁLISIS EN EL DOMINIO DE LA AMPLITUD.

ESTADÍSTICA BÁSICA

    MEDIA MUESTRAL

    TRANSFORMACIÓN A MEDIA CERO

    VALOR CUADRÁTICO MEDIO

    DESVIACIÓN ESTANDAR

    TRANSFORMACIÓN A DESVIACIÓN UNIDAD

FUNCIÓN DE DENSIDAD DE PROBABILIDAD

FUNCION DE DISTRIBUCION ACUMULADA

HISTOGRAMA

DÓCIMAS DE BONDAD DEL AJUSTE

    PRUEBA CHI CUADRADO

    PRUEBA KOLMOGOROV SMIRNOV

 

 

 

 

ESTADÍSTICA BÁSICA



Cuando la señal en que estamos interesados no es de tipo determinístico, nos encontramos con que no podemos predecir el valor de la amplitud de la señal en un instante determinado con exactitud y por lo tanto hemos de encontrar una forma de indicar, por lo menos, la probabilidad de encontrar un determinado valor o rango de valores de la señal.

Una variable aleatoria es la descripción matemática de todos los valores posibles como resultado de un experimento y un proceso aleatorio es una función del tiempo, cuyos valores en cada instante son una variable aleatoria. Nuestro objetivo, al analizar la señal, será identificarla con un proceso aleatorio, a ser posible de tipo conocido y una vez logrado inferir las características del sistema que estudiamos en base a las propiedades de este.

Para ello, es fundamental conocer los parámetros y características de las variables aleatorias que se encuentran con más frecuencia y la forma de equipararlas con las de nuestra señal. Precisamente los momentos de una variable aleatoria son algunas de las características que nos permiten identificarla, aunque habitualmente llegamos a ello a través de dos funciones la función de densidad de probabilidad (fdp) y la función de distribución acumulada (fda) o simplemente función de distribución. La función de densidad de probabilidad determina en forma única (y es determinada por) todos los momentos de la variable aleatoria.



Si disponemos de una serie de 2N datos, obtenidos a tiempos t con intervalos iguales h tales que Fm=1/2Nh, los representaremos como:


Un= U(t'+nh) (n=1,2,...,2N)


podemos definir una serie de estimadores a partir de la señal que representan un procedimiento de tratamiento estadístico básico.


a) Media muestral.



Es un estimador insesgado del verdadero valor poblacional. Su error estándar normalizado es: 1/√2N (recuérdese que 2N es el número de muestras). Lo que prueba la importancia del número de casos cuando es importante conocer con la mayor aproximación el valor poblacional.


b) Transformación a media cero.

En muchas ocasiones, y en el caso de las señales bioeléctricas para eliminar el nivel de continua (DC o CC) conviene transformar los datos restando de cada valor el media muestral, lo que conduce a un conjunto de datos con media cero. La transformación es:



c) Valor cuadrático medio.





Que es un estimador sesgado del verdadero valor cuadrático medio, con un error estándar normalizado que es √1/N.



d) Desviación estándar.





su cuadrado es la varianza poblacional:





ambos son estimadores insesgados de la desviación y varianza poblacional. Nótese que las fórmulas se aplican a datos transformados a media cero (si no se ha hecho la transformación, debe ser sustituido por )



e) Transformación a desviación unidad.

 

En muchas ocasiones conviene llevar a cabo una nueva transformación de los datos que consiste en dividir cada valor por la desviación típica. Haciendo esto se obtiene una serie de números que tenían media cero y ahora tendrán, además, desviación unidad. Esta transformación es especialmente útil para comparar la distribución de los datos con los valores tabulados de algunas distribuciones como la normal. Se debe tener en cuenta la posibilidad de que el resultado de la división incremente el error en los datos en función del tamaño de la “palabra” que utilice nuestro ordenador para almacenar número reales.



Ejemplo



"muestra"
"valor real"
"binario"
"valor digitalizado"
"Error Vr-Vd"
"con media cero"
"valor cuadrático"
"con desviación 1"
1
3,15
"00011"
3
0,15
-0,34
0,12
-0,12
2
0,59
"00000"
0
0,59
-3,34
11,18
-1,2
3
1,49
"00001"
1
0,49
-2,34
5,49
-0,84
4
-0,44
"10001"
-1
0,56
-4,34
18,87
-1,56
5
0,65
"00000"
0
0,65
-3,34
11,18
-1,2
6
2,22
"00010"
2
0,22
-1,34
1,81
-0,48
7
3,87
"00011"
3
0,87
-0,34
0,12
-0,12
8
7,87
"00111"
7
0,87
3,66
13,37
1,31
9
5,92
"00101"
5
0,92
1,66
2,74
0,59
10
3,91
"00011"
3
0,91
-0,34
0,12
-0,12
11
-0,18
"10001"
-1
0,82
-4,34
18,87
-1,56
12
1,24
"00001"
1
0,24
-2,34
5,49
-0,84
13
-0,82
"10001"
-1
0,18
-4,34
18,87
-1,56
14
4,84
"00100"
4
0,84
0,66
0,43
0,24
15
5,5
"00101"
5
0,5
1,66
2,74
0,59
16
6,71
"00110"
6
0,71
2,66
7,06
0,95
17
7,59
"00111"
7
0,59
3,66
13,37
1,31
18
3,22
"00011"
3
0,22
-0,34
0,12
-0,12
19
2,1
"00010"
2
0,1
-1,34
1,81
-0,48
20
0,83
"00000"
0
0,83
-3,34
11,18
-1,2
21
0,92
"00000"
0
0,92
-3,34
11,18
-1,2
22
3,54
"00011"
3
0,54
-0,34
0,12
-0,12
23
7,73
"00111"
7
0,73
3,66
13,37
1,31
24
7,04
"00111"
7
0,04
3,66
13,37
1,31
25
6,84
"00110"
6
0,84
2,66
7,06
0,95
26
4,01
"00100"
4
0,01
0,66
0,43
0,24
27
2,1
"00010"
2
0,1
-1,34
1,81
-0,48
28
3,35
"00011"
3
0,35
-0,34
0,12
-0,12
29
4,4
"00100"
4
0,4
0,66
0,43
0,24
30
7,06
"00111"
7
0,06
3,66
13,37
1,31
31
7,16
"00111"
7
0,16
3,66
13,37
1,31
32
8,31
"01000"
8
0,31
4,66
21,68
1,67
 
"media"     
3,83

		
3,34
0,49
0

		

0

"varianza"  
7,72

		
7,78
0,1
7,78

		
1
"desviación" 
2,78

		
2,79
0,31
2,79

		

1

	La tabla contiene en la primera columna el número que corresponde a la muestra y a su derecha el valor “verdadero” que tendría la señal si pudiéramos conocerlo. La siguiente muestra el valor binario obtenido por el CAD y a continuación éste transformado en valor digital decimal. Esta será la serie que nosotros obtenemos como estimación de la “verdadera”. El error del muestreo se recoge en la siguiente columna. Nótese que el promedio del error está muy próximo a 0,5 y su desviación a 0,29 que son los valores esperables en teoría.
	El promedio de la señal muestreada es 3,34 frente al “verdadero” de 3,83; el valor cuadrático medio de la serie transformada a media cero es 7,78 y coincide, naturalmente, con la varianza de la muestra que es 7,78 y que se corresponde con una desviación típica de 2,79. 
	Los valores se han escrito con dos dígitos decimales pero los cálculos se llevan a cabo con una precisión de mas de ocho cifras significativas.
	Como ejemplo de que es lo que pueden proporcionar las aplicaciones comerciales, se incluye a continuación un listado de los parámetros proporcionados por una aplicación estadística comercial en base a la serie de la tabla. 


Frecuencia = 32

Media = 3,34375

Mediana = 3,0

Moda =

Media geométrica =

Varianza = 7,78125

Desviación típica = 2,78949

Error estándar = 0,493117

Mínimo = -1,0

Máximo = 8,0

Rango = 9,0

Primer cuartil = 1,0

Segundo cuartil = 6,0

Rango intercuartílico. = 5,0

Asimetría = 0,0205182

Asimetría tipificada = 0,0473848

Curtosis = -1,18253

Curtosis tipificada = -1,36547

Coeficiente de variación = 83,424%

Suma = 107,0



Los coeficientes de asimetría y de curtosis tipificados son dos parámetros interesantes ya que pueden dar información sobre la posibilidad de que estemos ante una distribución normal.

FUNCIONES DE DISTRIBUCIÓN Y DE DENSIDAD DE PROBABILIDAD.

FUNCIÓN DE DENSIDAD DE PROBABILIDAD fdp



Supongamos que nos encontramos ante una señal continua, que observamos durante un tiempo T y cuyos valores x(t) son una variable aleatoria. Si consideramos un intervalo en la amplitud limitado por los valores x1 y x2 y denominamos Δx=x2-x1 , nuestra señal tendrá una amplitud mayor que x1 y menor que x2 durante un tiempo Tx, que representará una parte del tiempo total. Podremos afirmar, por lo tanto, que la señal tendrá una amplitud comprendida entre x1 y x2 durante una fracción del tiempo de observación que será Tx/T. Cuando el tiempo de observación tienda a infinito, el limite de Tx/T será la probabilidad de x(t) en el intervalo x1, x2 y se escribirá en la forma:



Prob x1<x(t)<x2 = lim Tx/T cuando



si dividimos el valor de la probabilidad en un intervalo, por el valor del intervalo y tomamos incrementos en la amplitud, cada vez más pequeños tendremos, cuando dicho incremento tienda a cero la función de densidad de probabilidad expresada como:

 

fdp = p(x) =lim (Prob x1<x(t)<x+Δx )/Δx

fdp = p(x) =lim Tx/TΔx cuando



cuyos valores serán siempre reales y no negativos.



FUNCIÓN DE DISTRIBUCIÓN ACUMULADA fda



Esta nueva función , la fda, corresponde a la probabilidad de tener un valor de amplitud de x(t) en el intervalo entre menos infinito y x, o lo que es lo mismo, la probabilidad de que la amplitud de la señal tenga un valor inferior a una cota determinada x. Viene dada por la integral:





dónde p(x) es la función de densidad de probabilidad.

Como en el análisis de señales bioeléctricas con ordenadores digitales, nos encontramos siempre con señales digitalizadas y de duración finita, solamente podremos hacer estimaciones de probabilidad y de la función de densidad de probabilidad. En estos casos la señal x(t) vendrá determinada por valores que conoceremos, solamente, en ciertos intervalos de tiempo, usualmente de la misma duración, y en un número finito de ellos, por lo que la duración total de la señal T, será igual al número total de intervalos 2*N, multiplicado por 1/2*Fm, siendo Fm la frecuencia de NYQUIST y se considerará que la amplitud de la señal se mantiene constante durante cada uno de los intervalos. Así la señal vendrá defina por un conjunto de datos x0,x1,....xi....x2N

Si dividimos el recorrido de amplitudes de la señal, en un número determinado de casillas (o clases) del mismo tamaño, podremos determinar el número de muestras, en la señal, cuya amplitud está dentro del intervalo definido para cada una de las casillas o clases lo que se corresponde con el concepto de "frecuencia" en sentido estadístico. Si lo multiplicamos por 1/2*Fm (duración del intervalo de muestreo) obtendremos el tiempo durante el cual la señal tiene una amplitud incluida dentro de los límites de clase de la casilla correspondiente.

 

HISTOGRAMA

Al dividir el valor de la “frecuencia” por el número total de muestras, obtendremos la "frecuencia relativa". Al mismo resultado se llega si se divide el tiempo durante el cual la señal tiene una amplitud incluida dentro de los límites de cada clase por el tiempo total de muestreo. La representación de la frecuencia relativa contra las marcas de clase es el histograma de amplitudes de la señal. Conforme el tamaño de las casillas sea cada vez menor y el tiempo de observación cada vez mayor, el histograma, en el límite, será una curva continua que corresponde, precisamente, con la representación gráfica de la función de densidad de probabilidad.

En el caso de señales digitalizadas, el tamaño mínimo de casilla posible vendrá definido por la resolución del CAD y el máximo tiempo de observación por la frecuencia de muestreo y el número de muestras. Cuanto menor sea el primero y mayores los dos últimos factores, más se acercará el histograma de amplitudes a la curva correspondiente a la función de densidad de probabilidad, pero mayor será la cantidad de memoria necesaria en el ordenador, la calidad del CAD necesario, el coste en tiempo del proceso de análisis y por lo tanto, el coste real de la investigación.

Una vez obtenido el histograma de amplitudes, el paso inmediato es compararlo con las fdp de procesos aleatorios típicos y tratar de encontrar alguno semejante al histograma obtenido con nuestra señal. En el caso de que se encuentre, será necesario docimar la hipótesis de que se trate de procesos idénticos, para ello se habrá de analizar el grado de certidumbre con el que se puede rechazar la hipótesis nula de que ambos procesos son equivalentes. Esto es lo que hacen, con procedimientos distintos, las dos dócimas que se expondrán a continuación. Ambas tienen un punto crítico común y es que proporcionan el nivel de significación respecto al rechazo de la hipótesis nula, pero no respecto de su aceptación. Es decir que cuando no se puede rechazar de manera significativa la hipótesis nula esto no garantiza que aceptar dicha hipótesis sea lo correcto y por lo tanto que los dos procesos sean idénticos, simplemente permite afirmar que los datos disponibles no justifican decir lo contrario. En cierta medida estas dócimas actúan solamente contra el investigador ya que cuando la dócima permite rechazar la hipótesis nula hemos de admitir que los dos procesos no son iguales y que nuestra idea no era correcta, mientras que si no se puede rechazar la hipótesis nula nadie nos garantiza que los procesos sean idénticos y nuestra idea correcta, simplemente no se puede asegurar que sea incorrecta.

En la práctica la estimación de estas funciones se basa en la obtención de un histograma de amplitudes de los datos, es decir dividir el intervalo de variabilidad de X (recorrido estadístico1) en un número apropiado de intervalos de. clase y tabulando el porcentaje de datos observados en cada intervalo de clase.

Esto supone obtener los los límites inferior y superior del recorrido de X (Xp y Xg respectivamente) y el número de clases (K) en que se dividirá el recorrido. Por razones derivadas de la aplicación de test estadísticos de ajuste, básicamente el test chi cuadrado, conviene escoger K de forma que se tenga en cuenta el número de datos 2N, aplicando la una fórmula que proporciona el número de clases como:



El intervalo de clase C será por lo tanto (Xg-Xp)/K.

A partir de aquí obtendremos una secuencia de K+2 números Mi (i=0,1, ... K+1) aplicando las reglas:

1.- si Xn <= Xp entonces M0 = M0+1

2.- si Xp<Xn<Xg entonces Mi=Mi+1, siendo i el mayor entero menor o igual que Xn-Xp/C

3.- si Xn>Xg entonces Mk+1=Mk+1+1

Es importante tener en cuenta que Xp y Xg no tienen que ser necesariamente el menor o el mayor de los datos de la serie, aunque estos han de ser necesariamente mayor y menor, respectivamente, que aquellos. Por ejemplo para un conjunto de valores entre -5 y +5 podemos escoger Mp y Mg como -6 y +6 pero no Mp=6 o Mg=-6

La elección de Xp, Xg y K determinan los valores de Mi, por esto el estimador de la función de densidad de probabilidad no es único. Los valores de Mi podemos utilizarlos de cuatro maneras distintas.


1.- Histograma: corresponde a la representación gráfica del valor de Mi frente la serie de intervalos de clase clase Di=Xp+iC (i=0,1, ... K+1).

2.- Histograma porcentual: corresponde a la representación gráfica de Mi/2N contra Di. Supone la probabilidad de encontrar un valor X de la población entre los límites de clase.

3.- Histograma de densidad de probabilidad: corresponde a la representación de Mi/2N/C frente a los intervalos de clase. Es el estimador de la función de densidad de probabilidad definida como la probabilidad de encontrar un valor X de la población entre los limites de clase, dividida por el tamaño de la clase.

4.- Histograma acumulado: corresponde a la representación de la suma de Mi/2N desde i igual cero hasta el considerado frente a Di. Supone la probabilidad de encontrar un valor K de la población entre el intervalo de clase menor y el intervalo de clase considerado.



Ejemplo



Para la muestra que tenemos el recorrido es desde -1 hasta 8. Se ha decidido establecer Xp en -1,5 y Xg en 8,5 lo que nos da un recorrido de 10 que dividido en seis intervalos proporciona un intervalo de clase de 1,67. En la tabla siguiente tenemos los resultados para los cuatro histogramas de frecuencia.



clase

Limite inferior

Límite superior

marca

frecuencia

frecuencia relativa

frecuencia acumulada

frecuencia relativa acumulada









menor que


-1,5


0

0

0


1

-1,5

0,17

-0,67

7

0,22

7

0,22

2

0,17

1,83

1

2

0,06

9

0,28

3

1,83

3,5

2,67

9

0,28

18

0,56

4

3,5

5,17

4,33

5

0,16

23

0,72

5

5,17

6,83

6

2

0,06

25

0,78

6

6,83

8,5

7,67

7

0,22

32

1

mayor

> 8,5

0


0

1

32

1




Resulta evidente que, si los intervalos de clase son iguales, los histogramas de frecuencias relativas tienen el mismo aspecto, salvo un factor de escala (definido por el número de casos) que los correspondientes de frecuencias absolutas.

DÓCIMAS DE BONDAD DEL AJUSTE.



CHI CUADRADO.(saber más, pulse aquí)



El primero de los procedimientos de docimasia se basa en la realización de un test de bondad del ajuste. Para ello se debe disponer de las frecuencias de la señal a analizar que denominaremos valores observados (Oi) y los valores, teóricos, que deberían haberse dado en el caso de que siguiese la distribución cuya coincidencia se desea investigar, y que denominaremos valores esperados (Ei). Para cada pareja de valores se calculará la razón entre la diferencia de valores observados y esperados, elevada al cuadrado y los valores esperados. La suma de dichas razones se distribuye como la variable aleatoria chi cuadrado (X2) con k-1-c grados de libertad, siendo k el número de clases en que se dividió el rango de variación de la señal y c el número de parámetros de la distribución teórica que ha sido necesario estimar a partir de la muestra (usualmente uno o dos). La fórmula genérica para el cálculo es:



X2=



Generalmente, los valores esperados se pueden obtener, fácilmente, puesto que están tabulados para la mayor parte de las distribuciones de interés práctico. Una vez obtenido el valor de chi cuadrado y fijado un cierto nivel de significación, se consulta en una tabla de la distribución chi cuadrado, la probabilidad de que, cumpliéndose la hipótesis nula, se halle un valor de chi cuadrado tan grande como el obtenido. Si esta probabilidad es inferior al nivel fijado se rechazará la hipótesis nula y se aceptará, a ese nivel, que las dos distribuciones son distintas, en caso contrario se podrá mantener la hipótesis nula, con un grado de certeza que dependerá, sobre todo, del número de casos puesto que de él depende la potencia de la prueba.

Antes de realizar una dócima como la propuesta se deben tener en cuenta algunos factores que pueden modificar los niveles de significación. En primer lugar se debe comprobar que, para cada clase, la frecuencia esperada ha de alcanzar, por lo menos, un valor de cinco. La razón es que frecuencias esperadas inferiores, al encontrarse en el denominador, pueden agrandar artificialmente el valor de chi cuadrado obtenido. En el caso de encontrar frecuencias esperadas pequeñas conviene agrupar las observaciones de algunas clases adyacentes, modificando los grados de libertad al nuevo número total de clases. En segundo lugar, si el número de grados de libertad es muy alto, puede ocurrir que no se encuentren tabulados los valores de chi cuadrado. En dicho caso se puede utilizar el hecho de que para un número alto de grados de libertad, el estadístico: χ





se distribuye normalmente, con media cero y desviación estándar unidad. En tercer lugar, cuando el número total de datos es pequeño (menos de 50) conviene modificar los cálculos, sobre todo si el número de grados de libertad es de 1, realizando una corrección de continuidad aplicando la fórmula:





X2=



Finalmente, cuando se obtiene un valor de chi cuadrado demasiado pequeño conviene desconfiar del resultado, en efecto es extremadamente raro que coincidan los valores teóricos y esperados, y aunque puede ocurrir, habitualmente se trata de la existencia de errores en la toma de muestras que desvían la observaciones en el sentido de acercarse a los valores teóricos más de lo que ocurriría al azar, en particular si el investigador conoce, anticipadamente, que valores teóricos se esperan. Cuando se obtienen valores de chi cuadrado excesivamente pequeños conviene plantearse, sistemáticamente, una revisión sobre la forma en que se han obtenido los datos y tratar de eliminar cualquier tendencia en favor de conseguir, artificialmente, valores cercanos a los esperados. De hecho siempre que sea posible se debería diseñar la obtención de datos para el estudio siguiendo el formato de doble ciego.



Caso práctico.

En la práctica conviene realizar alguna manipulación de los datos que nos simplifique el procedimiento.

Supongamos que queremos comprobar si los datos de nuestra serie se ajustan o no a una distribución normal.

Hemos dicho que en las frecuencias esperadas hemos de tener valores de 5 o más, si además escogemos las marcas de clase de manera que la frecuencia esperada en cada clase sea siempre la misma los cálculos serán más simples. Si tenemos 2N casos y buscamos el resultado entero de la división 2N/5 tendremos el número de clases que nos garantiza una frecuencia esperada de, al menos, cinco casos si todas las clases tienen la misma frecuencia esperada. En nuestro caso como 2N/5 = 6,4, tendremos que utilizar 6 clases. Si el resultado es impar tomamos el valor par inmediato inferior. La razón de utilizar un número par es, como se verá más adelante, aprovechar la simetría de la distribución normal.

Tenemos que calcular las marcas de clase para proceder al recuento de valores y construir la tabla de frecuencias observadas. Es evidente que al forzar el histograma a que las frecuencias esperadas sean las mismas en todas las casillas el resultado es que el ancho de estas será distinto y dependerá de la forma de la distribución normal. Al escoger un número par de clases tendremos la mitad de las casillas a la derecha de la media y la otra mitad a la izquierda.

El límite superior de la tercera clase será el valor medio y éste será el limite inferior de la cuarta clase (véase la figura más adelante).

Para el límite superior de la cuarta clase hay que recurrir a una tabla de la función normal estandarizada en donde dispongamos de los valores del área bajo la curva de la función de densidad de probabilidad de la normal para los valores de la frecuencia relativa que esperamos tener. En nuestro caso nos interesa cual es la separación a la derecha de 0 que nos garantiza que el área bajo la curva tiene el valor de 1/6 (0,16667) que es la probabilidad para esa marca de clase. Dependiendo de la tabla que consultemos podremos obtener el valor directamente o mediante algo de cálculo algebraico. En nuestra tabla se indica que para x=0,431 el área bajo la curva entre cero y este punto tiene una probabilidad de 0,1667. Por lo tanto el límite superior para la cuarta clase será 0,431 (esto es un valor normalizado, por lo tanto para nuestra serie habrá que multiplicar por la desviación típica y sumar la media) así nos quedará (0,431+3,34)*2,79=4,54 . Como la distribución es simétrica -0,431 será el valor tipificado para el límite inferior de la tercera clase (la que queda a la izquierda de la media), haciendo el mismo cálculo queda (0,431+3,34)*2,79=2,14

Para el límite superior de la quinta clase (y el inferior de la segunda) tendremos que buscar cual es el valor de x para el cual el área de la función entre 0 y x sea precisamente el doble del anterior es decir 0,33334. En nuestra tabla obtenemos x=0,97 por lo tanto haciendo la transformación inversa a la estandarización tendremos 6,05 (y 0,64) .

Las clases primera y sexta incluirán todos los valores menores de 0,64 y todos los mayores que 6,05.

Nuestros datos quedarán por lo tanto :





DÓCIMA CHI CUADRADO

Clase

Límite inferior

Límite superior

Frecuencia observada

Frecuencia esperada

Chi-cuadrado

1

Menor o igual

0,64

7

5,33

0,52

2

0,64

2,14

5

5,33

0,02

3

2,14

3,34

6

5,33

0,08

4

3,34

4,54

3

5,33

1,02

5

4,54

6,05

4

5,33

0,33

6

6,05

mayor

7

5,33

0,52


suma


32

32

2,5


Grados de libertad

3


Valor p

0,47



Si para calcular Chi cuadrado utilizamos la corrección de continuidad, ya que no tenemos muchos datos en nuestra muestra, el valor de Chi cuadrado que se obtiene es 1,28 que con 3 g.l. Nos dá una probabilidad de 0,73.

La conclusión es que no podemos rechazar la hipótesis nula (H0= nuestra distribución procede de una distribución normal) y tenemos que concluir que los datos no permiten afirmar con suficiente certeza (por ejemplo a nivel p<0,05 ya que nuestro valor p es claramente mayor 0,05) que la distribución no es normal.

Se advirtió que de esto no cabe afirmar que es cierto que la distribución es normal y la prueba es que si con los mismos datos, nos plantemos como hipótesis nula que la distribución es uniforme (en este caso los valores esperados son los mismos, pero el tamaño de los intervalos de clase ha de ser idéntico, es decir los que fijamos inicialmente), el estadístico chi cuadrado que se obtiene es de 3,25 cuya probabilidad para 3 g.l. es 0,35 (compruébelo haciendo los cálculos) que tampoco nos permite excluir la hipótesis nula.

La figura muestra el histograma de la señal digitalizada (en clases equiespaciadas) junto a la función de densidad de probabilidad de la distribución normal (en línea continua), lo que permite compararlas visualmente.








PRUEBA DE KOLMOGOROV-SMIRNOV.



El segundo de los procedimientos de docimasia se puede utilizar cuando la prueba chi cuadrado no es apropiada o no es posible realizarla. Se trata de la prueba de KOLMOGOROV-SMIRNOV y presenta la ventaja sobre la prueba chi cuadrado de que es, generalmente, más potente, el número de clases no es crítico y las frecuencias esperadas tampoco, por lo que debería de ser utilizado prioritariamente, aunque en la literatura es más frecuente presentar datos tratados con la primera.



Para el caso de señales digitalizadas, el histograma de frecuencias relativas acumuladas representa una aproximación a la fda y se obtiene, a partir del histograma de frecuencias relativas, como la suma para cada casilla de los valores de frecuencias relativas de grado inferior. A partir de este y de los valores de la fda esperada para la distribución teórica que deseamos docimar se obtendrá la diferencia entre valores observados y teóricos, anotando cual es la mayor (en valor absoluto) de estas diferencias. Existen tablas publicadas, que permiten obtener la probabilidad de ocurrencia de una diferencia tan grande como la calculada, en función del número de casos. Si la probabilidad de ocurrencia de dicha diferencia es menor que el nivel de significación fijado de antemano, se podrá rechazar la hipótesis nula de que nuestra señal sigue el proceso aleatorio docimado en caso contrario se podrá aceptar que los datos disponibles no contradicen la hipótesis nula, aunque insistimos, no cabe afirmar que prueben la identidad de los dos procesos.

Una vez aceptado o rechazado un determinado tipo de proceso como razonablemente ajustado a los datos obtenidos de la señal a analizar, corresponde al investigador sacar las consecuencias correspondientes sobre el proceso en análisis en base a sus hipótesis de trabajo o del estado de los conocimientos sobre el tema.



Caso práctico.

Para aplicar el test de KOLMOGOROV, volvemos a la distribución de frecuencias y dividiendo por el número de muestras obtenemos las frecuencias relativas y acumulando los valores llegaremos a la distribución de frecuencias relativas acumuladas observadas y esperadas.



DÓCIMA KOLMOGOROV SMIRNOV


Clase

Límite inferior

Límite superior

Frecuencia observada

Frecuencia relativa observada

Frecuencia relativa esperada

Frecuencia relativa acumulada observada

Frecuencia relativa acumulada esperada

diferencia

1

Menor o igual

0,64

7

0,22

0,17

0,22

0,17

0,05

2

0,64

2,14

5

0,16

0,17

0,38

0,33

0,04

3

2,14

3,34

6

0,19

0,17

0,56

0,5

0,06

4

3,34

4,54

3

0,09

0,17

0,66

0,67

-0,01

5

4,54

6,05

4

0,13

0,17

0,78

0,83

-0,05

6

6,05

mayor

7

0,22

0,17

1

1

0



La simple inspección de la tabla señala como la mayor de la diferencia entre valores observados y teóricos la que corresponde a la celda número 3. Consultada la tabla correspondiente se encuentra que al nivel 0.05, dicha diferencia no es significativa y por lo tanto no es posible rechazar la hipótesis de que los valores de amplitud de la señal sigan una distribución normal.







 

 

Para regresar utilice el botón atrás de su navegador.

última revisión lunes, 29 agosto 2011 por miguel de córdoba




1Se suele utilizar el término rango (por el inglés range), pero en español rango (en inglés rank) se refiere a clase o categoría (como en el test de rangos) por ello es más apropiado emplear recorrido estadístico.