Ayuda EstadisticaLina PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 14

CARACTERÍSTICAS DE LA MUESTRA

Media
1 n
µ=x= ∑ xi (1)
n i=1

Varianza
1 n

2
σ = (xi − x)2 (2)
n − 1 i=1

Donde x i son los datos, n es el número total de la muestra, µ y σ2 son la media y


2
varianza poblacional y µ , σ representan la media y varianza muestral.

Coeficiente de asimetría
n 3

n∑ (x i − x)
Cs = i=1
3
(3)
(n − 1)(n − 2)σ

Posición de Graficación (Plottin Position)

La posición de graficación representa la distribución de probabilidad empírica de la


muestra (PEmp), y según como se ordenen los datos, representa la probabilidad
de excedencia o no excedencia de un evento dado. Si se ordena los datos de
menor a mayor con respecto a su magnitud, al aplicar las fórmulas de plotting
position, estos representan la probabilidad de no excedencia; si se ordenasen al
contrario (mayor a menor) representarían la probabilidad de excedencia. La
mayoría de las expresiones empíricas que se han encontrado se obtienen de la
siguiente expresión general:

i−a
Fi = (4)
n + 1 − 2a

Donde i es la posición que ocupa un dato dentro de la muestra cuando esta se


encuentra ya ordenada, n el número total de datos (muestra), y a es el valor que
cambia, con el cual se busca obtener probabilidades empíricas que no sean
sesgadas dependiendo de la distribución que se use. Algunas de las expresiones
empíricas de probabilidad de no excedencia, son las siguientes:
Tabla 1. Posición de Graficación

Nombre Formula A T* Recomendación


i
Weibull 0 n+1 Para todas las distribuciones
n +1

1
i− 3/8
Blom 0.375 1.60n+0.4 Distribución LogNormal
n + 1/ 4
i − 0.4
Cunnane 0.40 1.67n+0.3 Distribución Gumbel
n + 0.2
i − 0.44
Gringorten 0.44 1.79n+0.2 Distribución Gumbel
n + 0.12
i − 0.35 n
Landwehr PWM
n 0.65
(Stedinger, 1993)
* T es el período de retorno para el mayor evento en la muestra tomada.

Distribuciones de Probabilidad

En este estudio se analizarán aquellas distribuciones comúnmente utilizadas en el


análisis de frecuencia de eventos hidrológicos extremos, como son la distribución
LogNormal, Gumbel, y Wakeby.

™ Distribución LogNormal

Se dice que la variable aleatoria X, se encuentra distribuida en forma LogNormal,


si el Y = ln X, esta normalmente distribuida. La función de densidad de
probabilidad (pdf) se expresa de la siguiente manera:

1  (y − µ y )2 
f(x) = exp  −  (5)
xσy 2π  2σ y 2 

F(x) no se encuentra definida explícitamente.

Donde µ y = µ y es la media (parámetro de localización) y σ y = σ y es la desviación


estándar del logaritmo de los datos (parámetro de escala)

Estimación de Parámetros:

• Método de los Momentos (MM)

Media
 σy 2 
µ x = exp  µ y +  (6)
 2 

Varianza

2
σ x 2 = µ x * ( exp(σ y )2 − 1) (7)

(Kite, 1988)

• Método de la Máxima Verosimilitud (ML)

1 n
µy = ∑ ln xi (8)
n i=1

1 n
∑ (ln xi − µ y )2 (9)
2
σy =
n i=1

(Kite, 1988)

• Método de los Momentos Ponderados (PWM)

l 0 (10)
µy = M

l M l0 
σ y = 3.54491*  M1−  (11)
 2
 

Donde

n n
l0 = x = 1 x l1 = 1 x * F
M ∑ i
n i=1
M ∑ i i
n i=1
(12)

Donde Fi es el estimativo de F(x = xi ) de la muestra (función acumulada), y cuyo


valor es calculado con las fórmulas de plotting position. En este caso se aplica las
anteriores ecuaciones con el logaritmo de los datos (y = ln (x)). (Ding, Song, and
Yang, 1989)

Estimación de Caudal para un período de retorno dado.

Para determinar el caudal máximo para un período de retorno, se hace uso de la


siguiente expresión:

Ln(XT ) = µ y + K σ y (13)

En donde K es llamado factor de frecuencia, o también variable normal estándar


en este caso, y puede ser hallada matemáticamente con el siguiente polinomio y
cuyo error es menor a 4.5*10-4, pero para la cual existe una tabla tabulada (Anexo
1):

3
2.515517 + 0.802853w + 0.0103128w 2
K=w− (14)
1 + 1.432788w + 0.189269w 2 + 0.001308w 3

Donde w es:

1/ 2
  1 
w = ln  2   p es la probabilidad de excedencia (0 < p < 0.5)
  p 

Si p> 0.5, se remplaza p por 1-p y K se le asigna un signo negativo. Para cualquier
1
período de retorno (T), la probabilidad de excedencia es p = .(Kite, 1988).
T
Gráfica de probabilidad

Para realizar la gráfica y que aparezca en forma lineal, las abscisas y las
ordenadas representan respectivamente, el factor de frecuencia K y el logaritmo
natural de los caudales tanto dados como estimados.

En ella se grafican los datos de la siguiente manera:

™ Se les da una probabilidad empírica de no excedencia (Weibull, Blom,


Cunnane, etc – la que el usuario escoja).

™ Al hallar el anterior se calcula K (factor de frecuencia), haciendo uso de la


ecuación 14.

™ Con los dos anteriores ya se puede dibujar la nube de puntos que


representan los datos.

Para graficar los caudales estimados por la distribución LogNormal, usando la


probabilidad empírica seleccionada, se realiza lo siguiente:

™ Del paso anterior se conserva la misma probabilidad empírica de no


excedencia, es decir que conservamos también K.

™ Se estima el caudal para esas probabilidades, haciendo uso de los


parámetros hallados por el método de ajuste escogido (MM – Método de los
momentos, PWM – Método de los momentos ponderados), haciendo uso de
la expresión 13.

™ Con los dos anteriores se obtiene una gráfica que se representará por
medio de una línea continua.

Así, el usuario puede encontrar para cualquier probabilidad de no excedencia


(período de retorno), el caudal estimado por medio grafico.

4
Distribución Gumbel o de Valores Extremos Tipo 1 (EV1)

Una de las ventajas de esta distribución es que tiene definida tanto la función de
densidad de probabilidad (pdf), como la función de distribución acumulada (cpf),
descritas a continuación:

1  x −β  x − β 
f(x) = exp  − − exp  − −∞ < x < ∞
α  
pdf (15)
α  α 

  x − β 
F(x) = exp  − exp  −
α  
cpf (16)
 

Donde β (parámetro de localización o medida de la tendencia central) y α


(parámetro de forma), son los parámetros de la distribución.

Estimación de Parámetros:

• Método de los Momentos (MM)

l
Primer momento = µ = β + 0.5772157α

5
2 π2 l 2
Segundo momento = σ = α
6

Donde µ es la media y σ es la desviación estándar de los datos de la muestra sin


transformar, luego los parámetros quedan definidos como:

l= 6
α σ (17)
π
l
β = µ − 0.5772157α (18)
(Kite, 1988)

• Método de la Máxima Verosimilitud (ML)

En este método se encuentran los valores de β y α que maximicen la función


logaritmo de la verosimilitud. Al expresar la distribución Gumbel de la siguiente
forma:
x =β−αl ln [− lnF(x)] (19)

Se tiene y que es la variable reducida, definida así:

x −β
y= = − ln [− lnF(x)] (20)
l
α

Para encontrar los parámetros se debe seguir un procedimiento iterativo, donde lo


primero que se debe encontrar, son los siguientes términos.

P = n − ∑ y + ∑ y * exp(− y) = 0 (21)

Q = n − ∑ exp( − y) = 0 (22)

Como se puede notar, esta es una solución donde debe tenerse un parámetro
inicial para comenzar un proceso de iteración, esos parámetros iniciales son los
encontrados por el método de los momentos, se aplica las dos expresiones
anteriores, hasta que estas sean cercanas a cero, si esto es verdadero de detiene
el proceso, sino se realiza lo siguiente:

l
l=α
dα l old = α (0.257Q − 0.608P)
l new − α (23)
n

l
α
dβ = βnew − βold = (1.109Q − 0.257P) (24)
n

6
De esta forma se actualizan los parámetros y se vuelve a calcular P y Q, hasta
que dα y dβ sean cercanas a cero. (Huynh, 1987; Fiorentino and Gabriele, 1984;
Clarke, 1973)
Hay una corrección importante que se debe realizar a los parámetros encontrados,
para que estos sean no sesgados:

nαl
α* = (25)
(n − 0.8)

 
 n  α*
β* = α * ln  n  − 0.7 (26)
 exp  − xi   n
∑  α * 
 
 i=1

Donde α* y β* son los parámetros no sesgados, x i es el dato hidrológico y n es el


tamaño de la muestra.

• Método de los Momentos Ponderados (PWM)

l 0 − 0.5772157 * α
β=M l (27)

l 0 − 2M
M l1
l=
α (28)
ln(2)

Donde Ml0 y Ml 1 son estimados utilizando los primeros dos momentos ponderados,
dados en la expresión 12 (Landwehr, 1979b; Huynh, 1987).

Estimación de Caudal para un periodo de retorno dado.

Para determinar el caudal con un periodo de retorno dado, se hace uso de la


siguiente expresión:

l ln [− lnF(x)]
x =β−α

Donde β y α l son los parámetros encontrados con los métodos anteriores, y F(x),
es la probabilidad de no excedencia, definida para el período de retorno como:

1
F(x T ) = 1 − (29)
T

7
Gráfica de probabilidad

Para realizar la gráfica de probabilidad, y que ésta quede representada en forma


lineal, en el eje de las abscisas se colocó la variable reducida (expresión 20) y en
las ordenadas los caudales, tanto estimados como los dados.

En ella se grafican los datos de la siguiente manera:

™ Se les da una probabilidad empírica de no excedencia (Weibull, Blom,


Cunnane, etc – la que el usuario escoja).

™ Se halla la variable reducida (expresión 20), con el valor de F(x) que


corresponde a la probabilidad empírica de no excedencia seleccionada.

™ Con los dos anteriores ya se puede dibujar la nube de puntos que


representan los datos.

Para graficar los caudales estimados por la distribución Gumbel, usando la


probabilidad empírica seleccionada, se hace lo siguiente:

™ Del paso anterior se conserva el valor de la variable reducida y.

™ Se estima el caudal para esas probabilidades, haciendo uso de los


parámetros hallados por el método de ajuste escogido (MM – Método de los
momentos, ML – Método de máxima verosimilitud, PWM – Método de los
momentos ponderados), haciendo uso de la expresión 19.

™ Con los dos anteriores se obtiene una gráfica que se representará por
medio de una línea continua.

Así, el usuario puede encontrar para cualquier probabilidad de no excedencia


(período de retorno), el caudal estimado por medio grafico, haciendo uso de la
expresión para la variable reducida y.

8
Distribución Wakeby

Esta distribución fue propuesta por H.A Thomas en 1976, y se presenta de manera
general en su forma inversa, ya que F(x) o función de distribución acumulada (cdf)
no puede ser escrita explícitamente en función de x:

x = m + a * 1 − (1 − F)b  − c * 1 − (1 − F)− d  para m < x

Ya que m no puede ser mayor que el menor de los datos, en caso que lo sea m
toma el valor de cero. Reagrupando términos, tenemos:

x = −a * (1 − F)b + c * (1 − F)− d + e (30)

donde e = m + a –c, para m < x

Donde d (parámetro de forma del lado derecho de la curva), a y b (son típicos de


los registros decrecientes), e (parámetro de localización de la cola derecha de la
distribución). Houghton (1978).

En esta expresión se deben tener en cuenta algunas condiciones que hacen que
la solución sea inaceptable:

9
• El parámetro b, debe estar entre un valor mínimo y máximo 0.3 ≤ b ≤ 50 .

• Si d ≥ 1.0, la media no existe.

1
• Una función de densidad inválida es: f(m) = < 0,
ab + cd

• Al encontrar x(F), este debe crecer conforme F crece.

Para encontrar los parámetros, se sigue el procedimiento dado por MetCalfe


(1997):

1. Se calcula la PWM de la ecuación 1.55, para k = 0,1,2,3,4

2. Para j = 1, 2, 3, se calcula:

N4 − j = (4) j M3 − (3)1+ j M2 + 3(2) j M1 − M0 (31)


C4 − j = (5) j M4 − 3(4) j M3 + (3)1+ j M2 − (2)j M1 (32)

3. Se calcula el parámetro b, y cuyo valor debe estar entre 0.3 y 50, como se
presenta dos posibles valores, se escoge el que satisfaga esa condición:

1/ 2
(N3C1 − N1C3 ) ± (N1C3 − N3C1 )2 − 4(N1C2 − N2C1 )(N2C3 − N3C2 )
b= (33)
2(N2C3 − N3C2 )

Con el valor escogido de b, se calcula el parámetro de forma del lado derecho de


la curva d:

(N1 + bN2 )
d= (34)
(N2 + bN3 )

4. Para k = 0, 1, 2, 3. Con se obtendrá el siguiente vector:

{k} = (k + 1)(k + 1 + b)(k + 1 − d)MK (35)

5. Se calcula el parámetro m:

l = {3} − {2} − {1} + {0}


m (36)
4

10
6. Parámetro a:

(b + 1)(b + 2)  {1} {0} − m


l
a=  −  (37)
b(b + d)  2 + b 1 + b 

7. Parámetro c:

(1 − d)(2 − d)  {1} {0} + m


l
c= − +  (38)
d(b + d)  2 − d 1 − d 

8. Se estima x para probabilidades de no excedencia F, la para función de


distribución de probabilidad Wakeby en su forma inversa:

l + a * 1 − (1 − F)b  − c * 1 − (1 − F)− d 
x=m
   

Ahora, si m excede el menor de los datos (xi) debe realizarse el ajuste de la


distribución con cuatro parámetros (m = 0), de la siguiente manera:

1. Calcular Mk

2. Para j = 1, 2, 3:

N4 − j = −(3) j M2 + (2)1+ j M1 − M0 (39)

C4 − j = −(4)j M3 + 2(3)j M2 − (2)j M1 (40)

Se siguen los puntos 3, 4 como están descritos en el procedimiento anterior, se


omite el paso 5, y el paso 6 y 7 se realizan con m = 0, y finalmente se chequea el
paso 8.

Si las condiciones que fueron dadas, no se cumplen se dice que la distribución


Wakeby no es apta para hacer este ajuste.

Gráfica de probabilidad

Esta se realiza de forma sencilla, colocando en el eje de las abscisas la


probabilidad empírica de no excedencia y en el eje de las ordenadas el cuadal
estimado y el dado.

11
Pruebas de Bondad de Ajuste

Es un método usado para determinar cual de las distribuciones teóricas que se


utilizan para modelar los datos, se ajusta mejor a la muestra en particular.

Chi – Cuadrado χ2
n * [f(xi ) − p(xi )]
2
k
χ =∑
2
(41)
i=1 p(x i )

Donde
ni
f(xi ) = p(x i ) = F(x i ) − (Fx i−1 ) (42)
n

Donde k es el numero de intervalos, ni es el numero de datos por intervalo y n es


el tamaño de la muestra. Debe notarse que n*f(xi) es el número de ocurrencias
observadas en el intervalo i, y n*p(xi) es el correspondiente número esperado de
ocurrencias en el mismo intervalo.(Chow, 1988)

Para que la prueba sea utilizada se debe tener como mínimo número de intervalos
5, y un mínimo de 5 observaciones esperadas por cada intervalos, (Behar,1997)

12
sin embargo esto no siempre es posible; de forma general el número de intervalos
es igual a:
1/ 5
 2 * (n − 1)2 
k = 2*  (43)
 z2 

Donde z, es el percentil de la distribución normal estándar tal que para un nivel de


significancia del 5%, z = 1.645. De esta manera se obtiene:

k = 1.8826(n − 1)2 / 5 (44)

En esta prueba se busca rechazar la hipótesis nula, la cual es en este caso “la
distribución se ajusta a la información”, esto se realiza comparando el valor de Chi
– Cuadrado calculado con el tabulado, de la siguiente manera:

Si χ 2 = 0 significa que la distribución teórica y empírica ajustan exactamente,


mientras que si χ 2 > 0, ellas difieren. Los valores calculados de χ 2 regularmente
son comparados con los valores límites de χ 2 tabulados (Anexo 2), si el calculado
es mayor que el valor límite, las frecuencias observadas (distribución empírica)
difieren significativamente de las frecuencias esperadas (distribución teórica),
entonces se rechazaría el ajuste; pero si χ 2 es menor que el tabulado el ajuste se
acepta. Este valor tabulado depende del numero de datos (n), del número de
parámetros de la distribución (np) (los cuales definen el grado de libertad
( ν = k − np − 1)) y del nivel de confiabilidad que se le asigne a la prueba,
usualmente del 95% dando in nivel de significancia del 5% o 0.05 en tanto por
uno, es decir que en 5 de un total de 100 diferentes muestras, la distribución
teórica asumida no se considera un modelo aceptable(Haldar,2000).

Kolmogorov Smirnov (K - S)

Considera la máxima diferencia entre la función de la distribución de


probabilidades empírica de la muestra, Fi(x) y de la función teórica escogida, F(x),
tal que:

Dn = Max F(x)
i − F(x) (45)

La prueba requiere que el valor de Dn calculado con la expresión anterior sea


menor que el valor tabulado Dn, el cual depende del numero de datos (n) y del
nivel de significancia, usualmente se toma del 5%. (Anexo 3)

Coeficiente de correlación de la probabilidad graficada

Desarrollada por Filliben (1975), quien halló una correlación r entre los datos
observados xi y la correspondiente cantidad ajustada determinada usando las
posiciones de graficación Fi para cada valor de xi. Valores de r cercanos a 1

13
sugieren que las observaciones podrían haber sido dibujadas de una distribución
ajustada. Si x denota el valor promedio de las observaciones y w denota el valor
promedio de las cantidades ajustadas, luego:

r=
∑ (x − x)(w − w)
i i
(46)
 ∑ (x − x) ∑ (w − w)
i
2
i
2 0.5


Esta prueba estadística combina dos conceptos fundamentales: la gráfica y el


coeficiente de correlación, así que permite una comparación de resultados gráficos
y numéricos.

Error estándar de ajuste (Least Squares)

Definido como:
1/ 2
 n 2
 ∑ (x i − w i ) 
EEA =  i=1  (47)
 (n − np) 
 

Donde xi son los eventos observados y wi son los eventos calculados, np es el


numero de parámetros de ajuste. wi depende de la ecuación de posición de
graficación, se hallan con la probabilidad de no excedencia Fi asignada a los
eventos xi, estas son las halladas con la formula de Weibull, Blom, Gringorten, etc.
(Campos, 2001)

14

También podría gustarte