PRESENTACION_N7_2024_2_Parte_01

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 25

ANÁLISIS ESTADÍSTICO DE

VARIABLES HIDROCLIMATOLÓGICAS

I.C. SERGIO ANDRES GUTIERRREZ


ZARATE
[email protected]

Noviembre de 2024

Análisis Estadístico de Variables


1
Hidroclimatológicas
TEMA 7.

TÉCNICAS DE MACHINE
LEARNING EN EL TRATAMIENTO
DE SERIES TEMPORALES

Análisis Estadístico de Variables


2
Hidroclimatológicas
PRE-PROCESO

Los datos que generalmente obtenemos son datos en bruto


que no pueden usarse directamente para entrenar un
modelo. Es necesario preprocesar los datos para que un
modelo prediga con precisión los resultados.

Los datos del mundo real suelen ser ruidosos, es decir,


contienen errores o valores atípicos, son inconsistentes e
incompletos. Por estas razones, el preprocesamiento de datos
es una parte importante del aprendizaje automático.

Análisis Estadístico de Variables


3
Hidroclimatológicas
PRE-PROCESO

Tipos de pre - proceso:

• Limpieza de datos (Análisis de homogeneidad)


• Reducción de datos (Reducción de dimensionalidad)

Análisis Estadístico de Variables


4
Hidroclimatológicas
PRE-PROCESO

Limpieza de datos
1. Rellenar valores faltantes
a. Ignorar la serie con vacíos.
b. Usar la media para rellenar el valor faltante.
c. Predecir el valor faltante utilizando algún
algoritmo de aprendizaje u otra metodología.

Análisis Estadístico de Variables


5
Hidroclimatológicas
Métodos de completado

Existen diversos métodos para el completado de datos de una serie y una


variable :

1. Aprovechando únicamente la información contenida en la propia serie


temporal. (Métodos univariados)

2. En función de series de la misma variable registradas en otros puntos bajo


condiciones climáticas similares. Métodos con múltiples estaciones aplicados a
una única variable meteorológica.

3. utilizando datos de otras variables meteorológicas, combinando variables y


series registradas en el mismo u otros puntos bajo condiciones climáticas
similares. (Métodos multivariados)

Análisis Estadístico de Variables


6
Hidroclimatológicas
Métodos de completado

METODOS UNIVARIADOS

Se siguen varios criterios:


• Criterio del dato anterior o posterior
• Criterio del valor medio
• Criterio de las diferencias

Análisis Estadístico de Variables


7
Hidroclimatológicas
Métodos de completado

• Criterio del dato anterior o posterior

Este método consiste en sustituir la falta de un dato


por el valor correspondiente al registro anterior o
posterior, en la escala temporal dada.

Su utilización depende del estudio de los coeficientes


de autocorrelación (que deben ser altos) o de otra
forma que la serie presente dependencia temporal y
además no tenga un ciclo muy marcado en la escala
de estudio.

Análisis Estadístico de Variables


8
Hidroclimatológicas
Métodos de completado

• Criterio del valor medio

Este método consiste en sustituir la carencia de un


registro por el valor medio de la serie, o del mes
en cuestión si se trata de valores mensuales.

Es de esperar que este método sólo sea útil y


fiable para series cuyos coeficientes de variación
sean lo más pequeño posible, inferiores al 5%

Análisis Estadístico de Variables


9
Hidroclimatológicas
Métodos de completado

• Criterio de las diferencias

Consiste en sustituir la falta de un registro


mensual por el valor del mes anterior, añadiendo
el valor medio de las diferencias entre el mes
anterior y el mes en cuestión.

Este método es de esperar que sea válido para


series que presenten alta autocorrelación.

Análisis Estadístico de Variables


10
Hidroclimatológicas
Métodos de completado

METODOS UNIVARIADOS CON MULTIPLES


ESTACIONES

Se siguen varios criterios:

• Criterio de Karl (Karl y Williams, 1987)


• Razón o ratio normal (Paulus y Kohler, 1952)
• Combinación lineal ponderada (CLP)
• Criterio de la correlación lineal
• Correlación múltiple (CORMUL)
Análisis Estadístico de Variables
11
Hidroclimatológicas
Métodos de completado

• Criterio de Karl (Karl y Williams, 1987)

Este método consiste en sustituir la carencia de un


registro en una estación dada por el valor
correspondiente de otra estación vecina (estación
próxima a la estación problema) que presente un alto
índice de correlación lineal.

Este método requiere realizar los cálculos con los valores


de las series previamente normalizados mensualmente y
el coeficiente de correlación calculado es el de Pearson.
Análisis Estadístico de Variables
12
Hidroclimatológicas
Métodos de completado

• Razón o ratio normal (Paulus y Kohler, 1952)


Este método estima el dato incompleto 𝑥(𝑡) de una serie utilizando los datos de
tres estaciones vecinas con alta correlación, según la fórmula:

1 𝑥 𝑥 𝑥
𝑥 𝑡 = 𝑥1 𝑡 + 𝑥2 𝑡 + 𝑥3 𝑡
3 𝑥1 𝑥2 𝑥3

Aquí:
- 𝑥, 𝑥1 , 𝑥2 , 𝑥3 : son las medias de las series incompleta y de las tres estaciones
vecinas, respectivamente.
- 𝑥1 (𝑡), 𝑥2 (𝑡), 𝑥3 𝑡 : son los datos de las series vecinas en el tiempo 𝑡.

El método aprovecha la variabilidad de las estaciones vecinas y sus


proporciones, reduciendo la influencia de errores individuales al considerar tres
fuentes.

Análisis Estadístico de Variables


13
Hidroclimatológicas
Métodos de completado

• Combinación lineal ponderada (CLP)

El método utiliza datos de series vecinas estadísticamente correlacionadas para


sustituir valores faltantes. El dato incompleto 𝑥(𝑡) se calcula mediante una
combinación lineal ponderada de los valores 𝑥𝑖 𝑡 de las series vecinas, donde
los pesos son proporcionales al coeficiente de correlación de Pearson 𝑟𝑖 entre
cada serie y la serie incompleta, siempre que 𝑟𝑖 sea mayor a un valor crítico
aceptable.

- Para variables como precipitación, típicamente en ambientes


mediterráneos, se utiliza (0.7 < 𝑟 < 0.8).

- Para variables como temperatura, insolación o presión atmosférica, se


emplean (𝑟 > 0.8) debido a correlaciones más altas.

Análisis Estadístico de Variables


14
Hidroclimatológicas
Métodos de completado

• Combinación lineal ponderada (CLP)


La expresión para calcular 𝑥(𝑡) es:

𝑟1 ⋅ 𝑥1 𝑡 + 𝑟2 ⋅ 𝑥2 𝑡 + 𝑟2 ⋅ 𝑥2 𝑡
𝑥 𝑡 =
𝑟1 + 𝑟2 + 𝑟3

Donde:
- 𝑟𝑖 es el coeficiente de correlación de Pearson entre la serie 𝑖 y la incompleta.
- 𝑥𝑖 𝑡 es el valor de la serie 𝑖 en el instante 𝑡.

Se suelen usar entre dos y cinco series para el cálculo. Los coeficientes de
Pearson se obtienen tras normalizar mensualmente las series involucradas.

Análisis Estadístico de Variables


15
Hidroclimatológicas
Métodos de completado

• Criterio de la correlación lineal


El método de los mínimos cuadrados ajusta una recta de regresión lineal:

𝑦 = 𝑎⋅ 𝑥 + 𝑏

donde:
- ( 𝑦 ): Variable dependiente (estación incompleta).
- ( 𝑥 ): Variable independiente (estación completa).

Hipótesis de partida:

Existe una correlación significativa entre ambas series (𝑟 ≈ 1), garantizando que las
variaciones sean similares. Se usa el coeficiente de correlación de Pearson, previo a
normalizar las series mensualmente.

Análisis Estadístico de Variables


16
Hidroclimatológicas
Métodos de completado

• Criterio de la correlación lineal

Condiciones para un ajuste adecuado:


1. Años comunes: Mínimo entre 5 y 15 años, dependiendo de la
variable meteorológica (e.g., 5 años para series térmicas).
2. Proximidad geográfica: Observatorios cercanos con condiciones
climáticas similares.
3. Incremento de información: La nueva serie debe mejorar la
original, cumpliendo:

𝜎22 2
1
2 ≥ 1 o bien 𝑟 ≥ 1 − 𝑛
𝜎1 1
donde 𝑛1 es la longitud de la serie incompleta.

Análisis Estadístico de Variables


17
Hidroclimatológicas
Métodos de completado

• Criterio de la correlación lineal

Requisitos adicionales:
- Validar que la correlación entre observatorios sea significativa.
- Asegurar que las características locales no distorsionen los
resultados.

Ventajas:
- Método sencillo y robusto, adecuado para completar series
meteorológicas incompletas.
- Se basa en relaciones estadísticas sólidas que maximizan la fiabilidad
de los datos generados.

Nota: La calidad del ajuste depende directamente de la correlación y la


cantidad de datos comunes disponibles.
Análisis Estadístico de Variables
18
Hidroclimatológicas
Métodos de completado

• Correlación múltiple (CORMUL)

Es un método para completar datos con regresión bivariada.

Condiciones:
El método es válido para series homogéneas y cuando la autocorrelación temporal es baja. Se utilizan series con
alta correlación con la serie incompleta. Cuantas más series se usen, menor será la sensibilidad al error.

Regresión Bivariada:
Utiliza dos series de referencia para completar la serie de datos faltantes. La ecuación estocástica de regresión
bivariada es:

1 2
𝑧𝑖𝑗 = 𝑎1 ⋅ 𝑧𝑖𝑗 + 𝑎2 ⋅ 𝑧𝑖𝑗 + 𝜖𝑖𝑗

Donde:
- 𝑧𝑖𝑗 es el valor normalizado de la serie incompleta.
- 𝑎1 ,𝑎2 son los coeficientes de regresión parcial.
- 𝜖𝑖𝑗 es el ruido independiente (media 0, desviación típica 𝑆𝜖 ).

Análisis Estadístico de Variables


19
Hidroclimatológicas
Métodos de completado

• Correlación múltiple (CORMUL)


Coeficientes de regresión:
2
𝑟12 − 𝑟12 𝑟22 − 𝑟12
2
𝑎1 = 2 2 , 𝑎2 = 2 2
𝑟2 − 𝑟12 𝑟1 − 𝑟12

Donde 𝑟1 , 𝑟2 , 𝑟12 son los coeficientes de correlación entre las series de referencia e
incompleta.

Estimación del error:


La desviación típica del ruido se estima con:

2
𝑆𝜖 = 1 − 𝑅12 ⋅𝑠

Donde 𝑅12 es el coeficiente de correlación múltiple y 𝑠 es la desviación típica de la


serie incompleta.

Análisis Estadístico de Variables


20
Hidroclimatológicas
Métodos de completado
• Correlación múltiple (CORMUL)

Matriz de Priorización:
Para elegir la mejor pareja de estaciones de referencia, se utiliza la matriz de priorización:

𝑎
𝑅𝑚𝑛𝑘 ⋅ 𝑁𝑚𝑛𝑘
𝑃𝑚𝑛𝑘 =
𝑁

Donde:
- 𝑃𝑚𝑛𝑘 es la prioridad para la estación a completar.
- 𝑅𝑚𝑛𝑘 es el coeficiente de correlación múltiple.
- 𝑁𝑚𝑛𝑘 es el número de datos comunes entre las estaciones.
- 𝑎 es el exponente de priorización, determinado experimentalmente.

Deshacer Normalización:
Una vez completados los valores normalizados, se deshace la normalización usando:

𝑥𝑖𝑗 = 𝑧𝑖𝑗 ⋅ 𝑠𝑗 + 𝑥ഥ𝑗

Donde 𝑥𝑖𝑗 es el valor completado y 𝑧𝑖𝑗 el valor normalizado. 𝑠𝑗 y 𝑥ഥ𝑗 son la desviación estándar y media del mes 𝑗.

Análisis Estadístico de Variables


21
Hidroclimatológicas
Métodos de completado

METODOS MULTIVARIADOS

Se siguen varios criterios:

• Análisis de regresión lineal múltiple


• ACP
• Modelación Física

Análisis Estadístico de Variables


22
Hidroclimatológicas
Métodos de completado

• Análisis de regresión lineal múltiple

Análisis de la Correlación entre Variables


- El primer paso consiste en calcular las correlaciones lineales de
Pearson entre pares de variables.
- Se evalúa la significancia estadística mediante el p-valor.
- La relación entre el nivel de confianza (NC) y el p-valor está dada
por:
100 − 𝑁𝐶 < p-value

- Si el p-valor > 0.05, la variable es eliminada para simplificar el


análisis.
- El objetivo es reducir el número de variables a las más
significativas.

Análisis Estadístico de Variables


23
Hidroclimatológicas
Métodos de completado

• Análisis de regresión lineal múltiple

Regresión Lineal Múltiple – Ajuste de Función Lineal


- Se ajusta una función lineal entre la variable dependiente y las
independientes:
𝑛

𝑦 = ෍ 𝑎𝑖 𝑥𝑖 + 𝑏
𝑖=1

- Donde 𝑎𝑖 son los coeficientes de regresión, 𝑏 es una constante, y


𝑥𝑖 son las variables independientes.
- Se calculan los errores estándar de los coeficientes y su
significancia estadística (p-valor).

Análisis Estadístico de Variables


24
Hidroclimatológicas
Métodos de completado

Análisis de Varianza (ANOVA) y Validación del Modelo

- Se analiza la bondad del ajuste mediante parámetros estadísticos:


- R cuadrados, error estándar de la estimación, y estadístico de
Durbin-Watson.
- Se evalúa la autocorrelación residual para determinar si los
residuos son dependientes temporalmente.
- Si alguna variable tiene un p-valor > 0.1, se elimina y se repite el
proceso.
- Para un mayor nivel de confianza (90% o más), se usa:

100 − 𝑁𝐶 > 𝑝 − 𝑣𝑎𝑙𝑢𝑒

Análisis Estadístico de Variables


25
Hidroclimatológicas

También podría gustarte