PRESENTACION_N7_2024_2_Parte_01
PRESENTACION_N7_2024_2_Parte_01
PRESENTACION_N7_2024_2_Parte_01
VARIABLES HIDROCLIMATOLÓGICAS
Noviembre de 2024
TÉCNICAS DE MACHINE
LEARNING EN EL TRATAMIENTO
DE SERIES TEMPORALES
Limpieza de datos
1. Rellenar valores faltantes
a. Ignorar la serie con vacíos.
b. Usar la media para rellenar el valor faltante.
c. Predecir el valor faltante utilizando algún
algoritmo de aprendizaje u otra metodología.
METODOS UNIVARIADOS
1 𝑥 𝑥 𝑥
𝑥 𝑡 = 𝑥1 𝑡 + 𝑥2 𝑡 + 𝑥3 𝑡
3 𝑥1 𝑥2 𝑥3
Aquí:
- 𝑥, 𝑥1 , 𝑥2 , 𝑥3 : son las medias de las series incompleta y de las tres estaciones
vecinas, respectivamente.
- 𝑥1 (𝑡), 𝑥2 (𝑡), 𝑥3 𝑡 : son los datos de las series vecinas en el tiempo 𝑡.
𝑟1 ⋅ 𝑥1 𝑡 + 𝑟2 ⋅ 𝑥2 𝑡 + 𝑟2 ⋅ 𝑥2 𝑡
𝑥 𝑡 =
𝑟1 + 𝑟2 + 𝑟3
Donde:
- 𝑟𝑖 es el coeficiente de correlación de Pearson entre la serie 𝑖 y la incompleta.
- 𝑥𝑖 𝑡 es el valor de la serie 𝑖 en el instante 𝑡.
Se suelen usar entre dos y cinco series para el cálculo. Los coeficientes de
Pearson se obtienen tras normalizar mensualmente las series involucradas.
𝑦 = 𝑎⋅ 𝑥 + 𝑏
donde:
- ( 𝑦 ): Variable dependiente (estación incompleta).
- ( 𝑥 ): Variable independiente (estación completa).
Hipótesis de partida:
Existe una correlación significativa entre ambas series (𝑟 ≈ 1), garantizando que las
variaciones sean similares. Se usa el coeficiente de correlación de Pearson, previo a
normalizar las series mensualmente.
𝜎22 2
1
2 ≥ 1 o bien 𝑟 ≥ 1 − 𝑛
𝜎1 1
donde 𝑛1 es la longitud de la serie incompleta.
Requisitos adicionales:
- Validar que la correlación entre observatorios sea significativa.
- Asegurar que las características locales no distorsionen los
resultados.
Ventajas:
- Método sencillo y robusto, adecuado para completar series
meteorológicas incompletas.
- Se basa en relaciones estadísticas sólidas que maximizan la fiabilidad
de los datos generados.
Condiciones:
El método es válido para series homogéneas y cuando la autocorrelación temporal es baja. Se utilizan series con
alta correlación con la serie incompleta. Cuantas más series se usen, menor será la sensibilidad al error.
Regresión Bivariada:
Utiliza dos series de referencia para completar la serie de datos faltantes. La ecuación estocástica de regresión
bivariada es:
1 2
𝑧𝑖𝑗 = 𝑎1 ⋅ 𝑧𝑖𝑗 + 𝑎2 ⋅ 𝑧𝑖𝑗 + 𝜖𝑖𝑗
Donde:
- 𝑧𝑖𝑗 es el valor normalizado de la serie incompleta.
- 𝑎1 ,𝑎2 son los coeficientes de regresión parcial.
- 𝜖𝑖𝑗 es el ruido independiente (media 0, desviación típica 𝑆𝜖 ).
Donde 𝑟1 , 𝑟2 , 𝑟12 son los coeficientes de correlación entre las series de referencia e
incompleta.
2
𝑆𝜖 = 1 − 𝑅12 ⋅𝑠
Matriz de Priorización:
Para elegir la mejor pareja de estaciones de referencia, se utiliza la matriz de priorización:
𝑎
𝑅𝑚𝑛𝑘 ⋅ 𝑁𝑚𝑛𝑘
𝑃𝑚𝑛𝑘 =
𝑁
Donde:
- 𝑃𝑚𝑛𝑘 es la prioridad para la estación a completar.
- 𝑅𝑚𝑛𝑘 es el coeficiente de correlación múltiple.
- 𝑁𝑚𝑛𝑘 es el número de datos comunes entre las estaciones.
- 𝑎 es el exponente de priorización, determinado experimentalmente.
Deshacer Normalización:
Una vez completados los valores normalizados, se deshace la normalización usando:
Donde 𝑥𝑖𝑗 es el valor completado y 𝑧𝑖𝑗 el valor normalizado. 𝑠𝑗 y 𝑥ഥ𝑗 son la desviación estándar y media del mes 𝑗.
METODOS MULTIVARIADOS
𝑦 = 𝑎𝑖 𝑥𝑖 + 𝑏
𝑖=1