0% encontró este documento útil (0 votos)
161 vistas57 páginas

Control de Calidad de Datos

Este documento describe los tests de control de calidad implementados en ANDESQC, un paquete de R para la detección de valores erróneos en series climáticas. Incluye tests para la detección de valores atípicos por meses, pentadas, distribución gamma y espacialmente, valores fuera de rango, duplicados, saltos interdiarios, cadenas de valores consecutivos iguales, precipitación acumulada, cadenas de Markov y precipitación, y redondeo. También describe funciones adicionales para la limpieza previa, exportación y representación
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
161 vistas57 páginas

Control de Calidad de Datos

Este documento describe los tests de control de calidad implementados en ANDESQC, un paquete de R para la detección de valores erróneos en series climáticas. Incluye tests para la detección de valores atípicos por meses, pentadas, distribución gamma y espacialmente, valores fuera de rango, duplicados, saltos interdiarios, cadenas de valores consecutivos iguales, precipitación acumulada, cadenas de Markov y precipitación, y redondeo. También describe funciones adicionales para la limpieza previa, exportación y representación
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 57

CONTROL DE CALIDAD CON

ANDESQC. TESTS IMPLEMENTADOS


DR. ENRIC AGUILAR, C3, URV DE TARRAGONA, ESPAA

SOBRE ANDESQC
ANDESQC se ha programado sobre R, a partir de
RClimdex-extraqc y ha sido realizado bajo el
contrato CCI-009-ATN/OC-12439-RG-2012 para
CIIFEN.

Se distribuye bajo licencia GNU Lesser GPL 3.0

POR QU CONTROL DE CALIDAD


EN LOS DATOS CLIMTICOS
Durante el proceso de observacin y recoleccin de las series, se
producen inevitablemente errores de distinta naturaleza

El control de calidad pretende detectar principalmente errores de carcter


no sistemtico, distintos de los que pretendemos detectar y ajustar con
los procesos de homogeneizacin

Los problemas que se intentan detectar con el QC son - entre otros - los
relacionados con errores de digitalizacin: 53 fue digitalizado en lugar de
35 en la columna de temperatura mxima

Los errores que intentamos detectar y ajustar mediante los procesos de


homogeneizacin son siempre de carcter sistemtico y responden a
fenmenos como el cambio de emplazamiento, entorno o
instrumentacin de los observatorios meteorolgicos

TESTS INCLUDOS EN

ANDESQC
TEST

FECHA

Outliers por meses

PRECIP

TX

TN

DTR

Outliers pentadales
Outliers gamma

Outliers espaciales

Tmax < Tmin


Valores fuera de rango
Valores duplicados

Diferencias interdiarias
Valores consecutivos

Precip. acumulada

Cadenas de Markov

Cadena Precip

Redondeo

OUTLIERS POR MESES


Test ya includo en extra-qc.

Estratifica cada una de las variables TX, TN y precipitacin distinta de 0 por meses y
produce diagramas de caja (boxplot) de las mismas

Identifica como outliers aquellos valores que

Se encuentren por encima del percentil 75 + n rangos intercuartlicos (RIC)

Se encuentren por debajo del percentil 25 - n RIC

fourboxes()
Parmetros
configurables

Caractersticas

Ejemplo de
parametrizacin

outrange

numrico, numero de RIC para


outiliers de temperatura

outrangeprec

numrico, numero de RIC para


outliers de precipitacin

OUTLIERS PENTADALES
Test de nueva implementacin

Estratifica cada una de las variables TX, TN por ventanas mviles de 5 das. Identifica como outliers para
el da central de cada ventana, aquellos valores que

Se encuentren por encima del percentil 75 + n RIC

Se encuentren por debajo del percentil 25 - n RIC

Nota: los valores de referencia para cada uno de los 365 das julianos, se encentran suavizados mediante
una media mvil de 11 puntos. Existe la posibilidad de modificar la parametrizacin de la funcin para
realizar dicho filtro mediante LOESS.

pentaouts()
Parmetros
configurables

Caractersticas

Ejemplo de
parametrizacin

rangepent

numrico, numero de RIC para


outiliers pentadales de
temperatura

OUTLIERS GAMMA
Test de nueva implementacin

Estratifica lo valores de precipitacin por meses naturales

Ajusta a cada mes una distribucin de probabilidad gamma

Etiqueta como outliers aquellos valores que superan el cuantil


especificado en la parametrizacin

precipouts()
Parmetros configurable

Caractersticas

Ejemplo parametrizacin

gaquant

numrico, cuantil de la
distribucin gamma que acta
como lmite a valores outliers.

0.99

OUTLIERS ESPACIALES.
+ Funcin auxiliar percentcor()

Test de nueva implementacin. Posiblemente, sea el test ms complejo includo en este paquete

Utiliza una funcin previa configurable, percentcor(). Dicha funcin:

Calcula la matriz de correlacin para todas las series disponibles de temperatura y

precipitacin. Se utiliza un periodo de referencia (a ser posible, 30 aos) y la primera


diferencia para evitar el impacto de posibles inhomogeneidades y del ciclo anual

Utilizando los datos del periodo de referencia Estratifica los datos en pntadas mviles. Para
cada una de ellas (5 x 30 valores), se extrae la distribucin emprica de probabilidad.

El valor de cada da de toda la serie es transformado en el percentil que representa en la


ECDF correspondiente.

Se seleccionan series bien correlacionadas (referencias) y se compara el percentil de la estacin


candidata con la mediana de los percentiles de las referencias. De no existir suficientes datos en
el periodo de referencia o menos de dos estaciones con r > 0.4, los outliers espaciales no son
computados.

Si la diferencia supera el valor configurado, la observacin queda marcada como un outlier

Dada la complejidad en la configuracin de estos outliers, solamente se retienen aquellos outliers


espaciales que han fallado otro test.

OUTLIERS ESPACIALES.
+ Funcin auxiliar percentcor()
percentcor()
Parmetros
configurables
ref1

ref2

Caractersticas
numrico, primer ao periodo
referencia para cmputo de
correlaciones
numrico, ao final del periodo
de referencia para el cmputo
de correlaciones,

Ejemplo
parametrizacin
1961

1990

spatialouts()
Parmetros
configurables

Caractersticas

Ejemplo
parametrizacin

perdi

numrico, diferencia mxima


entre los cuantiles entre la
estacin candidata y sus
referencias

0.50

TMAX < = TMIN


Test ya implementado en extra-qc

Dada la definicin OMM de temperatura mxima diaria y


temperatura mnima diaria, la primera debe ser mayor a la segunda

Se identifican como errneos aquellos valores para los que la


anterior afirmacin no se cumple.

tmaxmim()
Parmetros
configurables

Caractersticas

Ejemplo de
parametrizacin

carece de parmetros
configurables

VALORES FUERA RANGO


Test ya implementado en extra-qc

Identifica valores que se consideran imposibles, como la precipitacin negativa


o temperaturas de 100C

Los valores etiquetados por este test no son considerados outliers o valores
sospechosos sino ERRORES.

humongous()
Parmetros configurables

Caractersticas

Ejemplo de parametrizacin

smalltx

Valor demasiado bajo de TX

-60

smalltn

Valor demasiado bajo de TN

-80

bigtx

Valor demasiado alto de TX

60

bigtn

Valor demasiado alto de TN

40

bigprecip

Valor demasiado alto de PREC

800

VALORES DUPLICADOS
Test ya implementado en extra-qc

Identifica fechas repetidas

Los valores etiquetados por este test no son considerados outliers


o valores sospechosos sino ERRORES.

duplivals()
Parmetros
configurables

Caractersticas

Ejemplo de
parametrizacin

carece de
parmetros
configurables

DIFERENCIAS INTERDIARIAS
Test ya implementado en extra-qc. Reprogramado para mejorar
eficiencia.

Identifica valores de TX y TN cuya diferencia con la siguiente


observacin es considerada excesiva, segn valor parametrizado por
el usuario

jumps()
Parmetros configurables

Caractersticas

Ejemplo de parametrizacin

maxjump

Mxima diferencia permitida


entre observaciones
consecutivas

20

VALORES CONSECUTIVOS
Test ya implementado en extra-qc. Reprogramado para
mejorar eficiencia.

Identifica rachas consideradas demasiado largas de valores


consecutivos iguales para TX, TN y precipitacin distinta de 0.

flatline()
Parmetros configurables

Caractersticas

Ejemplo de parametrizacin

maxflat

Mxima racha permitida de


valores idnticos
consecutivos

10

PRECIP. ACUMULADA
Test de nueva implementacin.

Identifica valores de precipitacin elevados precedidos de


una racha de valores 0 o en ausencia de valores previos.

suspectacumprec()
Parmetros configurables

Caractersticas

Ejemplo de parametrizacin

limit

Valor de precipitacin a partir


del cual se empieza a
inspeccionar

100

tolerance

Nm. das previos a ocurrencia


del valor definido por limit
iguales a 0 o no disponibles

10

CADENAS DE MARKOV
Test de nueva implementacin.

Se trata de un test de notable complejidad estadstica. Se basa en cadenas de Markov de dos estados
(Seco = 0; hmedo = distinto de cero) y rango 1
Las series de precipitacin se estratifican por ventanas mviles de 11 das

Se evalan las probabilidades transicionales de una observacin a la siguiente:

P0 = probabilidad de dia lluvioso; P1 = probabilidad de dia seco

P00 = probabilidad dia seco tras dia seco; P01 probabilidad da lluvioso tras da seco

Con las probabilidades obtenidas, se utiliza la distribucin geomtrica para extraer de la misma la racha que
representa un determinado cuantil (configurable por el usuario)

De encontrarse una racha que exceda la determinada anteriormente, se etiquetarn como sospechosos
todos los das que la componen ms el anterior y el posterior.

markovchain()
Parmetros configurables

Caractersticas

Ejemplo de parametrizacin

targetquant

valor para el cuantil de la


distribucin geomtrica a
utilizar. Se expresa como 1-q

0,025

CADENAS DE PRECIPITACIN
Test de nueva implementacin.

Se trata de una versin simplificada del anterior test, que


simplemente analiza la existencia de rachas superiores a n valores
idnticos (presumiblemente, 0), siendo n configurable.

La parametrizacin de esta funcin debe tener en cuenta la


existencia de una estacin seca.
chainprecip()
Parmetros configurables

Caractersticas

Ejemplo de parametrizacin

chapa

nmero mximo de
observaciones idnticas
(presumiblemente 0) permitidas

275

REDONDEO
Adicionalmente a la salida grfica para evaluacin cualitativa ya
presente en extraqc, se ofrece un test que etiqueta valores
sospechosos

Se basa en determinar el nmero mximo de observaciones que


se permiten con el mismo valor tras el punto decimal (.0 a .9).

Se aplica a TX, TN y precipitacin distinta de 0.0

Todos los valores implicados en dicha racha son etiquetados


tableround()
Parmetros configurables

Caractersticas

Ejemplo de parametrizacin

maxround

nmero mximo de
observaciones

FUNCIONES ADICIONALES
Adems de las funciones mencionadas previamente,
responsables de los distintos tests de control de calidad,
ANDESQC ofrece tres funciones adicionales que amplan sus
capacidades y facilitan su conexin con otras herramientas como
RClimdex o HOMER

FUNCIONALIDADES ADICIONALES
NOMBRE DE LA FUNCIN

OBJETIVO

preclean()

En el caso de conocer de la existencia de cdigos


especiales distintos al -99.9 (valor perdido), esta
funcin puede filtrarlos antes del QC

smartcorrection()

Genera un nuevo fichero de datos para cada serie


etiquetando a -88.8 aquellos valores que no hayan
pasado determinados tests (configurable)

makemonthly()

Genera, a partir de los datos controlados de calidad,


series de valores mensuales y ficheros de estacin en el
formato requerido por HOMER

PRECLEAN
preclean()
Parmetros configurables

Caractersticas

Ejemplo de parametrizacin

fudd

elemento sobre el que actuar (4 =


pc; 5 = tx; 6 = tn), vectorial

c(4,4,5,5)

bunny

valores a ser sustitudos

c(-1,-4,-999.9,-999.9)

duck

valores que les reemplazarn

c(0,0,-99.9,-99.9)

SMARTCORRECTION
smartcorrection()

Parmetros configurables

levcorr

Caractersticas

Ejemplo de parametrizacin

nivel de correccin

1. Corrige a -88.8 slo errores

2. Corrige a -88.8 lo anterior ms


aquellos que fallan algn test y
tienen confirmacin espacial

3. Corrige a -88.8 todo lo anterior


ms los outliers y saltos
interdiarios

4. Corrige a -88.8 cualquier valor


etiquetado

MAKEMONTHLY
makemonthly()
Parmetros configurables

Caractersticas

Ejemplo de parametrizacin

dailystats

nombre del fichero de estaciones


diarias

stations.txt

percent

mximo porcentaje de valores


faltantes en un mes permitido para
calcular el valor mensual

minyear

primer ao sobre el que se


computarn los valores mensuales

1901

maxyear

ltimo ao sobre el que se


computarn los valores mensuales

2014

OUTPUT

ANDESQC. SOFTWARE PARA


CONTROL DE CALIDAD
!
ENRIC AGUILAR. C3, URV DE TARRAGONA, SPAIN.

CONTENIDO
ANDESQC presenta dos salidas de su control de calidad:

1. Salida grfica y texto en formato html: un fichero por


estacin que se ubica en el mismo directorio de datos y
cuyo nombre es el mismo del fichero de datos,
cambiando su extensin a html:
ra00000001.txt ==> ra00000001.html

2. Ficheros en formato hoja de clculo: en el directorio ./


extraqc, se ubica un fichero master por estacin, que
contiene los datos de la misma y los resultados de todos
los tests de control de calidad para cada dato.

I. OUTPUT GENERAL:
VISION DE CONJUNTO

VISIN GENERAL DE LA
SERIE (I): TX

VISIN GENERAL DE LA
SERIE (II): TN

VISIN GENERAL DE LA
SERIE (III): DTR

VISIN GENERAL DE LA
SERIE (IV): PRECIP

GRAFICO OUTLIERS
MENSUALES (I): PRECIP

GRAFICO OUTLIERS
MENSUALES (II): TX

GRAFICO OUTLIERS
MENSUALES (III): TN

GRAFICO OUTLIERS
MENSUALES (IV): DTR

GRAFICO VALORES
AUSENTES PRECIPITACIN

GRAFICO VALORES
AUSENTES TX

GRAFICO VALORES
AUSENTES TN

GRAFICO CONTROL DE
REDONDEO (II): TX

GRAFICO CONTROL DE
REDONDEO (III): TN

GRAFICO CONTROL DE
REDONDEO (I): PRECIP

II. OUTPUT POR PERIODOS


DE CINCO AOS

CONTENIDO OUTPUT POR


PERODOS DE CINCO AOS
El output por perodos de cinco aos presenta en detalle la
informacin extrada por el control de calidad y ayuda
tomar decisiones respecto a los valores etiquetados

Para cada uno de los parmetros TX, TN y precipitacin, se


incluyen:

grficos de redondeo

grficos de secuencia de datos con valores etiquetados


mediante cdigos de colores

listado de valores etiquetados

GRAFICO REDONDEO POR


PERIODOS

GRFICO-RESUMEN QC
POR PERIODOS DE 5 AOS

!
QC OUTPUT FOR 1895 - 1899 ra00047407.txt
!

TX
Pentadal-based Outliers. Upper Threshold Outpassed
year month day pc
tx
tn
1898
12 16 2.1 18.6 -10.0
1899
1 29 1.9 24.0 -9.6
Monthly-based Outliers. Upper Threshold Outpassed
year month day pc
tx
tn
1898
12 16 2.1 18.6 -10.0
1899
1 29 1.9 24.0 -9.6
TX smaller or equal than TN
year month day pc
tx tn
1896
1
8 0.4 -4.3 0
1896
2
7 0.0 -3.4 0
1896
3
6 1.0 -3.1 0
1896
12
5 0.0 -1.4 0
1897
2
8 0.0 -1.9 0
Difference between consecutive days is too large
year month day pc
tx
tn
1899
1 28 0.0 -3.0 -14.6
1899
1 29 1.9 24.0 -9.6
1899
1 30 2.7 2.2 -9.6
Spatial Outlier
year month day pc
tx tn
1898
12 16 2.1 18.6 -10
DTR Monthly-based Outliers. Upper Threshold Outpassed
year month day
pc
tx
tn
1895
12 26 0.3 -2.0 -27.9
1895
12 28 27.4 5.5 -23.3
1895
12 30 0.5 -1.0 -29.3
1896
7 17 0.0 27.9
0.0
1896
8
7 1.3 28.3
0.0
1898
12 16 2.1 18.6 -10.0
1899
1 29 1.9 24.0 -9.6

LISTADO DE VALORES
ETIQUETADOS POR
EL QC

CONTROL DE CALIDAD POR PERIODOS


QC OUTPUT FOR 1900 - 1904 ra00047407.txt

TX
TX smaller or equal than TN
year month day pc
tx
tn
1902
1 25 4.0 -18.7 59.0
1903
5 22 2.8
0.7 1.7
1903
12 20 4.3 -5.4 0.0
1904
2 14 0.6 -7.9 -7.9
Spatial Outlier
year month day pc
tx
tn
1904
2 14 0.6 -7.9 -7.9
DTR Monthly-based Outliers. Upper Threshold Outpassed
year month day pc
tx
tn
1903
10
4 0.0 18.4 -21.3
1903
12 16 1.1 3.4 -22.6
1904
1 27 2.6 -2.4 -35.3
1904
12 18 1.4 -2.0 -40.8
DTR Monthly-based Outliers. Upper Threshold Outpassed
year month day pc
tx tn
1902
1 25 4 -18.7 59

Nmero de Test Fallados

1
Falla test que le
identifica como ERROR

Es TAMBIN
outlier ESPACIAL

5o+

Es ERROR y
outlier ESPACIAL

III. NOTAS SOBRE FICHEROS


MASTERQC.

MASTERQC. Formato de
Fichero
Example Master QC File
station yearmonthday pc

tx

tnpcuptxup txlotnuptnlodtupdtlotxtntxxltxxstnxltnxspcxlpcnedupltxjutnjutxsetnsesucuropcrotxrotnuptx lotxuptnlotnpcgasptxsptnsppcmkchchap

ra00047418.txt1890

0-2.9-19.6

ra00047418.txt1890

0-3.9-19.5

ra00047418.txt1890

35.1-3.4-16.2

ra00047418.txt1890

40.9-3.9 -15

ra00047418.txt1890

0-2.2-21.7

ra00047418.txt1890

0 4.9 -20

ra00047418.txt1890

0 1.4-13.9

ra00047418.txt1890

0 1.9-14.2

ra00047418.txt1890

0-0.1-14.9

El fichero masterqc contiene un las siguientes columnas: nombre fichero, ao, mes, da, precip, tx, tn + una
columna para cada uno de los controles de calidad realizados, que se abrevian con un cdigo de cuatro letras, que
se detalla en la diapositiva siguiente.

Las celdas correspondientes a los distintos tests pueden albergar slo dos valores:

0 : el valor ha pasado dicho test


1: el valor no ha pasado dicho test
Mediante el uso de funciones de filtrado de cualquier hoja de clculo, se pueden inspecionar y comparar los
valores etiquetados

Dado que cada registro (fila) es nico no solo en el fichero, sino en el conjunto de las estaciones analizadas, por
estar etiquetado por estacin, ao, mes y da, los ficheros pueden combinarse y/o integrarse en una base de datos

MASTERQC. Tabla de tests.


COLUMNA

NOMBRE

CONTENIDO

COLUMNA

NOMBRE

CONTENIDO

STATION

Nombre estacin

PCNE

Valor negativo precipitacin

YEAR

DUPL

Fecha duplicada

MONTH

Ao

Mes
Mes

TXJU

Diferencia interdiaria excesiva, TX

DAY

Da

TNJU

Diferencia interdiaria excesiva, TN

PC

Valor precipitacin

TXSE

Secuencia de valores iguales, TX

TX

Valor Temperatura Mxima

TNSE

Secuencia de valores iguales, TN

TN

Valor Temperature Mnima

AA

SUCU

Sospecha de precipitacin acumulada

PCUP

Outlier Mensual Precip, valor alto

AB

ROPC

Sospecha redondeo PC

TXUP

Outlier Mensual TX, valor alto

AC

ROTX

Sospecha redondeo TX

TXLO

Outlier Mensual TX, valor bajo

AD

ROTN

Sospecha redondeo TN

TNUP

Outlier Mensual TN, valor alto

AE

UPTX

Outlier pentadal TX, valor alto

TNLO

Outlier Mensual TN, valor bajo

AF

LOTX

Outlier pentadal TX, valor bajo

DTUP

Outlier Mensual DTR, valor alto

AG

UPTN

Outlier pentadal TN, valor alto

DTLO

Outlier Mensual DTR, valor bajo

AH

LOTN

Outlier pentadal TN, valor bajo

TXTN

Mxima < Mnima

AI

PCGA

Outlier gamma-precipitacin

TXXL

Valor alto errneo TX

AJ

SPTX

Outlier espacial, TX

TXXS

Valor bajo errneo TX

AK

SPTN

Outlier espacial, TN

TNXL

Valor alto errneo TN

AL

SPPC

Outlier espacial, PC

TNXS

Valor bajo errneo TN

AM

MKCH

Cadena 0-pc sopechosa, markov

PCXL

Valor alto errneo PC

AN

CHAP

Cadena 0-pc sospechosa, nmero

EJECUTANDO
ANDESQC

DIVERSAS FORMAS DE
TRABAJO

CARGANDO R Y ANDESQC
Preparar los datos y el fichero de estaciones en el
formato indicado

Cargar R

Establecer como directorio de trabajo aqul en el que


tenemos los datos

Cargar el cdigo fuente de andesqc_vx.x.R

El cdigo se ofrece bajo licencia GNU Lesser General


Public License 3.0

EJECUTANDO ANDESQC
Funciones ejecucin
Caractersticas

QC()

Interactiva

Configurable en
pantalla

Configurable
desde cdigo

Configurable en
llamada

qclist()

x
x

FUNCIN QC()
Para cargar la funcin QC(), simplemente, teclear
QC() desde el prompt de R, siempre despus de
establecer el directorio de datos como directorio
de trabajo y cargar el cdigo fuente

Inmediatamente, aparecern una serie de


mensajes en pantalla, a los que deberemos
responder segn las opciones que se nos
ofrezcan

INTERACCIN CON LA FUNCIN QC()


PREGUNTA

RESPUESTAS

Opcin de lenguaje / Language option: 1- English; 2Espaol

Introduciendo 2, las siguientes peguntas y opciones


aparecern en espaol

Introduce el nombre del fichero de estaciones. Este fichero


y los de datos deben estar en el directorio de trabajo

Se nos requiere el nombre del fichero que contiene el


listado de estaciones, como estaciones.txt

Quieres reemplazar cdigos especiales conocidos y


distintos a -99.9? 1 = SI; 2 = NO

Indica si queremos usar la funcin preclean (1) o no (2). De


elegir 1, entraremos en un submen de introduccin de
valores.

Computar correlaciones? Tomar 5 minutos adicionales


por elemento. Slo puedes saltarte el paso si ya las has
calculado. 1 = SI; 0 = NO

Indicar si se desea computar las correlaciones.

Debe elegirse 1 si estas no existen o si quieren renovarse.


Se entrara en submen si se elige 1

Selecciona nivel QC: 1.- Duro (reduce falsos positivos); 2.Medio; 3.- Suave (reduce falsos negativos)

Esta opcin correr una de los tres conjuntos de


parmetros pre-configurados.

Entra nivel correccin: 1.- Slo errores; 2.- ms


espacialmente confirmados; 3.- ms saltos y outliers; 4.todo lo etiquedato

Selecciona qu valores sern convertidos en -88.8 en los


ficheros de salida. La opcin 1 slo eliminar errores y es
la ms reomendable para QC automtico; la 4 etiquetar
una gran cantidad de valores y es la ms recomendable si
queremos revisar manualmente el QC.

Quieres calcular valores mensuales y preparar ficheros


de estacin en formato HOMER?. 1 = SI; 2 = NO

Si indicamos 1, se producirn ficheros medias mensuales


de TX, TN, TM, DTR y acumulaciones mensuales de PC,
as como ficheros de estacin utilizables por HOMER

MODIFICANDO
LOS VALORES
PREDEFINIDOS

IMPLICA MODIFICAR CDIGO!


SE RECOMIENDA GUARDAR LA COPIA
ORIGINAL

Localizar en el cdigo la funcin QC()

Localizar la siguiente seccin

Cada valor de la variable nivelqc(), se corresponde con uno de los niveles predeterminados (1,2,3)

Modificar en el nivel deseado los parmetros que figuran en la misma y que han sido descritos en
la primera parte de esta presentacin

Cargar de nuevo el cdigo fuente y ejecutar QC()

if(nivelqc==1){
allqc(master=phil[i,1],outrange=5,outrangeprec=9,bigtx=60,bigtn=40,smalltx=-40,smalltn=-70,bigprecip=1000,maxjump=30,maxflat=15,limit=300,tolerance=7,
maxround=20,rangpent=4,kapar=11,mode=1,gaquant=0.999,perdiff=0.75,targetquant=0.01,codelist=NA,levcorr=levcorr,sumvalpc=4,sumvaltx=4,sumvaltn=4,chapa=365)
}

if(nivelqc==2){
allqc(master=phil[i,1],outrange=4,outrangeprec=7,bigtx=55,bigtn=35,smalltx=-30,smalltn=-50,bigprecip=800,maxjump=20,maxflat=7,limit=150,tolerance=5,
maxround=10,rangpent=3.5,kapar=11,mode=1,gaquant=0.995,perdiff=0.50,targetquant=0.02,codelist=NA,levcorr=levcorr,sumvalpc=3,sumvaltx=3,sumvaltn=3,chapa=275)
}

if(nivelqc==3){
allqc(master=phil[i,1],outrange=3,outrangeprec=5,bigtx=45,bigtn=30,smalltx=-20,smalltn=-30,bigprecip=500,maxjump=15,maxflat=3,limit=75,tolerance=3,
maxround=5,rangpent=3,kapar=11,mode=1,gaquant=0.990,perdiff=0.25,targetquant=0.03,codelist=NA,levcorr=levcorr,sumvalpc=2,sumvaltx=2,sumvaltn=2,chapa=180)}

USO DE
qclist()

IMPLICA MODIFICAR CDIGO!


SE RECOMIENDA GUARDAR LA COPIA
ORIGINAL

La funcin qclist() ejecuta el control de calidad de forma automtica sin


interaccin, bien mediante el uso de valores predeterminados, bien
mediante la parametrizacin en tiempo de ejecucin

Opcin 1: simple ejecucin de qclist() desde el prompt de R

Utilizar los valores por defecto que contiene la funcin en su


cdigo y que figuran en la siguiente diapositiva

Los mismos pueden ser modificados y usados tras cargar de


nuevo el cdigo fuente

Opcin dos: uno o varios parmetros pueden modificarse al llamar la


funcin

qclist(station=estaciones_CIIFEN.txt,bigtx=50,percent=3)

USO DE
qclist()

IMPLICA MODIFICAR CDIGO!


SE RECOMIENDA GUARDAR LA COPIA
ORIGINAL

qclist=function(filename='stations.txt',path=getwd(),outputpath='/extraqc/',

# THIS IS THE PARAMETRIZATION SECTION FOR QCLIST. Values can be changed here or when calling qclist(). If changed here, don't
# forget to re-source the code.
outrange=3, outrangeprec=7, # IQR for monthly based outliers. Outrange is temp; outrangeprec is precip (fourboxes function)
bigtx=60,smalltx=-40,bigtn=40,smalltn=-60,bigprecip=800,codelist=NA, # values for aberrant dat. (humongous functions)
maxjump=20, # cut value for interdiurnal differences (jumps function)
maxflat = 7, # Value for the number of maximum consecutive days with the same value in temp and non zeor precip.(flatline function)
limit= 100, tolerance = 10, # Suspected acumm. prec: limit is the value to start looking; tolerance the max number of leading 0 or NA (function suspectacumprec)
maxround = 10, # Limit for values with the same 1/10th of degree or mm. (execpt 0.0 precip) (rounded function)
rangpent = 3, kapar = 5, mode=0, # rangpent is the IQR for pentadal based outliers of temperature; kapar is the window for smoothing (pentaouts function)
gaquant=0.999, # quantile for of the gamma distributtion to flag outliers of precip (function precipouts)
perdiff=0.30, # difference in percentiles for between candidate and refernce stations for the spatial outliers (spatialouts)
targetquant=0.01, # 1-target quantile in of the geometric distribution for markovian chains (function markovprecip)
levcorr=3, # level of correction for smartcorrection
precy=1, # precleans the series (0 no, yes 1)
fudd=c(4), # fudd is list of elements for preclean, 4 for precip, 5 for tx and 6 for tn
bunny=c(-1), # bunny is codes for preclean, must have the same length than fudd and applies to the element defined by fudd which is in the same position
duck=c(0), # duck is the values which replace the codes. Same conditions apply
sicorr=1, # computes correlations
ref1=1961, # first year of the reference period for the correlations
ref2=1990, # last year of the reference period for the correlations
dailystats='stations.txt', # for makemonthly
percent=5, # for makemonthly
maxyear=2014, # for makemonthly
minyear=1880, # for makemonthly
sumvaltx=3,sumvaltn=3,sumvalpc=3, # values for smartocorrection = 5, based on correcting errors + multiple fails.
hazmes=1,
chapa=275,
colnum=1,pattern='^[0-9]{6}.txt',modo=0){

!
!

#### END########################################
# ASSIGNATION OF GLOBAL VARIABLES
##############################################################################################
assign("lang",1,envir=globalenv())
############################################

CONSIDERACIONES
FINALES
ANDESQC est pensado para automatizar las tares de QC includas en RClimdex y RClimdex-extraqc.
Reconoce la importancia en su elaboracin de la famlia Climdex para QC y reconoce la necesidad de
inspeccin humana de los procesos de QC, a pesar de las opciones automticas ofrecidas.

ANDESQC es un cdigo complejo que ha requerido muchas horas de programacin. Contiene, en su


ltima versin, ms de 2000 lneas de cdigo. Durante el proceso de elaboracin se ha testado
intensivamente con distintos bancos de datos y eliminado errores.

Durante la ejecucin en este taller y posterior, es posible que aparezcan disfuncionalidades relacionadas
con las particularidades de los distintos bancos de datos aportados: condiciones climticas especiales,
valores perdidos, etc. De surgir, se intentarn solucionar a la mayor brevedad

La diversidad climtica hace difcil la parametrizacin universal de ANDESQC. Se ha parametrizado


pensando en la regin en la que se va aplicar inicialmente. No obstante, se sugiere una ejecucin inicial
beta para ajustar los mismos

El cdigo es plenamente funcional y ha sido probado con redes con distinto nmero de series (15 a 60) y
con longitudes muy distintas (de 40 a 120 aos). A mayor nmero de series y datos, ms fiables son
algunos procesos, especialmente el control de calidad espacial.

Lamentablemente, debido a los mltiples procesos que se realizan para cada estacin, el cdigo requiere
un elevado tiempo de computacin. Se espera una evolucin que lo reduzca.

También podría gustarte