0% encontró este documento útil (0 votos)

22 vistas10 páginas

SQL Del Registro de Personas

Este documento describe el procesamiento de una base de datos de personas de una aplicación llamada Registr@. Incluye carga de datos, análisis, filtrado y normalización de los datos para preparar la base de datos para su uso en una prueba de concepto de vinculación de bases de datos.

Cargado por

Leonardo Vidal

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

22 vistas10 páginas

SQL Del Registro de Personas

Cargado por

Leonardo Vidal

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 10

3.

2 Registro de personas en SQL

Base de datos de personas del programa de Gestión para el Registro y
seguimiento de documentos Registr@.

3.2.1 Carga
Se ha exportado de SQL Server a fichero de texto. Cada persona está en
una línea del fichero. Los campos están separados por tabuladores.

registra_personas <-
read_tsv("./datos/registra/personas.txt",
locale= locale(encoding = "UTF-8"),
col_names=TRUE,
col_types = cols_only(id_persona = col_character(),
dni_nif_cif = col_character(),
apellido1 = col_character(),
apellido2 = col_character(),
nombre = col_character(),
telefono = col_character(),
fecha_nacimiento = col_datetime(),
id_domicilio_principal = col_integer(),
fecha_alta = col_datetime(),
fecha_baja = col_datetime(),
Correo_Electronico = col_character(),
nombre_pais = col_character(),
nombre_provincia = col_character(),
nombre_loc = col_character()
),
na=c('','NULL','-','.','*','--',',',',,'))

#source("registra.personas.r")
#registra_personas <- get_registra_personas()
load("registra_personas.rda")

3.2.2 Análisis
Número total de registros

nrow(registra_personas)

## [1] 753834
Esta es la distribución de los datos según la fecha de la observación. Hay
unas algunas observaciones muy antiguas (no muchas, la escala es
logarítmica).

registra_personas %>%
ggplot(aes(x=year(bdc_fecha_valor))) +
geom_histogram(color = "white", fill = "blue") +
scale_y_log10(name="count (logarithmic)")

En cuanto a los valores no conocidos, hay unos cuantos sin id oficial, y

muchos sin nombre, municipio o segundo apellido. Más de un treinta por
ciento no tienen fecha de nacimiento y ninguno tiene registrado el sexo.

registra_personas %>%
select(bdc_id_oficial, bdc_nombre, bdc_apellido_1, bdc_apellido_2,
bdc_fecha_nacimiento, bdc_sexo, bdc_municipio_domicilio) %>%
plot_missing()
La distribución de las personas sin identificador oficial en función de la fecha
en la que se hizo la observación indica que a partir de 2006 se recogen casi
siempre este dato ( la escala es logarítmica).

registra_personas %>%
filter(is.na(bdc_id_oficial)) %>%
ggplot(aes(x=year(bdc_fecha_valor))) +
geom_histogram(color = "white", fill = "blue") +
scale_y_log10(name="count (logarithmic)")
En cambio, la fecha de nacimiento falta sobre todo en las observaciones más
recientes, a partir del año 2000.

registra_personas %>%
filter(is.na(bdc_fecha_nacimiento)) %>%
ggplot(aes(x=year(bdc_fecha_valor))) +
geom_histogram(color = "white", fill = "blue")
En cuanto al nombre, parece que casi todos los que no tienen nombre son
personas jurídicas:

registra_personas %>% filter(is.na(bdc_nombre)) %>%

select(bdc_id_oficial, bdc_apellido_1) %>%
sample_n(10) %>% pulcro()

bdc_id_oficia
bdc_apellido_1
l

E31723133 CAYON OUTOMURO ANA Y GARDE FABRE GUILLERMO

E31591068 CARRERA CABALLERO JC Y DOMINGUEZ DE VIDAURRE TA ZUBIRI M

B01236488 ASESORIA COFISER 2000 SL

B31220973 AYERRA IRISARRI SL

B01025709 IMPRENTA SACAL S.L.

A02055598 PEDRO GALIANO SA

bdc_id_oficia
bdc_apellido_1
l

NA ILUMISA, S.L.

Q3150011I INSTITUTO DE LA SALUD PUBLICA

B31949910 PRODUCCIONES MUSICALES ETXE-ONDO SL

B71208797 GARABITO 111 SL

Como hemos visto, la base de datos de Registr@ tiene personas físicas y

jurídicas, y no tienen ninguna variable explícita que las distinga. Podemos
filtrar por el identificador oficial.

registra_personas %>% filter(parece_persona_juridica(bdc_id_oficial)) %>% nrow()

## [1] 90661

3.2.3 Filtrado
Asumiendo que las bases de datos que proporcionarán datos a la BDC serán
más completas que la de Registr@, para la POC filtraremos la base de datos
de Registr@.

nrow(registra_personas)

## [1] 753834

Prescindimos de los registros con identificador de persona jurídica

registra_personas <- registra_personas %>% filter(!parece_persona_juridica(bdc_id_oficial))

nrow(registra_personas)

## [1] 663173

Prescindimos de los registros sin nombre (asumiendo que también son de

personas jurídicas)

registra_personas <- registra_personas %>% filter(!is.na(bdc_nombre))

nrow(registra_personas)

## [1] 641051

3.2.4 Normalización
Los identificadores oficiles pueden tener signos de puntuación.

registra_personas %>% select(bdc_id_oficial) %>%

subset(grepl("[[:punct:]]",bdc_id_oficial)) %>%
unique() %>% sample_n(10) %>% pulcro()

bdc_id_oficial

.00000000

EXT981…

X907838-M

EXT090…

0.750.787

X83510…

EXT080…

EXT050…

0.818.544

EXT180…

Preprocesado del id oficial. Después del procesado no queda ningún DNI con
guiones o signos de puntuación:

registra_personas <- registra_personas %>% preproceso_id_oficial()

registra_personas %>% select(bdc_id_oficial) %>%
subset(grepl("-",bdc_id_oficial)) # %>% unique() %>% pulcro()

## # A tibble: 0 x 1
## # ... with 1 variables: bdc_id_oficial <chr>

Si miramos los id oficiales vemos que la mayoría no tienen la sintaxis de

persona física:

registra_personas %>% select(bdc_id_oficial) %>%

filter(!parece_persona_fisica(bdc_id_oficial)) %>% nrow()
## [1] 592362

Si miramos la pinta de los id oficiales vemos que hay muchos sin el caracter
de control y con un cero:

registra_personas %>% select(bdc_id_oficial) %>%

filter(!parece_persona_fisica(bdc_id_oficial)) %>%
sample_n(10) %>% pulcro()

bdc_id_oficial

072649517

034772005

018208364

072645485

015826757

010565560

073611561

03C323228

015753402

007889157

Asumiendo que son DNIs correctos, calculamos el dígito de control. Despues

de procesarlo casi todos los registros tienen algo que parece un DNI/NIE. Si
no fuera una POC habría que analizarlo mejor para asegurarse.

registra_personas <- registra_personas %>% preproceso_id_oficial_ceros()

registra_personas %>% select(bdc_id_oficial) %>%
subset(parece_persona_fisica(bdc_id_oficial)) %>%
sample_n(10) %>% pulcro()
bdc_id_oficial

44569854V

72643841C

15785121Z

72809530V

15626154T

15640658Z

70900930A

51420469J

33430850M

15830327W

Para poder enlazar los registros hay que normalizarlos. Por ejemplo, el
nombre “MARIA NIEVES” puede aparecer de muchas formas diferentes.

registra_personas %>% select(bdc_nombre) %>%

subset(grepl("^(M\\.|M?|MARI|MARIA)+ NIEVES$",bdc_nombre)) %>%
unique() %>% pulcro()

bdc_nombre

MARIA NIEVES

M NIEVES

M. NIEVES

Preprocesado del nombre y apellidos:

registra_personas <- registra_personas %>% preproceso_nombre_apellidos()

registra_personas %>% select(bdc_nombre) %>%
subset(grepl("^(M\\.|M?|MARI|MARIA)+ NIEVES$",bdc_nombre)) %>%
unique() %>% pulcro()

bdc_nombre

MARIA NIEVES

Finalmente guardamos las dos bases de datos para el siguiente paso.

save(nastat_personas, registra_personas, file ="bdc_poc_1.rda")

También podría gustarte

Solucion Pro
100% (2)
Solucion Pro
47 páginas
Formato DGT3
100% (2)
Formato DGT3
3 páginas
Trabajo Final - Diagnóstico Rotación BD
Aún no hay calificaciones
Trabajo Final - Diagnóstico Rotación BD
601 páginas
EJERCICIO BASES de DATOS Empadronamiento Con Solucion
Aún no hay calificaciones
EJERCICIO BASES de DATOS Empadronamiento Con Solucion
5 páginas
Ejercicios Resueltos Entidad-Relación
67% (15)
Ejercicios Resueltos Entidad-Relación
18 páginas
PDF Manual de Access - Compress
Aún no hay calificaciones
PDF Manual de Access - Compress
11 páginas
Tratamiento de Datos Con Power Query
Aún no hay calificaciones
Tratamiento de Datos Con Power Query
18 páginas
Curso de Seguridad Informática
Aún no hay calificaciones
Curso de Seguridad Informática
22 páginas
Material TEACCH Construimos-Frases de Dos Elementos
Aún no hay calificaciones
Material TEACCH Construimos-Frases de Dos Elementos
58 páginas
Normalización
Aún no hay calificaciones
Normalización
29 páginas
Titanic
Aún no hay calificaciones
Titanic
23 páginas
Bank Marketing
Aún no hay calificaciones
Bank Marketing
25 páginas
Usuarios Privilegios y Roles en Mysql
0% (2)
Usuarios Privilegios y Roles en Mysql
3 páginas
Seminario Ejemplo 2
Aún no hay calificaciones
Seminario Ejemplo 2
24 páginas
Armando Un Proyecto de Trabajo
Aún no hay calificaciones
Armando Un Proyecto de Trabajo
23 páginas
Base de Datos de Poblacion
Aún no hay calificaciones
Base de Datos de Poblacion
13 páginas
Tema6 Anexos BD
Aún no hay calificaciones
Tema6 Anexos BD
18 páginas
Gestión Analítica de Datos Chapter 2
Aún no hay calificaciones
Gestión Analítica de Datos Chapter 2
50 páginas
Borrador Phython
Aún no hay calificaciones
Borrador Phython
25 páginas
Herramientas Trabajo Final
Aún no hay calificaciones
Herramientas Trabajo Final
17 páginas
Curso Primeros Pasos en R - Clase 3
Aún no hay calificaciones
Curso Primeros Pasos en R - Clase 3
40 páginas
Unidad 4
Aún no hay calificaciones
Unidad 4
13 páginas
Practica 3 Econometria CASI LISTO
Aún no hay calificaciones
Practica 3 Econometria CASI LISTO
12 páginas
Boletín 1
0% (1)
Boletín 1
6 páginas
Diagrama Entidad Relación
Aún no hay calificaciones
Diagrama Entidad Relación
12 páginas
Ejercicios Resueltos Entidad Relacion PDF
Aún no hay calificaciones
Ejercicios Resueltos Entidad Relacion PDF
18 páginas
4.1. Exploración de Datos - PICAD
Aún no hay calificaciones
4.1. Exploración de Datos - PICAD
8 páginas
Pia Analisis de Datos Equipo Grupo FZ
Aún no hay calificaciones
Pia Analisis de Datos Equipo Grupo FZ
9 páginas
Cuestionario de Administración de Archivos
0% (1)
Cuestionario de Administración de Archivos
2 páginas
Trabajo Geomarketing Parcial 2
Aún no hay calificaciones
Trabajo Geomarketing Parcial 2
14 páginas
EjemploCompleto ER2Relacional
Aún no hay calificaciones
EjemploCompleto ER2Relacional
6 páginas
Personify
Aún no hay calificaciones
Personify
6 páginas
Trabajo Final Base de Datos PDF
Aún no hay calificaciones
Trabajo Final Base de Datos PDF
9 páginas
DOCU02
Aún no hay calificaciones
DOCU02
4 páginas
Práctica No. 3
Aún no hay calificaciones
Práctica No. 3
5 páginas
Taller Herramienta ETL - Kettle
Aún no hay calificaciones
Taller Herramienta ETL - Kettle
29 páginas
T.PN 1,2,3 Salas Rodrigo
Aún no hay calificaciones
T.PN 1,2,3 Salas Rodrigo
13 páginas
BI Modulo VII - 1
Aún no hay calificaciones
BI Modulo VII - 1
27 páginas
Fundamentos de Programación Tarea #2
Aún no hay calificaciones
Fundamentos de Programación Tarea #2
4 páginas
ADTD-09 Analizando La Naturaleza de Los Datos Disponibles
Aún no hay calificaciones
ADTD-09 Analizando La Naturaleza de Los Datos Disponibles
10 páginas
Ejemplo Base de Datos
Aún no hay calificaciones
Ejemplo Base de Datos
8 páginas
Modelo de Datos
Aún no hay calificaciones
Modelo de Datos
7 páginas
Actividad 5
Aún no hay calificaciones
Actividad 5
4 páginas
04 Arquitecturas Big Data
100% (1)
04 Arquitecturas Big Data
23 páginas
Taller3 - EDA - V2 CESAR DAVID MENA
Aún no hay calificaciones
Taller3 - EDA - V2 CESAR DAVID MENA
7 páginas
Guía para Usar R
Aún no hay calificaciones
Guía para Usar R
16 páginas
Rosales Examen Parcial
Aún no hay calificaciones
Rosales Examen Parcial
6 páginas
Copia de Formato Fichero Aportaciones
Aún no hay calificaciones
Copia de Formato Fichero Aportaciones
8 páginas
Conexión A Una Base de Datos de MYSQL
Aún no hay calificaciones
Conexión A Una Base de Datos de MYSQL
6 páginas
Actividades Adicionales Tema 7
Aún no hay calificaciones
Actividades Adicionales Tema 7
5 páginas
bd1 Practico2
Aún no hay calificaciones
bd1 Practico2
3 páginas
Procesamiento de Archivos
Aún no hay calificaciones
Procesamiento de Archivos
7 páginas
Preguntas
Aún no hay calificaciones
Preguntas
10 páginas
Modelo Entidad Relacion Er (Trabajo)
Aún no hay calificaciones
Modelo Entidad Relacion Er (Trabajo)
9 páginas
Migracion de Base de Datos - Parte 03
Aún no hay calificaciones
Migracion de Base de Datos - Parte 03
16 páginas
1.1 FBD - Conceptos Básicos
Aún no hay calificaciones
1.1 FBD - Conceptos Básicos
48 páginas
Eduardo Contreras AW 736423
Aún no hay calificaciones
Eduardo Contreras AW 736423
5 páginas
BaseDeDatos (PracticaN°2)
Aún no hay calificaciones
BaseDeDatos (PracticaN°2)
2 páginas
Investigacion 02Grupo1GS-111 Grupo4
Aún no hay calificaciones
Investigacion 02Grupo1GS-111 Grupo4
32 páginas
Foro Tematico Conservación y Recuperación de Datos
Aún no hay calificaciones
Foro Tematico Conservación y Recuperación de Datos
6 páginas
02 EjerciciosModelizacion
Aún no hay calificaciones
02 EjerciciosModelizacion
10 páginas
Truncar DB
Aún no hay calificaciones
Truncar DB
3 páginas
Sílabo de Taller de Base de Datos
Aún no hay calificaciones
Sílabo de Taller de Base de Datos
4 páginas
Clase 10 - Vistas, Respaldar, y Restaurar
Aún no hay calificaciones
Clase 10 - Vistas, Respaldar, y Restaurar
20 páginas
Diagramas de Flujo
Aún no hay calificaciones
Diagramas de Flujo
4 páginas
T-0V-examen Final BD
Aún no hay calificaciones
T-0V-examen Final BD
4 páginas
EJERCICIO BASES DE DATOS Empadronamiento
Aún no hay calificaciones
EJERCICIO BASES DE DATOS Empadronamiento
2 páginas
Principales Motores de Bases de Datos
Aún no hay calificaciones
Principales Motores de Bases de Datos
3 páginas
Examen
Aún no hay calificaciones
Examen
3 páginas
Práctica No 2
Aún no hay calificaciones
Práctica No 2
2 páginas
100000I52N BaseDeDatos
Aún no hay calificaciones
100000I52N BaseDeDatos
6 páginas
3 - Guia de Trabajo Aplicativo 1
Aún no hay calificaciones
3 - Guia de Trabajo Aplicativo 1
5 páginas
Trabajo Diseño BDR
Aún no hay calificaciones
Trabajo Diseño BDR
4 páginas
Conteo Ciudadano
Aún no hay calificaciones
Conteo Ciudadano
1 página
Replicación
Aún no hay calificaciones
Replicación
15 páginas
Recuperar El Sector de Arranque de Windows XP
Aún no hay calificaciones
Recuperar El Sector de Arranque de Windows XP
18 páginas
EJERCICIO BASES DE DATOS Empadronamiento Con Solucion
Aún no hay calificaciones
EJERCICIO BASES DE DATOS Empadronamiento Con Solucion
4 páginas
Simulacro de Examen de Gestion y Manejo de Bases de Datos Ii
Aún no hay calificaciones
Simulacro de Examen de Gestion y Manejo de Bases de Datos Ii
4 páginas
Apuntador A Estructuras-Bis
Aún no hay calificaciones
Apuntador A Estructuras-Bis
10 páginas
Silabo BD-UAP PDF
Aún no hay calificaciones
Silabo BD-UAP PDF
9 páginas
Dias de La Semana Con La Estructura Segun
Aún no hay calificaciones
Dias de La Semana Con La Estructura Segun
1 página
5PyN9-Primer Parcial - Dibujo Tecnico
Aún no hay calificaciones
5PyN9-Primer Parcial - Dibujo Tecnico
2 páginas
Ejercicios Bases de Datos Resueltos
Aún no hay calificaciones
Ejercicios Bases de Datos Resueltos
3 páginas
Conexion Con Codigo de Access A MySQL
Aún no hay calificaciones
Conexion Con Codigo de Access A MySQL
3 páginas
Resumen Clase Sistemas Operativos
Aún no hay calificaciones
Resumen Clase Sistemas Operativos
3 páginas
Testeo Fabrica de Aromatizantes - Leo 2023
Aún no hay calificaciones
Testeo Fabrica de Aromatizantes - Leo 2023
4 páginas
RESUMEN CLASE 15 Sistemas Operativos
Aún no hay calificaciones
RESUMEN CLASE 15 Sistemas Operativos
2 páginas
Trabajo Capitulo 5
Aún no hay calificaciones
Trabajo Capitulo 5
5 páginas
Estados Unidos Mexicanos Acta de Nacimiento: Ariel Lopez Arreola
Aún no hay calificaciones
Estados Unidos Mexicanos Acta de Nacimiento: Ariel Lopez Arreola
1 página
Formulario de Solicitud Rodajes Film Madrid
Aún no hay calificaciones
Formulario de Solicitud Rodajes Film Madrid
1 página
Acceso A Datos En Aplicaciones Web Del Entorno Servidor. Uf1845.
De Everand
Acceso A Datos En Aplicaciones Web Del Entorno Servidor. Uf1845.
Beatriz Coronado García
Aún no hay calificaciones
Salvaguarda y seguridad de los datos. IFCT0310
De Everand
Salvaguarda y seguridad de los datos. IFCT0310
Enrique San Martín González
Aún no hay calificaciones
Aplicaciones Informáticas De Bases De Datos Relacionales. Uf0322.
De Everand
Aplicaciones Informáticas De Bases De Datos Relacionales. Uf0322.
Miguel Ángel Ladrón De Guevara
Aún no hay calificaciones
Almacenamiento de la información e introducción a los SGBD. IFCT0310
De Everand
Almacenamiento de la información e introducción a los SGBD. IFCT0310
José Manuel Cabello García
Aún no hay calificaciones
Creación de componentes en JavaScript Curso practico
De Everand
Creación de componentes en JavaScript Curso practico
Pablo E. Fernández
Aún no hay calificaciones
Lenguajes de definición y modificación de datos SQL. IFCT0310
De Everand
Lenguajes de definición y modificación de datos SQL. IFCT0310
Jesús Francisco Camuña Rodríguez
Aún no hay calificaciones
Quítate el estrés del CFDI 3.3.: Procedimiento e implicaciones
De Everand
Quítate el estrés del CFDI 3.3.: Procedimiento e implicaciones
Luis Armando Jiménez Bravo
Aún no hay calificaciones