14 NORMALIZACION-TEORIA

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 8

NORMALIZACIÓN DE BASES DE DATOS

La normalización de bases de datos es un proceso importante en el diseño de bases de datos


relacionales que consiste en designar y aplicar una serie de reglas a las relaciones obtenidas tras el paso
del modelo entidad-relación al modelo relacional con objeto de minimizar la redundancia de datos,
facilitando su gestión posterior.
Objetivo
Las bases de datos relacionales se normalizan para:

 Minimizar la redundancia de los datos.


 Disminuir problemas de actualización de los datos en las tablas.
 Proteger la integridad de datos.
En el modelo relacional es frecuente llamar «tabla» a una relación; para que una tabla sea considerada
como una relación tiene que cumplir con algunas restricciones:

 Cada tabla debe tener su nombre único.


 No puede haber dos filas iguales. No se permiten los duplicados.
 Todos los datos en una columna deben ser del mismo tipo.

Terminología equivalente

Figura 1.0: Trabajo (Código, Nombre, Posición, Salario), donde Código es la Clave Primaria.

 Entidad = tabla
 Registro = fila o tupla
 Atributo = columna
 Clave = llave o código de identificación
 Clave Candidata = superclave mínima
 Clave Primaria = clave candidata elegida
 Clave Externa = clave ajena o clave foránea
 Clave Alternativa = clave secundaria
 Dependencia Multivaluada = dependencia multivalor = dependencia múltiple
 RDBMS = Del inglés Relational Data Base Management System, que significa Sistema de
gestión de bases de datos relacionales.
 1FN = Significa Primera Forma Normal o 1NF, del inglés First Normal Form.

Los términos Relación, Tupla y Atributo derivan del álgebra y cálculo relacional, que constituyen la base
teórica del modelo de base de datos relacional.

Todo atributo en una tabla tiene un dominio, el cual representa el conjunto de valores que el mismo puede
tomar. Una instancia de una tabla puede verse entonces como un subconjunto del producto cartesiano entre
los dominios de los atributos. Sin embargo, suele haber algunas diferencias con la analogía matemática, ya
que algunos RDBMS permiten filas duplicadas, entre otras cosas. Finalmente, una tupla puede razonarse
matemáticamente como un elemento del producto cartesiano entre los dominios.

Prof. Angel Tello Valles 1


Dependencias
El proceso de normalización se basa en relaciones que se conocen que mantienen los datos,
principalmente dependencias funcionales, multivaluadas y de join.

Dependencia funcional

B es funcionalmente dependiente de A.
Una dependencia funcional es una relación entre uno o más atributos. Por ejemplo, si se conoce el valor
de DNI (Documento Nacional de Identidad-España) tiene una conexión con Apellido o Nombre.

Las dependencias funcionales del sistema se escriben utilizando una flecha, de la siguiente manera:

FechaDeNacimiento Edad

De la normalización (lógica) a la implementación (física o real) puede ser sugerible tener estas
dependencias funcionales para lograr la eficiencia en las tablas.

Propiedades de la dependencia funcional


Existen tres axiomas de Armstrong:

1. Dependencia funcional reflexiva

Si "y" está incluido en "x" entonces x → y


A partir de cualquier atributo o conjunto de atributos siempre puede deducirse él mismo. Si la dirección o el
nombre de una persona están incluidos en el DNI, entonces con el DNI podemos determinar la dirección o
su nombre.

2. Dependencia funcional aumentativa

entonces
DNI -> nombre

DNI,dirección -> nombre,dirección

Si con el DNI se determina el nombre de una persona, entonces con el DNI más la dirección también se
determina el nombre y su dirección.

3. Dependencia funcional transitiva

Prof. Angel Tello Valles 2


Dependencia funcional
transitiva.
Sean X, Y, Z tres atributos (o grupos de atributos) de la misma entidad. Si Y depende funcionalmente
de X y Z de Y, pero X no depende funcionalmente de Y, se dice entonces que Z depende transitivamente
de X. Simbólicamente sería:

FechaDeNacimiento -> Edad


Edad -> Conducir
FechaDeNacimiento -> Edad -> Conducir

Entonces entendemos que FechaDeNacimiento determina a Edad y la Edad determina a Conducir,


indirectamente podemos saber a través de FechaDeNacimiento a Conducir (En muchos países, una
persona necesita ser mayor de cierta edad para poder conducir un automóvil, por eso se utiliza este
ejemplo).

"C será un dato simple (dato no primario), B, será un otro dato simple (dato no primario), A, es la llave
primaria (PK). Decimos que C dependerá de B y B dependerá funcionalmente de A."

Prof. Angel Tello Valles 3


CLAVES
Una clave primaria es el conjunto mínimo de columnas que identifica unívocamente a cada fila. La clave
primaria es un identificador que va a ser siempre único para cada fila. Se acostumbra a poner la clave
primaria como la primera columna de la tabla, pero es más una conveniencia que una obligación. Muchas
veces la clave primaria es numérica auto-incrementada, es decir, generada mediante una secuencia
numérica incrementada automáticamente cada vez que se inserta una fila.

En una tabla puede que tengamos más de una columna que puede ser clave primaria por sí misma. En ese
caso se puede escoger una para ser la clave primaria y las demás claves serán claves candidatas.

Una clave ajena (foreign key o clave foránea) es aquella columna que existiendo como dependiente en
una tabla, es a su vez clave primaria en otra tabla.

Una clave alternativa es aquella clave candidata que no ha sido seleccionada como clave primaria, pero
que también puede identificar de forma única a una fila dentro de una tabla. Ejemplo: Si en una tabla
clientes definimos el número de documento (id_cliente) como clave primaria, el número de seguro social de
ese cliente podría ser una clave alternativa. En este caso no se usó como clave primaria porque es posible
que no se conozca ese dato en todos los clientes.

Una clave compuesta es una clave que está compuesta por más de una columna.

La visualización de todas las posibles claves candidatas en una tabla ayudan a su optimización. Por
ejemplo, en una tabla PERSONA podemos identificar como claves su DNI, o el conjunto de su nombre,
apellidos, fecha de nacimiento y dirección. Podemos usar cualquiera de las dos opciones o incluso todas a
la vez como clave primaria, pero es mejor en la mayoría de sistemas la elección del menor número de
columnas como clave primaria.

FORMAS NORMALES
Las formas normales son aplicadas a las tablas de una base de datos. Decir que una base de datos está en
la forma normal N es decir que todas sus tablas están en la forma normal N.

Diagrama de inclusión de todas las formas normales

En general, las primeras tres formas normales son el mínimo que deben cubrir la mayoría de las bases de
datos. El creador de estas 3 primeras formas normales (o reglas) fue Edgar F. Codd.1

Primera Forma Normal (1FN)


Una tabla está en primera forma si:

 Todos los atributos son atómicos. Un atributo es atómico si los elementos del dominio son
simples e indivisibles.
 No debe existir variación en el número de columnas.
 Los campos no clave deben identificarse por la clave (dependencia funcional).
Prof. Angel Tello Valles 4
 Debe existir una independencia del orden tanto de las filas como de las columnas; es decir, si
los datos cambian de orden no deben cambiar sus significados.
Esta forma normal elimina los valores repetidos dentro de una base de datos.

Segunda Forma Normal (2FN)

Tercera Forma Normal (3FN)

Prof. Angel Tello Valles 5


Forma normal de Boyce-Codd (FNBC)
La tabla se encuentra en FNBC si cada determinante, atributo que determina completamente a otro, es
clave candidata. Deberá registrarse de forma anillada ante la presencia de un intervalo seguido de una
formalización perpetua, es decir las variantes creadas, en una tabla no se llegarán a mostrar, si las ya
planificadas, dejan de existir.

Cuarta Forma Normal (4FN)

Quinta Forma Normal (5FN)


Una tabla se encuentra en 5FN si:

 La tabla está en 4FN


 No existen relaciones de dependencias de reunión (join) no triviales que no se generen desde las
claves. Una tabla que se encuentra en la 4FN se dice que está en la 5FN si, y sólo si, cada relación de
dependencia de reunión (join) se encuentra definida por claves candidatas. Por lo que si se aplicara
una consulta entre al menos tres relaciones independientes entre sí dentro de la 4FN y se obtuvieran
tuplas espurias, entonces no estaría dentro de la 5FN.

Reglas de Codd
Edgar Frank Codd se percató de que existían bases de datos en el mercado que decían ser relacionales,
pero lo único que hacían era guardar la información en las tablas, sin estar literalmente normalizadas dichas
tablas; entonces Codd publicó doce (12) reglas que un verdadero sistema relacional debería tener, en la
práctica algunas de ellas son difíciles de realizar. Un sistema podrá considerarse "más relacional" cuanto
más siga estas reglas.

Regla 1: La regla de la información


Toda la información en un RDBMS está explícitamente representada de una sola manera por valores en
una tabla.

Cualquier cosa que no exista en una tabla no existe del todo. Toda la información, incluyendo nombres de
tablas, nombres de vistas, nombres de columnas, y los datos de las columnas deben estar almacenados en
tablas dentro de las bases de datos. Las tablas que contienen tal información constituyen el Diccionario de
datos. Esto significa que todo tiene que estar almacenado en las tablas.

Toda la información en una base de datos relacional se representa explícitamente en el nivel lógico
exactamente de una manera: con valores en tablas. Por tanto los metadatos (diccionario, catálogo) se
representan exactamente igual que los datos de usuario. Y puede usarse el mismo lenguaje (ej. SQL) para
acceder a los datos y a los metadatos (regla 4).

Regla 2: La regla del acceso garantizado


Cada ítem de datos debe ser lógicamente accesible al ejecutar una búsqueda que combine el nombre de la
tabla, su clave primaria y el nombre de la columna

Regla 3: Tratamiento sistemático de los valores nulos


La información inaplicable o faltante puede ser representada a través de valores nulos
Prof. Angel Tello Valles 6
Un sistema gestor de bases de datos relacionales debe ser capaz de soportar el uso de valores nulos en el
lugar de columnas cuyos valores sean desconocidos.

 Se reconoce la necesidad de la existencia del valor nulo, el cual podría servir para representar, o bien
una información desconocida (ejemplo, no se sabe la dirección de un empleado), o bien una
información que no procede (a un empleado soltero no se le puede asignar un nombre de esposa). Así
mismo, consideremos el caso de un alumno que obtiene 0 puntos en una prueba y el de un alumno que
no presentó la prueba.
 Hay problemas para soportar los valores nulos en las operaciones relacionales, especialmente en las
operaciones lógicas, para lo cual se considera una lógica trivaluada, con tres (no dos) valores de
verdad: verdadero, falso y null. Se crean tablas de verdad para las operaciones lógicas:

null AND null = null

Verdadero AND null = null

Falso AND null = Falso

Verdadero OR null = Verdadero, etc.

Regla 4: La regla de la descripción de la base de datos


La descripción de la base de datos es almacenada de la misma manera que los datos ordinarios, esto es,
en tablas y columnas, y debe ser accesible a los usuarios autorizados.

La información de tablas, vistas, permisos de acceso de usuarios autorizados, etc, debe ser almacenada
exactamente de la misma manera: En tablas. Estas tablas deben ser accesibles igual que todas las tablas, a
través de sentencias de SQL (o similar).

Regla 5: La regla del sub-lenguaje integral


Debe haber al menos un lenguaje que sea integral para soportar la definición de datos, manipulación de
datos, definición de vistas, restricciones de integridad, y control de autorizaciones y transacciones.

Esto significa que debe haber por lo menos un lenguaje con una sintaxis bien definida que pueda ser usado
para administrar completamente la base de datos.

Regla 6: La regla de la actualización de vistas


Todas las vistas que son teóricamente actualizables, deben ser actualizables por el sistema mismo.

La mayoría de las RDBMS permiten actualizar vistas simples, pero deshabilitan los intentos de actualizar
vistas complejas.

Regla 7: La regla de insertar y actualizar


La capacidad de manejar una base de datos con operandos simples se aplica no sólo para la recuperación
o consulta de datos, sino también para la inserción, actualización y borrado de datos.

Esto significa que las cláusulas para leer, escribir, eliminar y agregar registros (SELECT, UPDATE, DELETE
e INSERT en SQL) deben estar disponibles y operables, independientemente del tipo de relaciones y
restricciones que haya entre las tablas o no.

Regla 8: La regla de independencia física


El acceso de usuarios a la base de datos a través de terminales o programas de aplicación, debe
permanecer consistente lógicamente cuando quiera que haya cambios en los datos almacenados, o sean
cambiados los métodos de acceso a los datos.

El comportamiento de los programas de aplicación y de la actividad de usuarios vía terminales debería ser
predecible basados en la definición lógica de la base de datos, y éste comportamiento debería permanecer
inalterado, independientemente de los cambios en la definición física de esta.

Prof. Angel Tello Valles 7


Regla 9: La regla de independencia lógica
Los programas de aplicación y las actividades de acceso por terminal deben permanecer lógicamente
inalteradas cuando quiera que se hagan cambios (según los permisos asignados) en las tablas de la base
de datos.

La independencia lógica de los datos especifica que los programas de aplicación y las actividades de
terminal deben ser independientes de la estructura lógica, por lo tanto los cambios en la estructura lógica no
deben alterar o modificar estos programas de aplicación.

Regla 10: La regla de la independencia de la integridad


Todas las restricciones de integridad deben ser definibles en los datos, y almacenables en el catálogo, no
en el programa de aplicación.

Las reglas de integridad

1. Ningún componente de una clave primaria puede tener valores en blanco o nulos (ésta es
la norma básica de integridad).
2. Para cada valor de clave foránea deberá existir un valor de clave primaria concordante. La
combinación de estas reglas aseguran que haya integridad referencial.

Regla 11: La regla de la distribución


El sistema debe poseer un lenguaje de datos que pueda soportar que la base de datos esté distribuida
físicamente en distintos lugares sin que esto afecte o altere a los programas de aplicación.

El soporte para bases de datos distribuidas significa que una colección arbitraria de relaciones, bases de
datos corriendo en una mezcla de distintas máquinas y distintos sistemas operativos y que esté conectada
por una variedad de redes, pueda funcionar como si estuviera disponible como en una única base de datos
en una sola máquina.

Regla 12: Regla de la no-subversión


Si el sistema tiene lenguajes de bajo nivel, estos lenguajes de ninguna manera pueden ser usados para
violar la integridad de las reglas y restricciones expresadas en un lenguaje de alto nivel (como SQL).

Algunos productos solamente construyen una interfaz relacional para sus bases de datos No relacionales, lo
que hace posible la subversión (violación) de las restricciones de integridad. Esto no debe ser permitido.

Referencias

1. ↑ A Relational Model of Data for Large Shared Data Banks Communications of the ACM, Vol. 13, No. 6,
June 1970, pp. 377-387 «Copia archivada». Archivado desde el original el 12 de junio de 2007.
Consultado el 9 de junio de 2007.
2. ↑ Codd, E.F. "Further Normalization of the Data Base Relational Model." (Presented at Courant
Computer Science Symposia Series 6, "Data Base Systems," New York City, May 24th-25th, 1971.) IBM
Research Report RJ909 (August 31st, 1971). Republished in Randall J. Rustin (ed.), Data Base
Systems: Courant Computer Science Symposia Series 6. Prentice-Hall, 1972.
3. ↑ Fundamentals of DATABASE SYSTEMS Addison-Wesley;, ISBN 0321122267, ISBN 978-
0321122261,
Bibliografía

 E.F.Codd (junio de 1970). "A Relational Model of Data for Large Shared Databanks". Communications
of the ACM.
 C.J.Date (1994). "An Introduction to Database Systems". Addison-Wesley.

Prof. Angel Tello Valles 8

También podría gustarte