FACULTAD DE CIENCIAS BIOLOGICAS
UNIVERSIDAD PEDRO RUIZ GALLO
INTEGRANTES:
VERA ASALDE JUAN JOSE
DOCENTE
ARRUNATEGUI JIMENEZ JOSE MARTIN
CURSO
ANALISIS DE INSTRUMENTOS
CICLO
9no
BIOINFORMATICA
I. INTRODUCCION
La revelación de la secuencia completa del genoma humano posibilitó conocer las
causas moleculares de las enfermedades, así como descubrir la significación de las
diferencias genéticas entre las personas para el desarrollo de enfermedades. La
comprensión sobre cómo las variantes genéticas y el medio ambiente regulan el
fenotipo de las células, tejidos y órganos, ocupará la investigación del siglo XXI. Y, en
esta búsqueda, es donde se inserta precisamente la bioinformática, una disciplina
emergente una disciplina emergente que utiliza las tecnologías de la información para
captar, organizar, analizar y distribuir información biológica con el propósito de
responder preguntas complejas en biología. Sin embargo, el objetivo final es mucho
más amplio y consiste en utilizar esta información para desarrollar nuevas formas de
tratar, curar o prevenir los miles de enfermedades que afligen a la humanidad. Pero el
camino, desde la identificación de los genes hasta la obtención de los tratamientos
efectivos, es largo y complejo. Se establece así un formidable reto para biólogos,
informáticos, médicos y bibliotecarios, tanto básicos como clínicos en el sector de la
salud y que, en el caso de los últimos, impone la necesidad de adquirir una instrucción
básica en los temas relacionados con las biociencias moleculares con el propósito de
prepararse y contribuir con efectividad a la comunicación científica entre estas
disímiles profesiones.
II. DEFINICION
La bioinformática es una disciplina que se encuentra en la intersección entre las
ciencias de la vida y de la información. Proporciona herramientas y recursos para
favorecer la investigación biomédica. Trata de desarrollar sistemas que sirvan para
entender el flujo de información desde los genes a las estructuras moleculares, su
función bioquímica, conducta biológica y, finalmente, su influencia en las
enfermedades y la salud. La bioinformática es una nueva disciplina dentro de la
biología, donde las herramientas de la computación tienen una función primordial. Si
bien algunos restringen el rango de estudio de la bioinformática al manejo y análisis de
bases de datos biológicas -principalmente de secuencias-, podría atribuírsele un
sentido más amplio, como la fusión de las técnicas computacionales con el
entendimiento y apreciación de datos biológicos, el almacenamiento, recuperación,
manipulación y correlación de datos procedentes de distintas fuentes. Una definición
más general, la ubica como el estudio de la información biológica a partir de la teoría
de la información, la computación y las matemáticas. El reto más importante al que se
enfrenta esta ciencia es responder a la avalancha de datos que provienen del proyecto
"Genoma humano" y de la genómica. La importancia de la genómica origina que la
bioinformática, considerada como la aplicación de informática en el procesamiento de
la información genética, y la informática médica, considerada como la aplicación de la
informática en el tratamiento de la información clínica, comenzarán a acercarse y que,
en el futuro, deban interaccionar más estrechamente, si se desea dar respuesta a las
demandas que surgirán de la medicina molecular y la asistencia sanitaria
personalizada.
III. OBJETIVOS
Localizar la ubicación de una secuencia en el ADN genómico. Permite localizar
en el genoma un oligo, un ADNc o un EST. También permite determinar la
estructura de un gen (localizar los intrones, los exones y las regiones
reguladoras)
Identificar a qué organismo pertenece una secuencia concreta
Explorar las BD en busca de secuencias relacionadas funcional o
evolutivamente para buscar nuevos miembros de una familia de genes o de
proteínas o para elaborar un árbol filogenético • Identificar dominios locales
conservados
Hacer anotaciones en una secuencia en base a su similitud con otras
secuencias ya caracterizadas.
IV. FORMATOS DE SECUENCIA
Los algoritmos de la familia del Clustal han sido históricamente los más utilizados,
especialmente ClustalW. La versión actual del ClustalW es el ClustalW2. El clustalW no
se encuentra actualmente entre los más recomendados puesto que hay otros
algoritmos que presentan un mejor comportamiento, por ejemplo el Clustal Omega
para proteínas o el MAFFT. El MAFFT fue uno de los programas con una mejor
puntuación en una comparación de programas de alineamiento múltiple y, además,
fue muy rápido.
A. FASTA
Es un formato de fichero informático basado en texto, utilizado para representar
secuencias bien de ácidos nucleicos, bien de péptido, y en el que los pares de bases o
los aminoácidos se representan usando códigos de una única letra. El formato también
permite incluir nombres de secuencias y comentarios que preceden a las secuencias en
sí.
B. GENBANK
Es la base de datos de secuencias genéticas del NIH (National Institutes of Health de
Estados Unidos), una colección de disponibilidad pública de secuencias de ADN.
Realiza una puesta al día cada dos meses.
GenBank es parte de International Nucleotide Sequence Database Collaboration, que
está integrada por la base de datos de ADN de Japón (DNA DataBank of Japan (DDBJ)),
El Laboratorio Europeo de Biología Molecular (European Molecular Biology Laboratory
(EMBL)), y el GenBank en el National Center for Biotechnology Information. Estas
organizaciones intercambian datos diariamente. GenBank y sus colaboradores reciben
secuencias genéticas producidas en laboratorios de todo el mundo, procedentes de
más de 100.000 organismos distintos. GenBank continua creciendo a ritmo
exponencial, doblando la cantidad de información contenida cada 10 meses.
V. BUSCADORES DE SECUENCIA
La familia de programas BLAST es la más utilizada para buscar secuencias similares en
una base de datos dada una secuencia problema. Pero hay otros programas como:
CRUSTAL OMEGA, RCSB PDB, etc.
VI. RESULTADOS
A. BLAST
BLAST es la herramienta bioinformática más utilizada en todo el mundo. Compara una
secuencia problema (query sequence) de nucleótidos o de proteínas con todas las
secuencias de una BD de nucleótidos o de proteínas.
A partir de los resultados de una búsqueda con BLAST se pueden inferir relaciones
funcionales, estructurales o evolutivas entre dos secuencias y, de este modo,
identificar nuevos miembros de una familia de genes o de proteínas. Además de
encontrar secuencias idénticas o con similitud local, BLAST hace un alineamiento con la
secuencia problema y calcula la significancia estadística de los resultados.
a) Tipos de secuencias
Analizaremos, fundamentalmente dos tipos de secuencias: secuencias de proteínas
(amino ácidos). Secuencias de ADN (nucleótidos). La importancia de la similaridad
es si dos secuencias son similares, muy probablemente o deriven de una secuencia
ancestral común y compartan una misma estructura teniendo una función
biológica similar
b) Homología
Secuencias similares no tienen por qué significar homología. Secuencias
homologas no tienen por qué ser similares
• Gen homologo: Heredado por dos especies a partir de un ancestro común.
Suelen tener una secuenciación similar.
• Gen ortologo: Las especies son diferentes
• Gen paralogo: Dentro de la misma especie por duplicidad
Pares de genes/proteínas homologas suelen tener: secuencias parecidas,
funcionalidades parecidas, estructuras 3D parecidas.
c) Búsqueda
• La búsqueda de similaridad se lleva a cabo mediante el alineamiento de
secuencias
• Alineamiento de dos cadenas (entre dos dadas, o de una dada contra una base
de datos)
• Global (secuencia completa contra otra/s)
• Local (busca subsecuencias similares)
• Semiglobal (huecos en extremos no penalizados)
• Alineamiento múltiple
d) Ventajas
Búsqueda de similaridad en secuencias
Los secuenciadores de última generación hacen que secuenciar organismos
sea cada vez más barato
El ensamblado y anotación de las secuencias continúa siendo una ardua tarea
Ya hay mucha información de secuencias previamente anotadas
No necesitamos partir de cero, se puede tratar de inferir información de
anotaciones previas
Para ello, existen muchas herramientas de búsqueda de secuencias similares a
la nuestra.
PROCEDIMIENTO DE BUSQUEDA
1) Se ingresa a la página de BLAST NCBI, y escribes la enzima que deseas buscar en All
Datebases. Se buscara la enzima B galactosidasa.
2) En los resultados nos brinda las coincidencias de la enzima en los organismos
reportados en la base de dato.
3) Elegimos un organismo para ver su secuencia. En este caso elegiremos la B-
galactosidasa
4) A continuación, nos muestras una breve descripción de la enzima y del organismo
donde procede, la cepa y también publicaciones sobre el organismo con esta enzima.
5) Seleccionamos la opción formato FASTA sirve para hacer un estudio de homología
6) Las secuencias se guardan en BLOC DE NOTAS
OPCIONES DE BLAST
NUCLEOTIDE BLAST: de nucleótido a nucleótido: mismos principios que en las
anteriores, requiere operaciones similares. Pero no es tan eficiente como en el caso de
las proteínas
BLASTX: secuencia recibida contra bd de secuencias proteicas.
TBLASTn: busca bases de datos de nucleótidos traducidas utilizando una consulta de
proteínas.
7) Se copia la secuencia del bloc de notas
8) Ingresamos nuestra secuencia y damos la opción BLAST
9) Vista grafica
10) Homologia entre las secuencias de la cepas de E. coli
11) Alineamientos
12) Detalle del alineamiento
B. CLUSTAL-OMEGA
Clustal Omega es un nuevo programa de alineación de secuencias múltiples que utiliza
árboles guía sembrados y técnicas de perfil-perfil HMM para generar alineaciones
entre tres o más secuencias.
Los algoritmos de la familia del Clustal han sido históricamente los más utilizados,
especialmente ClustalW. La versión actual del ClustalW es el ClustalW2. El clustalW no
se encuentra actualmente entre los más recomendados puesto que hay otros
algoritmos que presentan un mejor comportamiento, por ejemplo el Clustal Omega
para proteínas o el MAFFT. El MAFFT fue uno de los programas con una mejor
puntuación en una comparación de programas de alineamiento múltiple y, además,
fue muy rápido.
a) Característica
Programa de propósito general para el alineamiento
secuencial de proteínas y DNA/RNA
Produce secuencias de alineamiento múltiples y es capaz de manejar paquetes
de datos de millones de secuencias en un tiempo razonable
Se trabaja mediante línea de comando, indicando los parámetros necesarios
Existe también otra versión con interfaz gráfica
Como resultado, devuelve las sentencias alineadas, según parámetros
indicados.
Tres etapas: Alineamiento por pares, creación de árbol filogenético y
alineamiento múltiple
b) Alineamientos múltiples
Un alineamiento múltiple de secuencias es un alineamiento de más de dos secuencias. Estas
secuencias, como en el caso de los alieamientos por parejas pueden ser ADN, ARN o proteína.
Las aplicaciones más habituales de los alineamientos múltiples son:
la reconstrucción filogenética,
el análisis estructural de proteínas,
la búsqueda de dominios conservados y
la búsqueda de regiones conservadas en promotores.
c) Algoritmos de alineamientos multiples
Los algoritmos de alineamiento múltiple están pensados para alinear secuencias bastante
diferentes entre sí. A pesar de ello a medida que estas diferencias aumenten a los
algoritmos les será más difícil dar con el alineamiento correcto, es decir, el
correspondiente a las relaciones de homología reales.
Una de las asunciones que suelen hacer estos algoritmos para poder resolver el problema
es que las secuencias a alinear cubren la misma región y que no hay muchas inserciones y
deleciones grandes. Estas restricciones hacen que estos algoritmos estén especialmente
indicados para algunos problemas, pero no para otros y que no todas las secuencias se
alineen igual de bien. Por ejemplo, si estamos alineando proteínas homólogas
provenientes de especies muy separadas filogenéticamente nos será más fácil alinear las
regiones más conservadas y puede que tengamos problemas con las regiones más
variables. En el caso de las secuencias de ADN correspondientes a genes suele ser más fácil
alinear las regiones codificantes que las no codificantes debido al mayor grado de
conservación de las regiones codificantes. Estos algoritmos tenderán a no comportarse
bien con secuencias parcialmente solapantes, como las lecturas proveninentes de un
proyecto de secuenciación.
C. RCSB PDB
El Banco de datos de proteínas (PDB) se estableció en Brookhaven National
Laboratories (BNL) en 1971 como un archivo de estructuras cristalinas
macromoleculares biológicas. Al principio, el archivo contenía siete estructuras, y
con cada año se depositaban un puñado más. En la década de 1980, el número de
estructuras depositadas comenzó a aumentar dramáticamente. Esto se debió a la
tecnología mejorada para todos los aspectos del proceso cristalográfico, la adición
de estructuras determinadas por métodos de resonancia magnética nuclear (RMN)
y los cambios en las opiniones de la comunidad sobre el intercambio de datos. A
principios de la década de 1990, la mayoría de las revistas requerían un código de
acceso PDB y al menos una agencia de financiación (Instituto Nacional de Ciencias
Médicas Generales) adoptó las pautas publicadas por la Unión Internacional de
Cristalografía (IUCr) que exigen la deposición de datos para todas las estructuras.
El Protein Data Bank (PDB; http://www.rcsb.org/pdb/) es el único archivo mundial
de datos estructurales de macromoléculas biológicas. Este documento describe los
objetivos del PDB, los sistemas establecidos para el depósito y acceso de datos,
cómo obtener más información y los planes a corto plazo para el desarrollo futuro
del recurso.
a) Adquisición y procesamiento de datos
Un componente clave de la creación del archivo público de información es la
captura y curación eficiente de los datos, el procesamiento de datos. El
procesamiento de datos consiste en la deposición, anotación y validación
de datos. Estos pasos son parte del sistema de procesamiento de datos
totalmente documentado e integrado.
Después de una estructura ha sido depositado utilizando ADIT, un identificador
PDB se envía al autor automática e inmediatamente. Esta es la primera etapa
en la que la información sobre la estructura se carga en la base de datos
interna del núcleo (consulte la sección sobre el recurso de base de datos
PDB). La entrada se anota como se describe en la sección de validación a
continuación. Este proceso implica el uso de ADIT para ayudar a diagnosticar
errores o inconsistencias en los archivos. La entrada completamente anotada
como aparecerá en el recurso PDB, junto con la información de validación, se
envía de vuelta al depositante (Paso 2). Después de revisar el archivo
procesado, el autor envía las revisiones (Paso 3). Dependiendo de la naturaleza
de estas revisiones, los pasos 2 y 3 pueden repetirse. Una vez que se recibe la
aprobación del autor (Paso 4), la entrada y las tablas en la base de datos
central interna están listas para su distribución.
Todos los aspectos del procesamiento de datos, incluidas las comunicaciones
con el autor, se registran y almacenan en el archivo de correspondencia. Esto
hace posible que el personal de PDB recupere información sobre cualquier
aspecto del proceso de deposición y monitoree de cerca la eficiencia de las
operaciones de PDB.
La información del estado actual, compuesta por una lista de autores, título y
categoría de publicación, se almacena para cada entrada en la base de datos
central y se puede acceder para consultarla a través de la interfaz WWW
(http://www.rcsb.org/pdb/status. html).
b) Validacion
La validación se refiere al procedimiento para evaluar la calidad de los modelos
atómicos depositados (validación de estructura) y para evaluar qué tan bien
estos modelos se ajustan a los datos experimentales (validación
experimental). El PDB valida las estructuras utilizando estándares comunitarios
aceptados como parte del sistema integrado de procesamiento de datos de
ADIT. Las siguientes comprobaciones se ejecutan y se resumen en una carta que
se comunica directamente al depositante:
Distancia de enlace covalente y ángulos . Las proteínas se comparan con los
valores estándar de Engh y Huber; las bases de ácido nucleico se comparan con
valores estándar de Clowney et al. el azúcar y los fosfatos se comparan con los
valores estándar de Gelbin et al .
Validación estereoquímica . Todos los centros quirales de proteínas y ácidos
nucleicos se verifican para la estereoquímica correcta.
Nomenclatura del átomo . Se verifica que la nomenclatura de todos los átomos
cumpla con los estándares IUPAC y se ajusta si es necesario.
Los contactos cercanos . Se calculan las distancias entre todos los átomos dentro
de la unidad asimétrica de las estructuras cristalinas y la molécula única de las
estructuras de RMN. Para estructuras cristalinas, también se verifican los
contactos entre las moléculas relacionadas con la simetría.
Nomenclatura de ligandos y átomos . La nomenclatura de residuos y átomos se
compara con el diccionario PDB (ftp: //ftp.rcsb. Org / pub / pdb / data /
monomers / het_dictionary.txt) para todos los ligandos, así como los residuos y
bases estándar. Los grupos de ligando no reconocidos se marcan y cualquier
discrepancia en los ligandos conocidos se enumera como átomos extra o
faltantes.
Comparación de secuencias . La secuencia dada en los registros SEQRES de PDB
se compara con la secuencia derivada de los registros de coordenadas.
Esta información se muestra en una tabla donde se marcan las diferencias o los
residuos faltantes. Durante el procesamiento de la estructura, se verifica la
precisión de las referencias de la base de datos de secuencias proporcionadas
por DBREF y SEQADV. Si no se proporciona ninguna referencia, se utiliza una
búsqueda BLAST para encontrar la mejor coincidencia. Cualquier conflicto entre
los registros SEQRES de PDB y la secuencia derivada de los registros de
coordenadas se resuelve mediante la comparación con varias bases de datos de
secuencias.
Aguas distantes . Se calculan las distancias entre todos los átomos de oxígeno
del agua y todos los átomos polares (oxígeno y nitrógeno) de las
macromoléculas, ligandos y solventes en la unidad asimétrica. Los átomos
solventes distantes se reposicionan usando simetría cristalográfica de modo que
caigan dentro de la esfera de solvatación de la macromolécula.
En casi todos los casos, los errores graves detectados por estas verifican
c) Distribución de datos
El PDB distribuye datos de coordenadas, archivos de factores de estructura y
archivos de restricción de RMN. Además, proporciona documentación y datos
derivados. Los datos de coordenadas se distribuyen en formatos PDB y
mmCIF. Actualmente, el archivo PDB se crea como el producto final de la
anotación de datos; El programa pdb2cif se utiliza para generar los datos
mmCIF. Este programa se utiliza para acomodar los datos heredados. En el
futuro, se distribuirán los archivos de formato mmCIF y PDB creados durante la
anotación de datos.
Los datos se distribuyen a la comunidad de las siguientes maneras:
• Desde sitios web primarios de PDB y ftp en UCSD, Rutgers y NIST que se
actualizan semanalmente.
• Desde sitios espejo completos basados en web que contienen todas las bases
de datos, archivos de datos, documentación e interfaces de consulta
actualizados semanalmente.
• Desde sitios espejo de solo ftp que contienen una copia completa o de un
subconjunto de archivos de datos, actualizados a intervalos definidos por el sitio
espejo. Los pasos necesarios para crear un sitio espejo solo ftp se describen en
http://www.rcsb.org/pdb/ftpproc.final.html
• CD-ROM trimestral.
Los datos se distribuyen una vez por semana. Los nuevos datos están disponibles
oficialmente a la 1 a.m. PST cada miércoles. Esto sigue la tradición desarrollada
por BNL y ha minimizado el impacto de la transición en los sitios espejo
existentes. Desde mayo de 1999, se han proporcionado dos archivos ftp:
ftp://ftp.rcsb.org, una organización reorganizada y más lógica de todos los datos,
software y documentación de PDB; y ftp://bnlarchive.rcsb.org, una copia casi
1) Buscamos la enzima B-galactosidasa y nos da una breve descripción de la enzima
2) Podemos ver la opción de 3D
3) Se puede observar sus enlaces con moléculas de agua (puntos rojos)
4) Estructura de la enzima con el visor Jsmol
5) Podemos observar los ligandos
6) Grupos de similitud
D. HTP OLIGO DESIGNER
Es una herramienta de diseño de cebadores en línea para la clonación de genes de
alto rendimiento y de mutagénsis.
El diseño de primers es una parte sustancial dentro de los ensayos de PCR, el
mismo es aplicado en la caracterización de microorganismos, secuenciación,
cuantificación, etc. En los últimos años se ha incrementado herramientas para este
fin, se realizaron nuevas variantes, crearon nuevos enfoques, muchas de estas
herramientas son de licencia comercial y otros de acceso libre y código abierto
permiten al usuario mejorar o modificar según requerimiento el diseño de primers.
E. NCBI
El Centro Nacional para la Información Biotecnológica o National Center for
Biotechnology Information (NCBI) es parte de la Biblioteca Nacional de Medicina
de Estados Unidos (National Library of Medicine), una rama de los Institutos
Nacionales de Salud (National Institutes of Health o NIH). Está localizado
en Bethesda, Maryland y fue fundado el 4 de noviembre de 1988 con la misión de
ser una importante fuente de información de biología molecular. Almacena y
constantemente actualiza la información referente a
secuencias genómicas en GenBank, un índice de artículos científicos referentes
a biomedicina, biotecnología, bioquímica, genética y genómica en PubMed, una
recopilación de enfermedades genéticas humanas en OMIM, además de otros
datos biotecnológicos de relevancia en diversas bases de datos.
Todas las bases de datos del NCBI están disponibles en línea de manera gratuita, y
son accesibles usando el buscador Entrez [1].
El NCBI ofrece además algunas herramientas bioinformáticas para el análisis de
secuencias de ADN, ARN y proteínas, siendo BLAST una de las más usadas.
NCBI alberga genoma secuenciado en GenBank, y un índice de los artículos
biomédicos de investigación en PubMed Central y PubMed, así como otra
información relevante a la biotecnología.Todas estas bases de datos son accesibles
en línea con el motor de búsqueda de Entrez.
VII. CONCLUSIONES
Los programas BLAST, OMEGA CLUSTAL Y RCSB PDB son recursos web donde
se recopilan múltiples aplicaciones para realizar diferentes análisis de
secuencias de ADN y proteínas.
Es posible encontrar aplicaciones para buscar secuencias parecidas por
homología en secuencia, alinear dos secuencias o más (alineamiento múltiple)
de ADN o proteínas, propiedades bioquímicas de las proteínas, predicciones
sobre su estructura
También se puede encontrar las mutaciones en la secuencia
Se usan diferentes algoritmos yanaliza los resultados para ver si se puede
extrar una conclusión por similitud de resultados
VIII. REFERENCIAS BIBLIOGRAFICAS
Rafael Oliva Virgili, José Manuel Vidal Taboada. Genoma humano. Nuevos
avances en investigación, diagnóstico y tratamiento. Editorial Barcelonar, 1era
edición, 2006.
Rubén Cañedo Andalia. Bioinformática: en busca de los secretos moleculares
de la vida. Articulo, No. 110 entre N y M, El Vedado. C P 10 400, Ciudad de La
Habana, Cuba.
http://www.ehu.eus/biofisica/juanma/bioinf/pdf/blast_ncbi.pdf
Martín Sánchez F, Maojo García V. La convergencia entre la Bioinformática y la
Informática Médica. I +S 2002;(38):25-31. Disponible en:
http://www.seis.es/i_s/is38/is38_2.htm [Consultado: 5 de septiembre del
2004].