PIA1 Biotecnologia Informática 171

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 26

Biotecnología

informática
MARISCAL SILVERIO DANIEL

FACILITADOR: AVILES ARNAUT HAMLET


GPO: 171
¿CÓMO SE HACE EL
ALINEAMIENTO DE
SECUENCIAS CON BLAST?
BLAST (BASIC LOCAL ALIGNMENT
SEARCH TOOL)
ES UNA HERRAMIENTA AMPLIAMENTE
UTILIZADA PARA BUSCAR SECUENCIAS
SIMILARES EN UNA BASE DE DATOS
DADA UNA SECUENCIA PROBLEMA.
PROPORCIONA UN ALINEAMIENTO
LOCAL POR PARES, ES DECIR, BUSCA
COINCIDENCIAS EN REGIONES
ESPECÍFICAS DE LAS SECUENCIAS.
EL PROCESO DE ALINEAMIENTO DE SECUENCIAS CON
BLAST SE REALIZA SIGUIENDO LOS SIGUIENTES
PASOS:
1. Preparación de la secuencia problema:
Primero, se debe tener la secuencia problema que se
desea alinear con otras secuencias en una base de
datos.

Esta secuencia se puede obtener de diferentes


fuentes, como secuenciación genómica o bases de
datos públicas.
2. SELECCIÓN DE LA BASE DE DATOS:

Luego, se selecciona la base de datos en la cual se buscarán las


secuencias similares a la secuencia problema. BLAST tiene bases
de datos predefinidas, como la base de datos de secuencias
nucleotídicas (nt) o la base de datos de secuencias proteicas no
redundantes (nr), pero también se pueden crear bases de datos
personalizadas.
3. Ejecución del alineamiento:
Una vez que se tiene la secuencia problema y se
ha seleccionado la base de datos, se ejecuta el
programa BLAST.
Esto puede hacerse a través de la interfaz web del
servidor BLAST del NCBI o mediante el uso de
BLAST instalado localmente en una máquina.

4. Visualización de los resultados:


y ya Una vez finalizada la búsqueda, BLAST produce una
página de resultados que muestra las secuencias
encontradas en la base de datos que son similares a la
secuencia problema.
Estos resultados incluyen información sobre la similitud y
la significancia estadística de los alineamientos.
MONTAJE DE GENOMAS
EL MONTAJE DE GENOMAS ES UN PROCESO CLAVE EN EL ANÁLISIS DE DATOS GENÓMICOS.

1. VELVET:
- PREPARACIÓN DE LOS DATOS:
ORGANIZA TUS DATOS GENÓMICOS EN FORMATO FASTQ, QUE
CONTIENE LAS SECUENCIAS DE ADN Y SU CALIDAD ASOCIADA.

- EJECUCIÓN DE VELVET:
UTILIZA EL COMANDO `VELVETH` PARA CREAR UNA BASE DE DATOS
DE K-MERS Y LUEGO UTILIZA `VELVETG` PARA GENERAR UN
ENSAMBLAJE DEL GENOMA.
-
Ajuste de parámetros:
Puedes ajustar los parámetros de Velvet según tus necesidades,
como el tamaño de los k-mers y los umbrales de cobertura.

- Análisis del ensamblaje:


Examina el ensamblaje resultante utilizando herramientas como
VelvetOptimiser o evaluando la calidad del ensamblaje con
métricas como N50 y número de contigs.
3. SPAdes:
- Preparación de los datos: Almacena tus datos genómicos en
formato FASTQ o FASTA.
- Ejecución de SPAdes: Utiliza el comando `spades.py` para
ejecutar el ensamblaje del genoma utilizando los parámetros
predeterminados.
- Ajuste de parámetros: Si lo deseas, puedes ajustar los
parámetros de SPAdes para obtener un mejor ensamblaje,
como el tamaño de los k-mers y las opciones de corrección de
errores.
- Análisis del ensamblaje: Al igual que con las otras
herramientas, evalúa el ensamblaje utilizando métricas como
N50 y número de contigs.
La anotación genómica es el proceso de identificar y asignar
funciones a las diversas características y elementos
presentes en un genoma.
Se utiliza para comprender mejor los genes, su estructura y
su función en un organismo. "August" y "Maker".

1. Augustus:
Se basa en algoritmos de aprendizaje automático y modelos ocultos de Markov
para predecir genes y estructuras genómicas en secuencias de ADN.
Augustus se puede utilizar para anotar genomas de diferentes especies y tiene
una interfaz de línea de comandos para su ejecución.
2. Maker:
Es una suite de herramientas de anotación genómica que integra varios
programas y algoritmos para realizar la anotación de genomas de manera
automatizada.
Maker utiliza enfoques de ab initio, alineamiento de secuencias y evidencia
experimental para predecir y anotar genes, así como otras características
genómicas como regiones reguladoras y elementos repetitivos.
PARA REALIZAR UN ANÁLISIS FILOGENÉTICO UTILIZANDO LAS
HERRAMIENTAS MEGA, RAXML Y PHYML,

1. MEGA (Molecular Evolutionary Genetics Analysis):


- Preparación de los datos: Organiza tus secuencias de ADN o proteínas en formato FASTA.
- Importación de datos: Abre MEGA y utiliza la función "Importar" para cargar tus secuencias.
- Alineamiento de secuencias: Utiliza el algoritmo de alineamiento múltiple, como ClustalW o
MUSCLE, para alinear tus secuencias.

- Construcción del árbol filogenético: Utiliza el método de construcción de árboles, como


Neighbor-Joining (NJ) o Maximum Likelihood (ML), para generar el árbol filogenético.
- Evaluación del árbol: Examina y evalúa el árbol generado utilizando herramientas de
visualización ymétricas de calidad del árbol.
2. RAxML:
- Preparación de los datos: Organiza tus secuencias en formato FASTA.
- Ejecución de RAxML: Es neceseario usar el comando para ejecutar el análisis
filogenético. Puedes especificar el modelo de sustitución y otros parámetros según
tus necesidades.
- Evaluación del árbol: Examina y evalúa el árbol filogenético generado utilizando
herramientas de visualización y métricas de calidad del árbol.

3. PhyML:
- Preparación de los datos: Primero organiza tus secuencias en formato FASTA.
- Ejecución de PhyML: Despues usando el comando PhyML para ejecutar el
análisis filogenético. Puedes especificar el modelo de sustitución y otros
parámetros según tus necesidades.
- Evaluación del árbol: Examina y evalúa el árbol filogenético generado
utilizando herramientas de visualización y métricas de calidad del árbol.
PARA REALIZAR LA PREDICCIÓN Y MODELADO DE ESTRUCTURAS PROTEICAS
UTILIZANDO SWISS-MODEL Y PHYRE2, PUEDES SEGUIR LOS SIGUIENTES PASOS:

1. SWISS-MODEL:
- Preparación de los datos: Obtén la secuencia de aminoácidos de la proteína de interés.
- Acceso a SWISS-MODEL: Ingresa al sitio web (https://swissmodel.expasy.org/) y
selecciona la opción de "Modelado de estructuras" o "Structure Modeling".
- Carga de la secuencia: Copia y pega la secuencia de aminoácidos en el campo
correspondiente.
- Selección del modelo: SWISS-MODEL buscará automáticamente modelos estructurales
homólogos disponibles en su base de datos y te mostrará una lista de posibles modelos
para seleccionar.
- Generación del modelo: Selecciona el modelo deseado y haz clic en "Build Model" o
"Generar modelo" para que SWISS-MODEL genere el modelo estructural para tu proteína.
- Evaluación del modelo: Analiza y evalúa el modelo generado utilizando herramientas de
visualización y métricas de calidad del modelo.
2. PHYRE2:
- PREPARACIÓN DE LOS DATOS: OBTÉN LA SECUENCIA DE AMINOÁCIDOS DE LA
PROTEÍNA DE INTERÉS.
- ACCESO A PHYRE2: INGRESA AL SITIO WEB DE PHYRE2
(HTTP://WWW.SBG.BIO.IC.AC.UK/PHYRE2/) Y SELECCIONA LA OPCIÓN DE "SUBMIT A
QUERY" O "ENVIAR UNA CONSULTA".
- CARGA DE LA SECUENCIA: COPIA Y PEGA LA SECUENCIA DE AMINOÁCIDOS EN EL
CAMPO CORRESPONDIENTE.
- ENVÍO DE LA CONSULTA: HAZ CLIC EN "SUBMIT" O "ENVIAR" PARA ENVIAR TU
CONSULTA Y COMENZAR EL PROCESO DE PREDICCIÓN Y MODELADO.
- GENERACIÓN DEL MODELO: PHYRE2 UTILIZARÁ ALGORITMOS DE RECONOCIMIENTO
DE PLEGAMIENTO DE PROTEÍNAS Y MODELADO POR HOMOLOGÍA PARA GENERAR UN
MODELO ESTRUCTURAL PARA TU PROTEÍNA.
- EVALUACIÓN DEL MODELO: ANALIZA Y EVALÚA EL MODELO GENERADO
UTILIZANDO HERRAMIENTAS DE VISUALIZACIÓN Y MÉTRICAS DE CALIDAD DEL
MODELO.
METAGENÓMICA
Es un campo de estudio que se centra en el análisis de los
genomas de comunidades microbianas presentes en
diferentes entornos.

Tanto QIIME como MetaPhlAn son herramientas utilizadas


en el análisis de datos de metagenómica, pero tienen
diferentes enfoques y aplicaciones.
QIIME (Quantitative Insights Into Microbial Ecology): Es
un paquete de software diseñado específicamente para
el análisis y la interpretación de datos de secuenciación
de amplicones, que son fragmentos de ADN MetaPhlAn (Metagenomic Phylogenetic
amplificados y secuenciados para identificar y Analysis): es una herramienta de análisis de
cuantificar la diversidad microbiana en una muestra. metagenómica que se utiliza para perfilar la
composición taxonómica de comunidades
microbianas a partir de datos de
secuenciación de metagenomas shotgun. A
QIIME se utiliza principalmente en estudios de
microbiomas basados ​en secuenciación de genes 16S diferencia de QIIME, que se centra en la
rRNA, que es ampliamente utilizado para la secuenciación de genes específicos,
caracterización de comunidades microbianas.
Proporciona una amplia gama de herramientas para el
procesamiento, análisis y visualización de datos de
secuenciación de amplicones. MetaPhlAn utiliza marcadores genéticos
específicos de clados microbianos para
realizar asignaciones taxonómicas precisas y
estimar la abundancia relativa de organismos
en una muestra.
En el análisis de expresión diferencial, tanto DESeq2 como edgeR son dos métodos ampliamente
utilizados. Ambas herramientas se utilizan para identificar genes que están diferencialmente
expresados entre diferentes condiciones o grupos de muestras en estudios de RNA-seq.

DESeq2: DESeq2 es una herramienta de análisis de expresión


diferencial que utiliza un modelo estadístico basado en una
distribución negativa binomial. DESeq2 tiene en cuenta la
variabilidad inherente en los datos de RNA-seq, como la
relación entre la media y la varianza, y ajusta los datos para
obtener estimaciones precisas de la expresión diferencial.
edgeR:
Es otra herramienta popular para el análisis de expresión diferencial
en datos de RNA-seq.
Utiliza un modelo estadístico basado en una distribución binomial
negativa y utiliza el enfoque de librerías comunes o "common
dispersion" para estimar la variabilidad técnica. edgeR también tiene
en cuenta factores como la composición de la biblioteca y el tamaño
de la muestra. Proporciona estimaciones de la expresión diferencial
y valores p ajustados.
BASE DE DATOS BIOLOGICOS Y ONTOLOGICOS

Estas bases de datos almacenan y organizan información sobre secuencias genéticas,


estructuras de proteínas, funciones biológicas y más.
Son herramientas esenciales para los científicos e investigadores, ya que les permiten
acceder, analizar y compartir datos relevantes en sus estudios.

Gen bank
Es una base de datos mantenida por el NationalCenter for Biotechnology
Information (NCBI). Almacena secuencias de ADN y ARN de diferentes
organismos. Los científicos pueden enviar nuevas secuencias a GenBank y
acceder a las secuencias existentes. GenBank también proporciona anotaciones
y metadatos asociados a las secuencias, lo que facilita el análisis y la
interpretación de los datos genéticos.
EMBL
EMBL (EUROPEAN MOLECULAR BIOLOGY LABORATORY) ES OTRA BASE DE DATOS QUE
ALMACENA SECUENCIAS DE ADN Y ARN. ES UTILIZADA PRINCIPALMENTE POR CIENTÍFICOS
EUROPEOS, AUNQUE ESTÁ ACCESIBLE PARA INVESTIGADORES DE TODO EL MUNDO. EMBL
TAMBIÉN PROPORCIONA INFORMACIÓN SOBRE ESTRUCTURAS DE PROTEÍNAS, SECUENCIAS
SIMILARES Y OTRAS CARACTERÍSTICAS RELACIONADAS CON LA BIOLOGÍA MOLECULAR.

BANCO DE DATOS DE PROTEINAS


El Banco de Datos de Proteínas (Protein Data Bank, PDB) es una base de datos que
almacena información sobre estructuras tridimensionales de proteínas. Contiene datos
sobre la estructura, función y propiedades de las proteínas determinadas
experimentalmente. El PDB es una herramienta fundamental para el estudio de la estructura
y función de las proteínas, y se utiliza en áreas como la bioquímica, la biología estructural y
la medicina.
ONTOLOGIA GENETICA
La Gene Ontology (GO), es una base de conocimientos que describe las relaciones
y propiedades de los genes y sus funciones biológicas. Estas ontologías
proporcionan términos y relaciones para describir las funciones de los genes y
proteínas, los procesos celulares en los que participan y los componentes celulares
en los que se encuentran.
La ontología genética ayuda a los científicos a analizar y comprender la información
genética en un contexto funcional.
Estas bases de datos y ontologías genéticas son herramientas esenciales en la
investigación biológica y genómica. Los científicos las utilizan para acceder a
información genética y funcional, realizar análisis comparativos, estudiar la
evolución de las especies y comprender los procesos biológicos a nivel molecular.
LOS SISTEMAS DE INFORMACIÓN GEOGRÁFICA (SIG) PUEDEN SER APLICADOS EN LA
BIOTECNOLOGÍA DE DIVERSAS FORMAS. A CONTINUACIÓN, SE MENCIONAN ALGUNAS
DE LAS APLICACIONES COMUNES:

ANALISIS DE DISTRIBUCION GEOGRAFICA DE ESPECIES


Los SIG pueden utilizarse para analizar la distribución geográfica de especies y su relación
con factores ambientales. Esto es especialmente útil en la biotecnología para identificar
áreas donde ciertas especies pueden encontrarse o para estudiar la distribución de
organismos genéticamente modificados.

ESTUDIO DE GENOMICA COMPARATIVA


Los SIG pueden utilizarse para analizar y comparar secuencias genéticas de diferentes
organismos en función de su ubicación geográfica. Esto puede ayudar a identificar
patrones genéticos específicos de ciertas regiones geográficas y comprender mejor la
evolución y la diversidad genética de las especies.
MONITOREO DE RECURSOS NATURALES
Los SIG pueden utilizarse para monitorear y gestionar los recursos naturales en el
contexto de la biotecnología. Se pueden utilizar para rastrear la distribución de
cultivos genéticamente modificados, identificar áreas de conservación de
biodiversidad o analizar la disponibilidad de recursos genéticos en diferentes regiones
geográficas.

ESTUDIO DE GENOMICA COMPARATIVA


Los SIG pueden utilizarse para planificar ensayos y experimentos en
biotecnología. Por ejemplo, se pueden utilizar para seleccionar
ubicaciones estratégicas para la recolección de muestras, identificar
áreas con características ambientales específicas para realizar
pruebas de campo o para planificar la distribución de parcelas
experimentales en función de variables geográficas.
ANALISIS DE RIESGOS AMBIENTALES

Los SIG pueden utilizarse para evaluar y gestionar los


riesgos ambientales asociados con la biotecnología. Por
ejemplo, se pueden utilizar para identificar áreas sensibles
o protegidas donde no se deben realizar ciertos
experimentos o para evaluar el impacto potencial de la
liberación de organismos genéticamente modificados en el
medio ambiente.
¡gracias!

También podría gustarte