Practica 12. Mutacion Genica

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 24

PRÁCTICA 12.

MUTACIÓN GÉNICA
OBJETIVO
Interpreta casos de mutación génica mediante recursos de la web
FUNDAMENTO
Las mutaciones entendidas como un cambio en la secuencia de nucleotidos o de
los aminoácidos de una molecula de ADN/ARN o una proteína han venido, siguen
y seguirán ocurriendo en la historia de la vida, siendo los más susceptibles los
microorganismos por su corto ciclo reproductivo, lo cual se hizo patente en el caso
de SARS CoV-2 que dio el salto evolutivo para adaptarse a una amplia gama de
huespedes mamíferos siendo capaz de interactuar con el receptor de la ECA2
(Enzima Convertidora de Angiotensina 2), desencadenando una tormenta de
citoquinas y evadiendo en muchos casos la respuesta del sistema inmune.
Algunos conceptos básicos para entender este proceso mutacional en SARS CoV-
2 son:

 Mutación: una mutación se refiere a un cambio único en el genoma del


virus (código genético). Las mutaciones ocurren con frecuencia, pero
solo a veces modifican las características del virus.
 Linaje: un linaje es un grupo de virus estrechamente relacionados con un
ancestro en común. El SARS-CoV-2 tiene muchos linajes; todos
causan el COVID-19.
 Sublinaje: término utilizado para definir un linaje en relación con un
descendiente directo de su linaje de origen. Por ejemplo, BA.2.75 es un
sublinaje de BA.2.
 Variante: una variante es un genoma viral (código genético) que puede
incluir una o más mutaciones. En algunos casos, un linaje o grupo de
linajes con cambios genéticos similares puede ser designado por la
Organización Mundial de la Salud (OMS) o el Grupo Interagencial del
SARS-CoV-2 (SIG) de los EE. UU. como una variante de interés (VOI,
por sus siglas en inglés), una variante de preocupación (VOC, por sus
siglas en inglés), una variante de gran consecuencia (VOHC, por sus
siglas en inglés) o una variante bajo monitoreo (VBM, por sus siglas en
inglés) debido a atributos y características compartidas que pueden
requerir medidas de salud pública.
 Recombinación: proceso en el que los genomas de dos variantes del
SARS-CoV-2 se combinan durante el proceso de replicación viral para
formar una nueva variante que es diferente de los dos linajes de origen.
Esto puede ocurrir cuando una persona se infecta por dos variantes al
mismo tiempo. El linaje resultante de la recombinación se denomina
"recombinante".

METODOLOGÍA
MATERIALES
 Internet
 Programa R
PROCEDIMIENTO
#Descargamos los paquetes que contienen las funciones y herramientas
necesarias
#para trabajar con los datos biológicos

library(viridisLite)
library(ape)
library(ade4)
library(seqinr)
library(adegenet)
library(Biostrings)
library(DECIPHER)
library(ggtree)
library(ggplot2)
library(tidyr)

#Utilizamos el getwd() para usar el directorio de trabajo actual


#y el setwd() le da a R una dirección a un directorio diferente
#para que ahi mismo se almacene y guarde la lectura y escritura de
archivos.

getwd()
## [1] "C:/Users/alang/Documents/Tec/Tareas/Analisis de Biologia
Computacional"
setwd("C:/Users/alang/Documents/Tec/Tareas/Analisis de Biologia
Computacional")
#EJERCICIO 1
#Obtener los 10 genomas de diferentes países

corona_virus <- c("NC_045512", "OP435368", "OQ918256", "BS007312",


"OQ913932", "OP848485", "ON291271", "MT994849",
"OK096766", "MW466791")

# Leer archivo GenBank


virus_sequences <- read.GenBank(corona_virus)
write.dna(virus_sequences,file = "virus_coronavirus",format = "fasta")
#EJERCICIO 2
#Longitud de las secuencias de cada variante

enumerar <- c(1:10)

longitud <- sapply(virus_sequences, length)


gen_long <- data.frame(Numero_Genoma = enumerar, Secuencia_ID =
corona_virus, Longitud = longitud)

print(gen_long,row.names = FALSE)
## Numero_Genoma Secuencia_ID Longitud
## 1 NC_045512 29903
## 2 OP435368 29799
## 3 OQ918256 29010
## 4 BS007312 29737
## 5 OQ913932 29660
## 6 OP848485 29714
## 7 ON291271 29689
## 8 MT994849 29819
## 9 OK096766 29766
## 10 MW466791 29902
#EJERCICIO 3
#Gráfico de longitudes

grafica_longitud <- ggplot(gen_long, aes(x = Secuencia_ID, y = Longitud,


fill = Secuencia_ID)) +
geom_bar(stat = "identity") +
labs(x = "Virus", y = "Longitud", title = "Longitud de Sars-Cov-2 de
diferentes países") +
theme(axis.text.x = element_text(size = 8),
axis.text.y = element_text(size = 8),
axis.title.x = element_text(face = "bold"),
axis.title.y = element_text(face = "bold"),
plot.title = element_text(face = "bold", size = 13))

grafica_longitud

Se puede observar que los virus mostrados en la gráfica tienen un cambio muy leve en
el tamaño de las secuencias. Esto significa que evidentemente dependiendo de la zona
geográfica que se encuentre el virus puede variar su longitud en un porcentaje bastante
pequeño. Al observar que el virus casi se mantiene igual en las diferentes zonas
geográficas y tiempo transcurrido, indica que se ha mantenido muy parecido a como
era desde un principio, teniendo una evolución lenta.
Además los virus que se están analizando tienen entre 1 a 2 años de diferencia, por lo
que es otra variable que tiene un impacto en este “leve” cambio. Estos hallazgos
podrían tener implicaciones en el desarrollo de tratamientos y vacunas contra el virus,
así como en la comprensión de la evolución y la propagación del virus en todo el
mundo.
#EJERCICIO 5
#Comosición de nucleotidos de cada genoma

virus_sequences_character <- c(as.character(virus_sequences))


nucleotidos_gen <- sapply(virus_sequences_character,count,1)

nucleotidos_gen
## NC_045512 OP435368 OQ918256 BS007312 OQ913932 OP848485 ON291271
MT994849
## a 8954 8907 5827 8890 8867 8872 8867
8905
## c 5492 5454 3618 5437 5427 5458 5439
5484
## g 5863 5838 3840 5827 5814 5833 5827
5852
## t 9594 9599 6402 9583 9540 9550 9555
9578
## OK096766 MW466791
## a 8889 8953
## c 5458 5493
## g 5842 5862
## t 9577 9594
#EJERCICIO 6
#Gráfica nucleótidos de cada genoma

nucleotidos <- as.data.frame(nucleotidos_gen)

nucleotidos
## NC_045512 OP435368 OQ918256 BS007312 OQ913932 OP848485 ON291271
MT994849
## a 8954 8907 5827 8890 8867 8872 8867
8905
## c 5492 5454 3618 5437 5427 5458 5439
5484
## g 5863 5838 3840 5827 5814 5833 5827
5852
## t 9594 9599 6402 9583 9540 9550 9555
9578
## OK096766 MW466791
## a 8889 8953
## c 5458 5493
## g 5842 5862
## t 9577 9594
#-------NC_045512------------------------------------------

# Definir colores
colores <- c("skyblue", "steelblue", "navy", "darkgreen")

# Crear gráfico de barras


grafica_nucleotidos <- ggplot(nucleotidos, aes(x = rownames(nucleotidos),
y = NC_045512, fill = rownames(nucleotidos))) +
geom_bar(stat = "identity") +
labs(x = "Base nitrogenada", y = "Cantidad", title = "Composición de
nucleótidos del genoma NC_045512") +
scale_x_discrete(labels = c("A", "C", "G", "T")) +
scale_fill_manual(values = colores) +
theme(axis.text.x = element_text(face = "bold"),
axis.text.y = element_text(face = "bold"),
axis.title.x = element_text(face = "bold"),
axis.title.y = element_text(face = "bold"),
plot.title = element_text(face = "bold", size = 13))

# Imprimir gráfico
print(grafica_nucleotidos)

#------
OP435368---------------------------------------------------------------

# Definir colores
colores <- c("skyblue", "steelblue", "navy", "darkgreen")

# Crear gráfico de barras


grafica_nucleotidos2 <- ggplot(nucleotidos, aes(x =
rownames(nucleotidos), y = OP435368, fill = rownames(nucleotidos))) +
geom_bar(stat = "identity") +
labs(x = "Base nitrogenada", y = "Cantidad", title = "Composición de
nucleótidos del genoma OP435368") +
scale_x_discrete(labels = c("A", "C", "G", "T")) +
scale_fill_manual(values = colores) +
theme(axis.text.x = element_text(face = "bold"),
axis.text.y = element_text(face = "bold"),
axis.title.x = element_text(face = "bold"),
axis.title.y = element_text(face = "bold"),
plot.title = element_text(face = "bold", size = 13))
# Imprimir gráfico
print(grafica_nucleotidos2)

#--------
OQ918256-------------------------------------------------------------

colores <- c("skyblue", "steelblue", "navy", "darkgreen")

# Crear gráfico de barras


grafica_nucleotidos3 <- ggplot(nucleotidos, aes(x =
rownames(nucleotidos), y = OQ918256, fill = rownames(nucleotidos))) +
geom_bar(stat = "identity") +
labs(x = "Base nitrogenada", y = "Cantidad", title = "Composición de
nucleótidos del genoma OQ918256") +
scale_x_discrete(labels = c("A", "C", "G", "T")) +
scale_fill_manual(values = colores) +
theme(axis.text.x = element_text(face = "bold"),
axis.text.y = element_text(face = "bold"),
axis.title.x = element_text(face = "bold"),
axis.title.y = element_text(face = "bold"),
plot.title = element_text(face = "bold", size = 13))

# Imprimir gráfico
print(grafica_nucleotidos3)
#----------
BS007312-----------------------------------------------------------

colores <- c("skyblue", "steelblue", "navy", "darkgreen")

# Crear gráfico de barras


grafica_nucleotidos4 <- ggplot(nucleotidos, aes(x =
rownames(nucleotidos), y = BS007312, fill = rownames(nucleotidos))) +
geom_bar(stat = "identity") +
labs(x = "Base nitrogenada", y = "Cantidad", title = "Composición de
nucleótidos del genoma BS007312") +
scale_x_discrete(labels = c("A", "C", "G", "T")) +
scale_fill_manual(values = colores) +
theme(axis.text.x = element_text(face = "bold"),
axis.text.y = element_text(face = "bold"),
axis.title.x = element_text(face = "bold"),
axis.title.y = element_text(face = "bold"),
plot.title = element_text(face = "bold", size = 13))

# Imprimir gráfico
print(grafica_nucleotidos4)
#---------OQ913932-----------------------------------

colores <- c("skyblue", "steelblue", "navy", "darkgreen")

# Crear gráfico de barras


grafica_nucleotidos5 <- ggplot(nucleotidos, aes(x =
rownames(nucleotidos), y = OQ913932, fill = rownames(nucleotidos))) +
geom_bar(stat = "identity") +
labs(x = "Base nitrogenada", y = "Cantidad", title = "Composición de
nucleótidos del genoma OQ913932") +
scale_x_discrete(labels = c("A", "C", "G", "T")) +
scale_fill_manual(values = colores) +
theme(axis.text.x = element_text(face = "bold"),
axis.text.y = element_text(face = "bold"),
axis.title.x = element_text(face = "bold"),
axis.title.y = element_text(face = "bold"),
plot.title = element_text(face = "bold", size = 13))

# Imprimir gráfico
print(grafica_nucleotidos5)
#---------OP848485----------------------------------
colores <- c("skyblue", "steelblue", "navy", "darkgreen")

# Crear gráfico de barras


grafica_nucleotidos6 <- ggplot(nucleotidos, aes(x =
rownames(nucleotidos), y = OP848485, fill = rownames(nucleotidos))) +
geom_bar(stat = "identity") +
labs(x = "Base nitrogenada", y = "Cantidad", title = "Composición de
nucleótidos del genoma OP848485") +
scale_x_discrete(labels = c("A", "C", "G", "T")) +
scale_fill_manual(values = colores) +
theme(axis.text.x = element_text(face = "bold"),
axis.text.y = element_text(face = "bold"),
axis.title.x = element_text(face = "bold"),
axis.title.y = element_text(face = "bold"),
plot.title = element_text(face = "bold", size = 13))

# Imprimir gráfico
print(grafica_nucleotidos6)
#---------ON291271--------------------------------
colores <- c("skyblue", "steelblue", "navy", "darkgreen")

# Crear gráfico de barras


grafica_nucleotidos7 <- ggplot(nucleotidos, aes(x =
rownames(nucleotidos), y = ON291271, fill = rownames(nucleotidos))) +
geom_bar(stat = "identity") +
labs(x = "Base nitrogenada", y = "Cantidad", title = "Composición de
nucleótidos del genoma ON291271") +
scale_x_discrete(labels = c("A", "C", "G", "T")) +
scale_fill_manual(values = colores) +
theme(axis.text.x = element_text(face = "bold"),
axis.text.y = element_text(face = "bold"),
axis.title.x = element_text(face = "bold"),
axis.title.y = element_text(face = "bold"),
plot.title = element_text(face = "bold", size = 13))

# Imprimir gráfico
print(grafica_nucleotidos7)
#----------MT994849----------------------------

colores <- c("skyblue", "steelblue", "navy", "darkgreen")

# Crear gráfico de barras


grafica_nucleotidos8 <- ggplot(nucleotidos, aes(x =
rownames(nucleotidos), y = MT994849, fill = rownames(nucleotidos))) +
geom_bar(stat = "identity") +
labs(x = "Base nitrogenada", y = "Cantidad", title = "Composición de
nucleótidos del genoma MT994849") +
scale_x_discrete(labels = c("A", "C", "G", "T")) +
scale_fill_manual(values = colores) +
theme(axis.text.x = element_text(face = "bold"),
axis.text.y = element_text(face = "bold"),
axis.title.x = element_text(face = "bold"),
axis.title.y = element_text(face = "bold"),
plot.title = element_text(face = "bold", size = 13))

# Imprimir gráfico
print(grafica_nucleotidos8)
#----------OK096766--------------------------

colores <- c("skyblue", "steelblue", "navy", "darkgreen")

# Crear gráfico de barras


grafica_nucleotidos9 <- ggplot(nucleotidos, aes(x =
rownames(nucleotidos), y = OK096766, fill = rownames(nucleotidos))) +
geom_bar(stat = "identity") +
labs(x = "Base nitrogenada", y = "Cantidad", title = "Composición de
nucleótidos del genoma OK096766") +
scale_x_discrete(labels = c("A", "C", "G", "T")) +
scale_fill_manual(values = colores) +
theme(axis.text.x = element_text(face = "bold"),
axis.text.y = element_text(face = "bold"),
axis.title.x = element_text(face = "bold"),
axis.title.y = element_text(face = "bold"),
plot.title = element_text(face = "bold", size = 13))

# Imprimir gráfico
print(grafica_nucleotidos9)
#---------MW466791-----------------------------

colores <- c("skyblue", "steelblue", "navy", "darkgreen")

# Crear gráfico de barras


grafica_nucleotidos10 <- ggplot(nucleotidos, aes(x =
rownames(nucleotidos), y = MW466791, fill = rownames(nucleotidos))) +
geom_bar(stat = "identity") +
labs(x = "Base nitrogenada", y = "Cantidad", title = "Composición de
nucleótidos del genoma MW466791") +
scale_x_discrete(labels = c("A", "C", "G", "T")) +
scale_fill_manual(values = colores) +
theme(axis.text.x = element_text(face = "bold"),
axis.text.y = element_text(face = "bold"),
axis.title.x = element_text(face = "bold"),
axis.title.y = element_text(face = "bold"),
plot.title = element_text(face = "bold", size = 13))

# Imprimir gráfico
print(grafica_nucleotidos10)
Las gráficas muestran la composición de nucleótidos en 10 genomas secuenciados
(todos provenientes del virus SARS-coV-2). En general se observa que las cantidades
de las bases nitrogenadas cambian ligeramente. Aunque hay pequeñas variaciones en
la cantidad de cada tipo de nucleótido, la composición general sigue siendo similar en
todos los genomas.
En resumen, estos resultados sugieren que la estructura genética del Sars-Cov-2 no ha
sufrido cambios significativos en su composición de nucleótidos recientemente. La alta
proporción de Timina y Adenina tiene relación con el cómo se adapta el virus al entrar a
las células de las personas infectadas, y también se relaciona con la capacidad del
virus a su capacidad para evadir la respuesta inmunológica de quien es infectado. Sin
embargo, es importante tener en cuenta que la información proporcionada se refiere
solo a la composición de nucleótidos y no a la función de los genes individuales, que
pueden haber experimentado cambios o mutaciones en el tiempo.
#EJERCICIO 8
#Calcula el %GC de cada variante

NC_045512_GC <- GC(virus_sequences_character[[1]])*100


OP435368_GC <- GC(virus_sequences_character[[2]])*100
OQ918256_GC <- GC(virus_sequences_character[[3]])*100
BS007312_GC <- GC(virus_sequences_character[[4]])*100
OQ913932_GC <- GC(virus_sequences_character[[5]])*100
OP848485_GC <- GC(virus_sequences_character[[6]])*100
ON291271_GC <- GC(virus_sequences_character[[7]])*100
MT994849_GC <- GC(virus_sequences_character[[8]])*100
OK096766_GC <- GC(virus_sequences_character[[9]])*100
MW466791_GC <- GC(virus_sequences_character[[10]])*100
gc_porcentaje <- c(NC_045512_GC, OP435368_GC, OQ918256_GC, BS007312_GC,
OQ913932_GC, OP848485_GC, ON291271_GC, MT994849_GC, OK096766_GC,
MW466791_GC)
genomas <- c("NC_045512", "OP435368", "OQ918256", "BS007312", "OQ913932",
"OP848485", "ON291271", "MT994849", "OK096766", "MW466791")
gc_final <- data.frame(Genoma = genomas, GC_Porcentaje = gc_porcentaje)

gc_final
## Genoma GC_Porcentaje
## 1 NC_045512 37.97278
## 2 OP435368 37.89516
## 3 OQ918256 37.88287
## 4 BS007312 37.87874
## 5 OQ913932 37.91487
## 6 OP848485 38.00020
## 7 ON291271 37.94799
## 8 MT994849 38.01603
## 9 OK096766 37.96278
## 10 MW466791 37.97405
#EJERCICIO 9

ggplot(gc_final, aes(x = Genoma, y = GC_Porcentaje, fill = Genoma)) +


geom_bar(stat = "identity") +
labs(x = "Genoma", y = "Porcentaje de GC", title = "Porcentaje de GC de
cada genoma de SARS-CoV-2") +
theme(axis.text.x = element_text(size = 8),
axis.text.y = element_text(size = 9),
axis.title.x = element_text(face = "bold"),
axis.title.y = element_text(face = "bold"),
plot.title = element_text(face = "bold", size = 14))

La gráfica muestra una composición de nucleótidos GC (guanina y citosina) en el virus


SARS-COV-2. Al observar la gráfica nos damos cuenta que los valores de Citosina y
Guanina casi no cambian. Por ejemplo el valor del porcentaje de GC del primer adn del
covid-19 encontrado es de 37.97278%, y el más lejano es de 38.00020%, el cual su país
proveniente es Irán. En base a esta información se puede inferir que la zona geográfica
puede llegar a tener un impacto, sin embargo el cambio sería menos del 1%.
En caso de que el virus tuviera alteraciones en los porcentajes de GC, esto indicaría
una evolución más drástica y podría generar nuevas capacidades de transmisión y
alojamiento, lo que dificultará el desarrollo de tratamientos efectivos. Por lo tanto, la
estabilidad en la composición de nucleótidos GC es una ventaja para la humanidad, en
cuanto al control y tratamiento del SARS-COV-2.
#EJERCICIO 11

virus_nombre <- rep("SARS-coV-2",10)


pais <- c("China","Finlandia","India","Japón","Estdos
Unidos","Australia","Francia","Iran","Alemania","Corea del Sur")
gc_genomas <- sapply(virus_sequences_character, function(x) GC(x) * 100)

dataFrameFinal <- data.frame(Virus = virus_nombre, ID =


corona_virus,País_de_Origen = pais, Longitud = longitud, Porcentaje_GC =
gc_genomas)

print(dataFrameFinal, row.names = FALSE)


## Virus ID País_de_Origen Longitud Porcentaje_GC
## SARS-coV-2 NC_045512 China 29903 37.97278
## SARS-coV-2 OP435368 Finlandia 29799 37.89516
## SARS-coV-2 OQ918256 India 29010 37.88287
## SARS-coV-2 BS007312 Japón 29737 37.87874
## SARS-coV-2 OQ913932 Estdos Unidos 29660 37.91487
## SARS-coV-2 OP848485 Australia 29714 38.00020
## SARS-coV-2 ON291271 Francia 29689 37.94799
## SARS-coV-2 MT994849 Iran 29819 38.01603
## SARS-coV-2 OK096766 Alemania 29766 37.96278
## SARS-coV-2 MW466791 Corea del Sur 29902 37.97405

Evidencia 2 | Análisis Final


library(Biostrings)
library(ade4)
library(seqinr)
library(adegenet)
library(ape)
library(DECIPHER)
library(phytools)
library(maps)
library(viridis)
library(viridisLite)
library(ggtree)
library(ggplot2)
setwd("C:/Users/alang/Documents/Tec/Tareas/Analisis de Biologia
Computacional")
corona_virus <- c("NC_045512", "OP435368", "OQ918256", "BS007312",
"OQ913932", "OP848485", "ON291271", "MT994849",
"OK096766", "MW466791")

virus_sequences <- read.GenBank(corona_virus)


virus_sequences
## 10 DNA sequences in binary format stored in a list.
##
## Mean sequence length: 29699.9
## Shortest sequence: 29010
## Longest sequence: 29903
##
## Labels:
## NC_045512
## OP435368
## OQ918256
## BS007312
## OQ913932
## OP848485
## ...
##
## Base composition:
## a c g t
## 0.299 0.183 0.196 0.322
## (Total: 297 kb)
write.dna(virus_sequences, file = "coronavirus_seqs.fasta", format =
"fasta")
virus_seq_not_align <- readDNAStringSet("coronavirus_seqs.fasta", format
= "fasta")
class(virus_seq_not_align)
## [1] "DNAStringSet"
## attr(,"package")
## [1] "Biostrings"
virus_seq_not_align
## DNAStringSet object of length 10:
## width seq names
## [1] 29903 ATTAAAGGTTTATACCTTCCCAG...AAAAAAAAAAAAAAAAAAAAAA NC_045512
## [2] 29799 TAAAGGTTTATACCTTCCCAGGT...ATCCCCATGTGATTTTAATAGC OP435368
## [3] 29010 AGTTACGGCGCCGATCTAAAGTC...ACATAGCAATCTTTAATCAGTG OQ918256
## [4] 29737 CTGTTCTCTAAACGAACTTTAAA...ATCCCCATGTGATTTTAATAGC BS007312
## [5] 29660 CTGCATGCTTAGTGCACTCACGC...AGAGCCCTAATGTGTAAAATTA OQ913932
## [6] 29714 AGATCTGTTCTCTAAACGAACTT...GTACGATCGAGTGTACAGTGAA OP848485
## [7] 29689 GGCTGCATGCTTAGTGCACTCAC...GAGCTGCCTATATGGAAGAGCC ON291271
## [8] 29819 GATCTCTTGTAGATCTGTTCTCT...TGATTTTAATAGCTTCTTAGGA MT994849
## [9] 29766 CTTTCGATCTCTTGTAGATCTGT...AGAGCCCTAATGTGTAAAATTA OK096766
## [10] 29902 TTAAAGGTTTATACCTTCCCAGG...AAAAAAAAAAAAAAAAAAAAAA MW466791
virus_seq_not_align_150 <- virus_seq_not_align[,1:150]
virus_seq_not_align_150 <- OrientNucleotides(virus_seq_not_align_150)
##
=========================================================================
=========================================================================
======================================================
##
## Time difference of 0.1 secs
virus_seq_align_150 <- AlignSeqs(virus_seq_not_align_150)
## Determining distance matrix based on shared 11-mers:
##
=========================================================================
=======
##
## Time difference of 0.09 secs
##
## Clustering into groups by similarity:
##
=========================================================================
=======
##
## Time difference of 0 secs
##
## Aligning Sequences:
##
=========================================================================
=======
##
## Time difference of 1.03 secs
##
## Iteration 1 of 2:
##
## Determining distance matrix based on alignment:
##
=========================================================================
=======
##
## Time difference of 0 secs
##
## Reclustering into groups by similarity:
##
=========================================================================
=======
##
## Time difference of 0 secs
##
## Realigning Sequences:
##
=========================================================================
=======
##
## Time difference of 0.68 secs
##
## Iteration 2 of 2:
##
## Determining distance matrix based on alignment:
##
=========================================================================
=======
##
## Time difference of 0 secs
##
## Reclustering into groups by similarity:
##
=========================================================================
=======
##
## Time difference of 0 secs
##
## Realigning Sequences:
##
=========================================================================
=======
##
## Time difference of 0 secs
virus_seq_not_align_500_650 <- virus_seq_not_align[,500:650]
virus_seq_not_align_500_650 <-
OrientNucleotides(virus_seq_not_align_500_650)
##
=========================================================================
=========================================================================
======================================================
##
## Time difference of 0.09 secs
virus_seq_align_500_650 <- AlignSeqs(virus_seq_not_align_500_650)
## Determining distance matrix based on shared 11-mers:
##
=========================================================================
=======
##
## Time difference of 0.09 secs
##
## Clustering into groups by similarity:
##
=========================================================================
=======
##
## Time difference of 0 secs
##
## Aligning Sequences:
##
=========================================================================
=======
##
## Time difference of 0.78 secs
##
## Iteration 1 of 2:
##
## Determining distance matrix based on alignment:
##
=========================================================================
=======
##
## Time difference of 0 secs
##
## Reclustering into groups by similarity:
##
=========================================================================
=======
##
## Time difference of 0 secs
##
## Realigning Sequences:
##
=========================================================================
=======
##
## Time difference of 0.69 secs
##
## Iteration 2 of 2:
##
## Determining distance matrix based on alignment:
##
=========================================================================
=======
##
## Time difference of 0 secs
##
## Reclustering into groups by similarity:
##
=========================================================================
=======
##
## Time difference of 0 secs
##
## Realigning Sequences:
##
=========================================================================
=======
##
## Time difference of 0 secs
BrowseSeqs(virus_seq_align_150)
BrowseSeqs(virus_seq_align_500_650)

Alineamiento de las primeras 150 posiciones:

 
Alineamiento de los nucleótidos 500 -
650: 

writeXStringSet(virus_seq_align_150, file =
"coronavirus_seq_align_150.fasta")
writeXStringSet(virus_seq_align_500_650, file =
"coronavirus_seq_align_500_650.fasta")
virus_aligned_150 <- read.alignment("coronavirus_seq_align_150.fasta",
format = "fasta")
virus_aligned_500_650 <-
read.alignment("coronavirus_seq_align_500_650.fasta", format = "fasta")
matriz_distancia_150 <- dist.alignment(virus_aligned_150, matrix =
"similarity")
as.data.frame(as.matrix(matriz_distancia_150))
## NC_045512 OP435368 OQ918256 BS007312 OQ913932
OP848485
## NC_045512 0.00000000 0.04846804 0.07781622 0.05346393 0.05478950
0.02010042
## OP435368 0.04846804 0.00000000 0.09001291 0.02899489 0.03718789
0.04717302
## OQ918256 0.07781622 0.09001291 0.00000000 0.09335974 0.09391369
0.07814448
## BS007312 0.05346393 0.02899489 0.09335974 0.00000000 0.04228479
0.05226731
## OQ913932 0.05478950 0.03718789 0.09391369 0.04228479 0.00000000
0.05359023
## OP848485 0.02010042 0.04717302 0.07814448 0.05226731 0.05359023
0.00000000
## ON291271 0.03806550 0.05602042 0.07846940 0.06037448 0.06149377
0.03938625
## MT994849 0.02590335 0.05468998 0.08133328 0.05913820 0.06035513
0.03281722
## OK096766 0.03429741 0.05380012 0.07481574 0.05832708 0.05952401
0.03576956
## MW466791 0.01156823 0.04983360 0.07911324 0.05470744 0.05600719
0.02320528
## ON291271 MT994849 OK096766 MW466791
## NC_045512 0.03806550 0.02590335 0.03429741 0.01156823
## OP435368 0.05602042 0.05468998 0.05380012 0.04983360
## OQ918256 0.07846940 0.08133328 0.07481574 0.07911324
## BS007312 0.06037448 0.05913820 0.05832708 0.05470744
## OQ913932 0.06149377 0.06035513 0.05952401 0.05600719
## OP848485 0.03938625 0.03281722 0.03576956 0.02320528
## ON291271 0.00000000 0.04532882 0.03530290 0.03978858
## MT994849 0.04532882 0.00000000 0.04220017 0.02836998
## OK096766 0.03530290 0.04220017 0.00000000 0.03619696
## MW466791 0.03978858 0.02836998 0.03619696 0.00000000
tablas_grises_150 <- as.data.frame(as.matrix(matriz_distancia_150))
table.paint(tablas_grises_150, cleg = 0, clabel.row = .5, clabel.col =
.5)
library(phytools)
library(maps)

virus_tree <- nj(matriz_distancia_150)

virus_colors <- c("red", "blue", "#2E8B57", "purple","orange", "#008B8B",


"#8B795E", "#CD6090", "brown", "black")

virus_tree <- ladderize(virus_tree)

#Titulo
plot(virus_tree, main = "Arbol Filogenetico del virus SARS-COV2",
tip.color=virus_colors)

# Asignar nombres y ubicaciones a cada virus


virus_id <- c("NC_045512", "OP435368", "OQ918256", "BS007312",
"OQ913932", "OP848485", "ON291271", "MT994849", "OK096766", "MW466791")
virus_date <- c("China", "Finlandia", "India", "Japón", "USA",
"Australia", "Francia", "Irán", "Alemania", "Corea del Sur")

tip_dates <- data.frame(tips=virus_tree$tip.label, date = virus_date)

legend("bottomright", legend = paste(tip_dates$tips, " - (",


tip_dates$date, ")", sep = ""),
pch = 18, col = c("red", "blue", "#2E8B57", "purple", "orange",
"#008B8B", "#8B795E", "#CD6090", "brown", "black" ), pt.bg = "white",
title = "Codigo de Accesion - Ubicacion")
Este árbol filogenético es una representación gráfica que nos muestra las relaciones
evolutivas entre 10 virus tipo SARS-COV2. Fue construido mediante el análisis de
similitudes y diferencias en características como lo es la ubicación en el que se
manifestó el virus. Las ramas representan la divergencia de diferentes cepas de virus a
lo largo del tiempo y los nodos representan el punto donde ocurrieron divergencias en
la evolución de los virus, por ejemplo el virus con código de accesión OK96766,
detectado en Alemania, y el genoma originario de Francia ON291271 comparten un
ancestro en común, ya que sus ramas originaron en un mismo nodo. Con la
información anterior, se puede concluir que en ciertos casos los lugares cercanos
tendrán ancestros en común, debido a las variables que se toman en cuenta, como lo
puede ser el clima y el estilo de vida de las personas. Estos árboles son muy útiles para
conocer la evolución de características específicas en diferentes linajes de organismos.

Revisión especializada
Revisar el documento The genetic basis of disease
(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6279436/) y responder las
siguientes preguntas:
1. ¿Qué gen afectado conduce a hemofilia?
2. ¿Qué gen está involucrado en el síndrome de Rett?
3. ¿Qué es una mutación puntual?
4. ¿Qué es un indel?
5. ¿Qué produce y que caracteriza la enfermedad de Huntington?
6. ¿Qué produce y que caracteriza la acondroplasia?
7. ¿Qué produce y que caracteriza la fibrosis quística?

También podría gustarte