Module5 Session3

Download as pdf or txt
Download as pdf or txt
You are on page 1of 89

Introduc)on

 to  Bioinforma)cs  
Online  Course:  IBT  
Genomics  
Compara.ve  Genomics  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
Learning  Objec.ves  

Session  3:  
Compara.ve  Genomics  
 
Ÿ  Part  1:  (intro)  Compara)ve  Genomics:  what  is  it?    
Ÿ  Part  2:  Genomic  Varia)on  /  Compara)ve  Genomics:  WWWH?  
Ÿ  Part  3:  The  input  
Ÿ  Part  4:  The  methods  
Ÿ  Part  5:  The  output  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
Learning  Outcomes  

Session  1:  
Compara.ve  Genomics  
 
Ÿ  Navigate  through  genomic  ressources  to:  

►    Retrieve  informa)on  on  a  specific  gene    


(sequence,  variants,  orthologs…)  
 
►    View  and  interpret  genomic  alignments  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
Part  1  

(intro)  
Compara.ve  Genomics:  
What  is  it?  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
Compara.ve  Genomics:  a  defini.on  

Compara)ve   genomics   is   based   on   the   fact   that   a  


genomic  varia)on  is  happening  in  all  organisms.  
 
These   changes   affects   several   features   in   a   genome  
(structure,  organiza)on,  func)ons…).  
 
The   changes   could   help   monitor   evolu)on   between  
organisms  (species…)    

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
Compara.ve  Genomics:  a  defini.on  

Compara)ve   genomics   deals   with   the   process   of  


comparing   the   sequences   of   whole   or   parts   of  
genomes.  
 
Goal:    
-­‐  iden)fy   similari.es   and   differences   between  
features  in  these  genomes  
-­‐  Iden)fy   evolu.onary   rela.onship   between  
organisms  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
Compara.ve  Genomics:  a  defini.on  

Compara)ve  genomics  :  features  +  evolu.on  

ORGANISM  A1   ORGANISM  A2   ORGANISM  B  


GENOME  A1   GENOME  A2   GENOME  B  
FEATURES  A1   FEATURES  A2   FEATURE  B  

Adapted  from  hTp://receTes-­‐aymen.over-­‐blog.fr/  


hTp://quebueno.be/content/6  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
Part  2  

Genomic  Varia.on  &  


Compara.ve  Genomics:  
WWWH?  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
Genomic  varia.on  :  WWWH  

WHY  ?   WHEN  ?  

WHAT  ?   HOW  ?  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
Genomic  varia.on  :  WWWH  

WHY  ?  
Why  would  a  genome  evolve  ?  
 
WHEN  ?   à  Genomic  plas)city  allows  an  organism  to:    
 
-­‐  adapt  to  environmental  changes  
WHAT  ?  
-­‐  Find  the  best  evolu)on  path  
-­‐  Acquire  virulence  genes,  enhanced  pathogenicity  
HOW  ?  
-­‐  Resistance  to  drugs    
-­‐  Increase   survival   chances   of   members   of   a  
popula)on  
-­‐  …  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
Genomic  varia.on  :  WWWH  

Example  :  «  Genome  evolu+on    


WHY  ?   in  filamentous  
plant  pathogens  »  

WHEN  ?  

WHAT  ?  

HOW  ?  

(Raffaele  &  Kamoun,  2012)  


Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
Genomic  varia.on  :  WWWH  

WHY  ?  
Factors/events  
 
WHEN  ?   -­‐  Gene  transfer  
-­‐  Environmental  pressure  for  selec)on  
 -­‐  pH  
WHAT  ?  
 -­‐  temperature  
 -­‐  host  
HOW  ?  
 -­‐  pathogen  
-­‐  …  

à  A   gene)c   varia)on   could   occur   in   response   to   such  


factors  /  events  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
Genomic  varia.on  :  WWWH  

WHY  ?  
What  could  be  affected  ?  
 
WHEN  ?   -­‐  Overall  genomic  sequence  (re-­‐arrangements)    
-­‐  DNA  structure  
-­‐  Regulatory  elements  
WHAT  ?  
-­‐  Genes  size,  number,  func)on,  density  
-­‐  Nucleo)de  composi)on  
HOW  ?  
-­‐  …  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
Genomic  varia.on  :  WWWH  

WHY  ?  
How  could  this  happen  ?  
 
WHEN  ?   -­‐  Large  gene)c  structural  varia)ons  (duplica)on,  recombina)on…)  
-­‐  Transposable  elements  (retrotransposons…)  
-­‐  Evolu)on  of  mul)gene  families  
WHAT  ?   -­‐  Evolu)on  of  genes  with  novel  func)ons  
-­‐  Exon  shuffling  
-­‐  Tandem  repeats  modifica)on  
-­‐  …  
HOW  ?  
 

hTp://www.mrschamberlain.com/  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
Genomic  varia.on  :  WWWH  

WHY  ?  
How  to  measure  the  changes  in  a  genome?  
 
WHEN  ?   -­‐  Sequence  varia)on     Compara.ve  Genomics  
-­‐  between  2  genomes  (1  reference)  
-­‐  between  several  genomes  
WHAT  ?  
 
-­‐  Other  varia)ons  (structure,  folding…)  
HOW  ?  
 

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
Compara.ve  Genomics  :  WWWH  

WHY  ?   WHEN  ?  

WHAT  ?   HOW  ?  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
Compara.ve  Genomics  :  WWWH  

WHY  ?  
Why  would  we  compare  genomes  ?  
 
WHEN  ?   -­‐  Iden)fy  evolu)onary  history  
-­‐  Highlight  synteny    
-­‐  Iden)fy  genomic  rearrangements  (large  SV  events…)  
WHAT  ?  
-­‐  Study  convergent  evolu)on  for  some  organisms  (e.g.  
virus)  
HOW  ?  
-­‐  understand  disease  outbreak  
-­‐  Iden)fy  pathogenicity  markers,  drug  targets  
-­‐  …  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
Compara.ve  Genomics  :  WWWH  

WHY  ?  
Why  would  we  compare  “por.ons”  of  genomes  ?  
 
WHEN  ?   -­‐  Comparing   smaller   por)ons   of   a   genome   allows   to   zoom   into  
regions  of  genomic  re-­‐arrangements  

WHAT  ?   -­‐  Could  be  genes:     REFERENCE  


-­‐  Screen  for  func)onal  genes  gain   A B   C  
-­‐  Screen  for  func)onal  genes  loss  
A A B   C  
-­‐  Gain  of  a  new  func.on  
HOW  ?  
-­‐  Exons  (length,  number…)  
-­‐  Conserved  pathways   A E   F  
-­‐  Coding  /  non-­‐coding   REFERENCE  
A C  
-­‐  …  
C   B  
A
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
Compara.ve  Genomics  :  WWWH  

WHY  ?  
When  do  we  need  to  use  compara.ve  genomics  ?  
 
WHEN  ?   à Establish   gene)c   and   evolu)onary   rela)onship  
between  :  
 
WHAT  ?  
-­‐  En)re  organisms  
-­‐  Sequences  
HOW  ?  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
Compara.ve  Genomics  :  WWWH  

WHY  ?  
What   we   generally   compare   are   features   of   1   or   more  
genomes  to  features  of  a  another  genome  (reference)  
WHEN  ?    
A   genome   is   complex   and   composed   of   different  
elements  (regulatory,  stuctural…)  
WHAT  ?  
 
In   fact,   there   are   different   types   of   DNA   features   that  
HOW  ?  
can  be  compared  between  2  genomes:  
-­‐  DNA  sequences  (small,  large,  coding/non-­‐coding)  
-­‐  Genes  (nature,  order…)  
-­‐  Regulatory  elements  
-­‐  ...  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
Compara.ve  Genomics  :  WWWH  

WHY  ?  
Could  be  classified  in:  
 
WHEN  ?   -­‐  Genome  structure  
 
-­‐  Genome  func.on  (coding  /  non-­‐coding)  
WHAT  ?  
 
-­‐  Genome  evolu.on  
HOW  ?  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
Compara.ve  Genomics  :  WWWH  

WHY  ?  
Compara)ve  genomics  uses  Sequence  Alignment  
 
WHEN  ?   Compara)ve  genomics  is  based  on  Phylogeny  that  relies  
on  several  key  issues:  
 
WHAT  ?  
-­‐  Several  genomes  are  sequenced  and  available  
-­‐  Homology  between  genes  (similar  func)ons)  
HOW  ?  
-­‐  …  

àUse   complex   model   genomes   to   infer   knowledge  


(Annota.on:   func)on…)   to   unknown   or   less   complex  
genomes  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
Compara.ve  Genomics  :  WWWH  

WHY  ?  
Algorithms/programs  
 
WHEN  ?   in  vitro:  
 
-­‐  Fluorescence  In  Situ  Hybridiza)on  (FISH)  
WHAT  ?  
-­‐  Spectral  Karyotyping  (SKY)  and  Mul)plex-­‐FISH  (M-­‐
FISH)  
HOW  ?  
-­‐  Compara)ve  Genomic  Hybridiza)on  
 

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
Keywords  in  Compara.ve  Genomics  

THE  INPUT   THE  METHODS   THE  OUTPUT  

DATABASES  

INDIVIDUAL  GENOME   EVOLUTION  


SEQUENCE   STRUCTURE  
PROJECTS   ALIGNMENT  
FUNCTION  
INDIVIDUAL  SMALL  SCALE  
SEQUENCING  PROJECTS  
ALGORITHMS  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
Part  3  

Compara.ve  Genomics:  
The  input  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
THE  INPUT  

Availability  of  genomes  sequenced  

Perman,  2014:  hTp://blogs.biomedcentral.com/  


Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  INPUT  

Availability  of  genomes  sequenced  

hTp://www.ncbi.nlm.nih.gov/genome/browse/  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  INPUT  

Availability  of  databases  

hTps://nar.oxfordjournals.org/  
hTp://database.oxfordjournals.org/  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  INPUT  

Availability  of  databases  


«  The  NCBI  Assembly  database  
(www.ncbi.nlm.nih.gov/assembly/)  provides  stable  
accessioning  and  data  tracking  for  genome  
assembly  data  (…)  
The  Assembly  database  reports  metadata  such  as  
assembly  names,  simple  sta)s)cal  reports  of  the  
assembly  (number  of  con)gs  and  scaffolds,  
con)guity  metrics  such  as  con)g  N50,  total  sequence  
length  and  total  gap  length)  as  well  as  the  assembly  
update  history.  The  Assembly  database  also  tracks  
the  rela<onship  between  an  assembly  submi?ed  to  
the  Interna<onal  Nucleo<de  Sequence  Database  
Consor<um  (INSDC)  and  the  assembly  represented  
in  the  NCBI  RefSeq  project.  Users  can  find  
assemblies  of  interest  by  querying  the  Assembly  
Resource  directly  or  by  browsing  available  
assemblies  for  a  par<cular  organism.  Links  in  the  
Assembly  Resource  allow  users  to  easily  download  
sequence  and  annota+ons  for  current  versions  of  
genome  assemblies  from  the  NCBI  genomes  FTP  site»  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
hTps://nar.oxfordjournals.org/  
THE  INPUT  

Availability  of  databases  


«  Background:  Early  classifica+on  of  prokaryotes  
was  based  solely  on  phenotypic  similari+es,  but  
modern  prokaryote  characteriza+on  has  been  
strongly  influenced  by  advances  in  gene+c  methods.  
With  the  fast  development  of  the  sequencing  
technology,  the  ever  increasing  number  of  genomic  
sequences  per  species  offers  the  possibility  for  
developing  distance  determina<ons  based  on  
whole-­‐genome  informa<on.  The  average  nucleo+de  
iden+ty  (ANI),  calculated  from  pair-­‐wise  
comparisons  of  all  sequences  shared  between  two  
given  strains,  has  been  proposed  as  the  new  metrics  
for  bacterial  species  defini<on  and  classifica<on.  
Results:  In  this  study,  we  developed  the  web  version  
of  ANItools  (hRp://ani.mypathogen.cn/),  which  helps  
users  directly  get  ANI  values  from  online  sources.  A  
database  covering  ANI  values  of  any  two  strains  in  a  
genus  was  also  included  (2773  strains,  1487  species  
and  668  genera)  »  
hTp://database.oxfordjournals.org/  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  INPUT  

File  formats  

Different  file  formats  may  be  accepted  


 
Blast  (NCBI)  accepts:   FASTA  
-­‐  Fasta  sequence  
-­‐  simple  sequence  
-­‐  Accession  Number  
-­‐  Local  file  from  disk  
GenBank  
(megablast)  

Whole  sequence    
(or  subsequence)   Accession  
 
hTp://database.oxfordjournals.org/  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  INPUT  

File  formats  

hTp://blast.ncbi.nlm.nih.gov/  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  INPUT  

File  formats  

hTp://blast.ncbi.nlm.nih.gov/  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  INPUT  

File  formats  

hTp://blast.ncbi.nlm.nih.gov/  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  INPUT  

File  formats  

hTp://blast.ncbi.nlm.nih.gov/  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
Part  4  

Compara.ve  Genomics:  
The  methods  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

DNA  sequence  alignment  consists  of  aligning  2  DNA  


sequences   in   order   to   iden)fy   regions   showing  
sequence  similarity      
 
This   highlights   regions   showing   rela)onship   in  
terms  of:  
-­‐  Evolu)on  
-­‐  Structure  
-­‐  Func)on  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

For  simple  sequences:    


Compare  ATCTTCGTTG  and  ATCTCGTATG  
GAP  

ATCT  T  
  CGT    -­‐    TG  
ATCT  -­‐  
   CGT  ATG  
 

GAP  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

For  sequences  that  are  not  as  simple  :  


-­‐  long  sequences  
-­‐  more  complex  sequences  (divergent…)  
-­‐  large  number  of  sequences    
-­‐  …      
 
à  need  Algorithms  !  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

2  key  approaches  
 
-­‐  Global  Alignment  
à   Op)mizes   the   alignment   to   span   the   ATCATTCGTTGACTGTG  
     A  
     -­‐    -­‐      -­‐    T    T  
   -­‐    G
     -­‐    T      GAC  
             -­‐    -­‐     TG  
full  length  of  sequences  that  are  aligned.    
 
-­‐  Local  Alignment  
à  Op)mizes  the  alignment  to  take  into   ATCATTCGTTGACTGTG  
           -­‐      -­‐      -­‐      A    TT  
         -­‐    G
       -­‐    T    GACTG  
                         -­‐  -­‐  
account  regions  of  the  highest  similarity  
between  divergent  sequences.  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

Algorithms  efficiency  and  choice  depends  on  the  number  of  


sequences  to  compare  
 
Pairwise  Alignment  
Sequence  alignment  of  2  sequences    
à Output:  func)on,  structure,  evolu)onary  rela)onship  

Mul.ple  sequence  Alignment  


Sequence  alignment  of  3  or  more  sequences  (same  length)  
à  Output:  homology,  evolu)onary  rela)onship  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

Pairwise  Alignment  
A  Pairwise  Alignment  is  an  op)mized  local  or  global  alignment  of  
2  sequences.  

-­‐  3  methods:  
-­‐  Dot-­‐matrix  
-­‐  Dynamic  programming  
-­‐  Word-­‐based  
 
NB:  Efficiency  can  be  reduced  in  low  complexity  regions  (repe++ve  sequences…)  
Can  be  evaluated  by  the  MUM  (Maximum  Unique  Match)  
à  Long  MUM  sequences  =  more  related  sequences  
 
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

Pairwise  Alignment  
INSERTION  INTO  QUERY  
Dot-­‐matrix  method   R:  AB  
  Q:  AIB  

-­‐  2  sequences  (A  and  B)  are  


aligned  using  a  2-­‐dimensional  
matrix   INVERTION  INTO  QUERY  
R:  ABC  
-­‐  Iden)ty  is  shown  with  a  dot   Q:  AB’C  
-­‐  Diagonal  shows  high  similarity  

à  Dot  plot  of  the  sequence  R   REARRANGEMENT    


INTO  QUERY  
against  sequence  Q   R:  ABCDE  
  Q:  AFCBE  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
Adapted  from  hTp://mummer.sourceforge.net/manual/AlignmentTypes.pdf  
THE  METHODS  

Sequence  Alignment  for  DNA  

Pairwise  Alignment  
Dynamic  programming  can  
 
-­‐  Use  a  scoring  matrix  
-­‐  Assign  a  match  score  (+),  a  mismatch  score  (-­‐),  and  a  gap  
penalty  (-­‐).    
-­‐  Use  two  different  gap  penal)es  for  opening  a  gap  and  for  
extending  a  gap  (gap  opening  >>>  gap  extension)    
 à  generally  results  in  less  gaps  in  an  alignment  and  gaps  are  
 grouped  together  =  more  biological  relevance.  
 
Different  algorithms  for  Global  and  Local  Alignments  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
hTps://en.wikipedia.org/wiki/Sequence_alignment#cite_note-­‐mount-­‐1  
THE  METHODS  

Sequence  Alignment  for  DNA  

Pairwise  Alignment  
Dynamic  programming  
 
-­‐  Global  Alignment  
à  Needleman–Wunsch  algorithm.    
 
-­‐  Local  Alignment  
à  Smith–Waterman  algorithm.  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
hTps://en.wikipedia.org/wiki/Sequence_alignment#cite_note-­‐mount-­‐1  
THE  METHODS  

Sequence  Alignment  for  DNA  

Pairwise  Alignment  

Global  Alignment  
à Needleman–Wunsch    
algorithm.    

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
hTps://en.wikipedia.org/wiki/Needleman–Wunsch_algorithm  
THE  METHODS  

Sequence  Alignment  for  DNA  

Pairwise  Alignment  

Local  Alignment  
à Smith-­‐Waterman  algorithm.    

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
hTps://en.wikipedia.org/wiki/Smith–Waterman_algorithm  
THE  METHODS  

Sequence  Alignment  for  DNA  

Pairwise  Alignment  
Word-­‐based  method  
 
-­‐  Op)mal  alignment  not  garanteed,  but  efficient  and  faster  
than  dynamic  programming  
-­‐  Useful  for  databases  searches  
-­‐  «  words  »  are  small  por)ons  (length  k)  of  the  query  sequence  
that  are  used  to  screen  the  database    
 
à  Ex:  BLAST  
 

Adapted  from  different  web  resources  


Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

Pairwise  Alignment  
Word-­‐based  method  
 
-­‐  BLAST  (Basic  Local  Alignment  Search  Tool)    
-­‐  Algorithm  to  compare  a  query  sequence  to  a  library  or  database  
of  sequences  
-­‐  Allows  to  es)mate  iden)ty  with  a  certain  confidence  threshold  
-­‐  Popular  in  the  scien)fic  community  ()me  efficiency…)  

Adapted  from  different  web  resources  


Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

Pairwise  Alignment   QUERY  


ATCATTCGTTGACTGTG  
Word-­‐based  method    
    k=11  
ATCATTCGTTG  
-­‐  BLAST        TCATTCGTTGA  
►  The  query  sequence  can  be  filtered  to            CATTCGTTGAC  
exclude  low-­‐complexity  regions                ATTCGTTGACT  
►  Seeding:  list  all  possible  words  of  length                    TTCGTTGACTG  
(DNA:  default  k=11)                          TCGTTGACTGT  
                         CGTTGACTGTG  
►  Search  database  for  matching  words  using  a  
scoring  matrix  =  calculate  the  match  score  
►  A  threshold  score  is  evaluated  to  top-­‐rank   DATABASE   ATCATTCGTTG  
             ATTCGTTGACT  
the  most  similar  sequences  
                       TCGTTGACTGT  
►  Process  repeated  for  all  words  of  the  query                              CGTTGACTGTG  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

Pairwise  Alignment  
Word-­‐based  method  
 
-­‐  BLAST  
►  Best  match  is  followed  by  an  extension  in  both  direc.on,  with  scoring  
►  Extension  con)nued  only  if  the  alignment  is  above  the  threshold  
►  The  con)guous  alignment  without  gaps  (now  possible)  and  a  higher  score  
is  the  HSP  (High  Scoring  Segment  Pair)  

QUERY   ATCATTCGTTGACTGTG  
ATCATTCGTTG  
DATABASE   ATCATTCGTTGACTGTG                ATTCGTTGACT  
                       TCGTTGACTGT  
EXTENSION   EXTENSION                            CGTTGACTGTG  

HSP   Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

Pairwise  Alignment  
Word-­‐based  method  
 
-­‐  BLAST  

►  A  scoring  matrix  is  used  to  evaluate  the  quality  of  the  alignment    
►  A  scoring  matrix  is  a  predefined  subs)tu)on  matrix  (match  =  1,  
mismatch  =  0…)  
►  ex:  BLOSUM  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
hTp://blast.ncbi.nlm.nih.gov/  
THE  METHODS  

Sequence  Alignment  for  DNA  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
hTp://blast.ncbi.nlm.nih.gov/  
THE  METHODS  

Sequence  Alignment  for  DNA  

Pairwise  Alignment  
Word-­‐based  method  
-­‐  BLAST  output  
Ÿ      A  list  of  sequences  that  have  the  best  match  to  the  query    

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
hTp://blast.ncbi.nlm.nih.gov/  
THE  METHODS  

Sequence  Alignment  for  DNA  

Pairwise  Alignment  
Word-­‐based  method  
-­‐  BLAST  output  
Ÿ  e-­‐value:  probability  that  the  alignment  is  found  by  chance  
(the  lower  the  e-­‐value,  the  more  interes)ng  the  match)  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
hTp://blast.ncbi.nlm.nih.gov/  
THE  METHODS  

Sequence  Alignment  for  DNA  

Pairwise  Alignment  
Word-­‐based  method  
-­‐  BLAST  output  
Ÿ  Alignment  details  :  sequences  (query  and  database)  aligned  
with  %  iden)ty…)  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
hTp://blast.ncbi.nlm.nih.gov/  
THE  METHODS  

Sequence  Alignment  for  DNA  

Pairwise  Alignment  
Word-­‐based  method  
 
-­‐  BLAST  have  different  variant  queries  according  to  the  type  of  
query  sequence  (Q)  and  type  of  sequence  in  the  database  (R):    
 
Q   R  
BLASTN   Nucleic  Acid   à   Nucleic  Acid  
BLASTX   Translated  Nucleic  Acid   à   Protein  
TBLASTX   Translated  Nucleic  Acid   à   Translated  Nucleic  Acid  
TBLASTN   Protein   à   Translated  Nucleic  Acid  
BLASTP   Protein   à   Protein  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

Mul.ple  Sequence  Alignment  


Mul.ple   Sequence   Alignment   have   been   developed   to   handle  
more  than  2  sequences  at  a  )me.  
 
Align  all  queried  sequences  to  form  a  query  group.    
 
Allows   to   iden)fy   conserved   sequences   por)ons   among   a  
group  of  queried  sequences  that  are:    
 -­‐    known  to  be  evolu)onarily  related  
  -­‐   of   unknown/supposed   evolu)onar   rela)onship   à   this  
  mul)ple   alignment   helps   to   establish   their   evolu)onar  
 rela)onships  (phylogene)c  trees)  
Adapted  from  different  web  resources  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

Mul.ple  Sequence  Alignment  


Different  methods:  

-­‐  Dynamic  programming  


-­‐  Progressive  method  
-­‐  Itera)ve  method  :  HMMs  (Hidden  Markov  Models)  
-­‐  …  
 
à  Evalua.on  of  Conserva.on  across  sequences  

Adapted  from  different  web  resources  


Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

Mul.ple  Sequence  Alignment  


Dynamic  programming  
 
-­‐        Op)mized  for  2  sequences,  so  computa)onally  expensive  here  
-­‐  Extends  the  sequence  matrix  from  2  sequences  to  the  number  
of  sequences  in  the  query  :  alignment  between  pairs  of  
sequences  

à  MSA  

Adapted  from  different  web  resources  


Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

Mul.ple  Sequence  Alignment  


Progressive  method  
 
-­‐  Aligns  sequences  to  iden)fy  the  most  similar  ones  
-­‐  Then  progressively  adds  all  other  related  sequences  of  the  
group  

à Clustal  (clustal-­‐Omega:  medium-­‐large  alignments)  


à T-­‐Coffee  (small  alignments)  
 

Adapted  from  different  web  resources  


Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

Mul.ple  Sequence  Alignment  


Progressive  method  
Clustal  
PAIRWISE  ALIGNMENT   GUIDE     MULTIPLE  SEQUENCE  
SEQUENCES   &  DISTANCE  MATRIX   TREE   ALIGNMENT  
A   A  
B   B  
C  
C  
D  
D  

SIMILARITY  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

Mul.ple  Sequence  Alignment  


HMMs  
 
-­‐  Determine  Probability  scores  for  mul)ple  sequence  alignments  
-­‐  The  aligned  sequences  serves  as  a  group,  no  need  to  previously  order  the  
sequences        
-­‐  Can  build  an  HMM  profile  
-­‐  Improved  for  more  distant  sequences  

hTp://www.cbs.dtu.dk  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

Mul.ple  Sequence  Alignment  


Conserva.on  scores  
 
-­‐  Based  on  the  fact  that  the  highest  conserva)on  is  maintained  through  
evolu)on  for  the  most  important  func)ons  (promoters,  essen)al  enzymes,  
exons…)  

-­‐  Regulatory  regions  might  be  generally  evolving  «  faster  »    

-­‐  Mul)ple  alignments  à  iden)fy  what  elements  reject  subs.tu.ons  


(subs.tu.ons  occur  in  neutral  DNA,  do  not  occur  if  an  element  is  
func.onally  constrained)  

hTp://www.cbs.dtu.dk  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

Mul.ple  Sequence  Alignment  


Conserva.on  scores  
 
-­‐  PhyloP  (Phylogene)c  p-­‐values)  
Measures  Base  Conserva)on  from  non-­‐coding  regions  
 
-­‐  PhastCons  (part  of  PHAST:  PHylogene)c  Analysis    
with  Space/Time  models)  
Measures  Base  Conserva)on  based  on  HMM  model  
 
-­‐  GERP  (Genomic  Evolu)onary  Rate  Profiling)    
Measures  Base  Conserva)on  to  es)mate  the  neutral  evolu)on  rate  in  genomes  
 
-­‐  SiPhy  (SIte-­‐specific  PHYlogene)c  analysis)  
Models  the  paTern  of  subs)tu)on  (biased  nucleo)de  subs)tu)on,  HMM)  
(Gerber  et  al.,  2009)  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  METHODS  

Sequence  Alignment  for  DNA  

Mul.ple  Sequence  Alignment  


Conserva.on  scores  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
(Pheasant  and  Mauck,  2007)  
THE  METHODS  

Sequence  Alignment  for  DNA  

Whole  Genome  Alignment  

MUMmer  Ultra-­‐fast  alignment  of  large-­‐scale  DNA    


(hTp://mummer.sourceforge.net)  
-­‐  Alignment  of  en)re  genomes  (complete  or  draw)  
-­‐  Maximal  Unique  Matcher:  Find  the  MUMs  =  subsequences  that  occur  
only  once  in  both  genomes  compared  and  not  extendable  anymore  
-­‐  Suffix-­‐tree  based  approach  
 
WebACT  Artemis  Comparison  Tool  (ACT)    
(www.webact.org)  
Visualize  the  alignment  of  publically  available  prokaryo)c  genomes  
 
Databases:  Ensembl,  VISTA  
 
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
Part  5  

Compara.ve  Genomics:  
The  output  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
THE  OUTPUT  

Genomic  Structure  

Analyzing  a  genome  structure  means  to  analyze:  


 
►  At  the  Genome  level  
-­‐  Base  composi)on  (%GC,  codon  bias,  nucleo)de  distribu)on…)  
-­‐  Genome  organiza)on  (SV  events,  genomic  rearrangements…)  
-­‐  Sequence  conserva)on  (regulatory  elements,  repe))ve  regions…)  
-­‐  Synteny  (conserved  or  not)  

►  At  the  Gene  level  


-­‐  Gene  order  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
THE  OUTPUT  

Genomic  Func.on  

Analyzing  func)ons  in  a  genome  means  to  analyze:  


 
►  At  the  non-­‐coding  sequence  level  
-­‐  Regulatory  func)ons…  

►  At  the  coding  sequence  level  


à  Insights  into  func)ons  
-­‐  Compare  gene  sequences  
-­‐  Compare  protein-­‐coding  por)ons  
à  How  ?    
Different  algorithms  help  iden)fy  por)ons  of  the  genome  coding  for  proteins  
-­‐  Ab  ini+o  approaches  
-­‐  Using  homology  …   hTp://www.cbs.dtu.dk  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  OUTPUT  

Genomic  Evolu.on  

From  the  Mul)ple  sequence  alignments  we  can  infer  homology  


and  es)mate  the  evolu)on  distance  between  sequences/
organisms.  
 
Analysis  could  be:  
-­‐  Based  on  en)re  Genome  comparisons  
-­‐  Based  on  Gene  comparisons  
-­‐  …  
   

hTp://www.cbs.dtu.dk  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  OUTPUT  

Genomic  Evolu.on  

Based  on  en.re  genome  comparison  


   
-­‐  Phylogene)c  rela)onship  between  organisms  

-­‐  Previous  dogma:    


 
"Anything  found  to  be  true  of  E.  coli  must  also  be  true  of  elephants"    
(Jacques  Monod,  1954)  
 
à  Need  to  be  related  to  its  phylogene)c  context  !!  
à  Different  outputs  expected  depending  if  :  
à  Comparing  closely  related  species  
à  Comparing  evolu)onarily  distant  species  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  OUTPUT  

Genomic  Evolu.on:  in  easy  words  

COMPARING  CLOSELY  
RELATED  SPECIES  

COMPARING  EVOLUTIONARILY    
DISTANT  SPECIES  

hTp://www.beller.no  
hTp://www.notcot.org/  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
Compara.ve  Genomics  and  Genome  
Evolu.on  in  easy  words  
COMPARING  CLOSELY  
RELATED  SPECIES  
COMPARING  EVOLUTIONARILY    
DISTANT  SPECIES  

A:  NOT  SPICY   B:  SPICY  


C:  NOT  SPICY  
Adapted  from  hTp://receTes-­‐aymen.over-­‐blog.fr/  
hTp://quebueno.be/content/6  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  OUTPUT  

Genomic  Evolu.on  

Based  on  en.re  genome  comparison  


   
Examining  the  dynamics  of  closely  related  genomes  helps  to  build  therapeu)c  
strategies  for  Ebola  virus:    
 
-­‐  Ebola  virus  largest  outbreak    (2014)    
-­‐  Comparison  of  100  available  Ebolavirus  (Filiviridae)  genomes  to  each  other  +  
to  other  viral  genomes.  
-­‐  Filoviridae  are  different  from  all  other  viral  genomes  
-­‐  Filovirus  genomes  :  sequence  diversity  but  proteins  with  similar  func)ons  
and  gene  order  

à  Ebolavirus  genomes  very  similar  but  different  in  intergenic  regions  and  
genes  of  specific  func)on  =  poten)al  vaccine  candidates.      
(Jun  et  al.,  2015)  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  OUTPUT  

Genomic  Structure  

Gene)c  map  of  the  UPEC  strain  536  chromosome    

(Brzuszkiewicz et al., 2006)  


Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  OUTPUT  

Genomic  Structure  
Whole  Genome  Comparison  of    
(A) all  strains  
(B) Enterobacter  
(C) Erwinia  
(D) Pantoea  

(Lòpez-Fernàndez et al., 2015)  


Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  OUTPUT  

Genomic  Evolu.on  

Phylogene.c  rela.onships  
   
«  rela+onship  of  the  Malassezia  genus  
with  respect  to  other  fungi  with  
sequenced  genomes.»  
 
 
 
 
 
G:  gene  family  gain;  L:  gene  family  loss  

(Wu  et  al.,  2015)  


hTps://en.wikipedia.org/wiki/Sequence_alignment#cite_note-­‐mount-­‐1  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  OUTPUT  

Genomic  Evolu.on  

Based  on  en.re  genome  comparison  


   
-­‐  Synteny  

►  Defined  as  the  overall  conserva)on  of  (gene/blocks)  order  in  chromosomes  
between  different  genomes.  
 
►  Evaluated  in  whole  genomes,  blocks  could  include  large  por)ons  of  genomes.  
 
►  Recombina)on  /  crossing  over  affects  groups  of  adjacent  genes  in  a  
chromosome  à  linkage  group.  

hTp://www.cbs.dtu.dk  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  OUTPUT  

Genomic  Evolu.on  

Based  on  en.re  


genome  comparison  
Synteny  

(Jaillon  et  al.,  2004)  


Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  OUTPUT  

Genomic  Evolu.on  

Based  on  en.re  


genome  comparison  
Synteny  

(Jaillon  et  al.,  2004)  


Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  OUTPUT  

Genomic  Evolu.on  

Based  on  individual  


gene  comparison   GENE  DUPLICATION  

   
Homology  
2  genes  are  homologs  if  they   ORTHOLOGS   ORTHOLOGS  

have  a  common  ancestor  


 
PARALOGS  
They  can  be  classified  in  
orthologs  and  paralogs:    
 
à  As  a  consequence  of  
specia)on  =  Orthology  
 
à  As  a  consequence  of   HOMOLOGS  

duplica)on  =  Paralogy   hTp://www.notcot.org/  


Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  OUTPUT  

Genomic  Evolu.on  

Based  on  individual  gene  comparison  


   
Orthology  
 
Finding  orthologs  can  be  the  first  step  in  whole  genome  alignment  

à  BLAST  Reciprocal  Best  Hit  (best  pairs  of  orthologs)  


à  OrthoMCL  (possible  predic)ons  for  several  species)  
à  EnsemblCompara  (precomputed  data):  orthology  and  paralogy  predic)ons  
based  on  phylogenies.  
à  eggNOG  (evolu)onary  genealogy  of  genes:  Non-­‐supervised  Orthologous  
Groups):OGs  of  proteins  across  different  taxonomic  levels    

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
THE  OUTPUT  

Genomic  Evolu.on  

Based  on  individual  gene  comparison  


   
Inferring  Annota.on:  Ontologies  
 
Assigning  func)ons  to  Genes:    
GO  (Gene  Ontology)  

à  Biological  Process  


à  Molecular  Func.on    
à  Cellular  Component  

The  GO  database  contains  different  tools    


to  retrieve  these  informa)ons.  
(Hu  et  al.,  2007)  
hTp://geneontology.org/  
Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
THE  OUTPUT  

Genomic  Evolu.on  

Func.onal/Structural  Predic.ons  
   
►  impact  of  a  muta.on  on  the  func.on  
Analysis  of  the  impact  of  aa  subs)tu)on    
à  Strutural  and/or  Func)onal  effect  of  single  point  muta)ons  SNPs    
-­‐  PolyPhen-­‐2  (hTp://gene)cs.bwh.harvard.edu/pph2/…)  
-­‐  SIFT  (hTp://siw.jcvi.org)  
-­‐  VEP  (hTp://www.ensembl.org/Homo_sapiens/Tools/VEP)  
 
 
►  impact  of  the  muta.on  on  the  Struture  
Impact  on  gene  coding  por)ons  (gain/loss)  or  non-­‐coding  por)ons  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
THE  OUTPUT  

Browsers  
VISTA    
(hip://genome.lbl.gov/vista/index.shtml)  
Collec)on  of  resources  for  compara)ve    
genomics  
 
VISTA  browers  can  be  used  to  analyze    
pre-­‐computed  alignments  or  user    
generated  or  queried  sequences  
 
VISTA  servers  
-­‐  mVISTA  (query  sequences  vs  mul)-­‐species  sequences)  
-­‐  rVISTA  (iden)fica)on  of  regulatory  TF  binding  sites)  
-­‐  gVISTA  (query  sequences  vs  whole-­‐genome  assemblies)  
-­‐  wgVISTA  (alignment  of  10Mb  sequences  (finished/draw):  microbes…)      …  

VISTA  tools:  Rviewer  region  viewer  to  compare  genomic  intervals  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    
THE  OUTPUT  

Browsers  

Ensembl  Browser    
(hTp://www.ensembl.org)  
 
►  Compara)ve  analyses  at  the  genome    
and  gene  levels    
►  Genome  sequences  compared  using    
pairwise  and  mul)ple  whole-­‐genome  
alignments    
►  These  alignments  help  to  determine    
-­‐  Synteny  
-­‐  Sequence  conserva)on  scores    
-­‐  Gene  homology  rela)onships  (GeneTrees)  

(Herrero  et  al.,  2015)  


Introduc)on  to  Bioinforma)cs  Online  Course:IBT  
Genomics|  Fatma  Guerfali    
Compara.ve  genomics  
Take-­‐home  messages  

Input  /  Output    
►  DNA  Sequences  (genome,  gene…)  
►  Homology,  similarity,  evolu)onary  distance  
 
Alignment  
►  Whole  genome  :  MUMmer…  
►  Mul)ple  genomes  :  MGA…  
►  Mul)ple  Sequence  Alignment  :  Clustal…  
►  Global/Local  Sequence  Alignment  :  BLAST…  
 
Input  /  Output  files  
►  Fasta/GenBank  to  alignment  or  phylogene)c  distances  

Introduc)on  to  Bioinforma)cs  Online  Course:IBT  


Genomics|  Fatma  Guerfali    

You might also like