0% found this document useful (0 votes)

381 views64 pages

COMP90016 2023 06 Data Sources

This lecture discusses sources of sequencing data. It covers common file formats for raw sequencing data like fastq and fasta. It also discusses processed data formats like assembled genomes in fasta format and annotated genomes in gff format. The lecture describes major sequencing archives like SRA that house raw sequencing data and curated databases of reference genomes and proteins. It provides an overview of searching and accessing sequencing data from these various sources.

Uploaded by

Lynn CHEN

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

381 views64 pages

COMP90016 2023 06 Data Sources

Uploaded by

Lynn CHEN

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 64

Computational Genomics

Lecture 6
Sources of Sequencing Data
Dr Vicky Perreau

Before watching this lecture, make sure you are familiar with… Today

1 Intro & 2 3 Sequencing 4 Intro to 6 Sequencing

Genomics II
Genomics I technologies computing data sources
Sources of sequencing data

● Data types and File types

○ Common flat file formats

● Sequence archives
○ Searching and retrieval

● Curated data resources

2
Data type and File types
• Data types and file types

• Sequence archives

• Curated collections

3
Data ‘mining’

Sequencing data
Raw Processed Curated

4
Data types

• “Raw”
– Amplicon (.fasta), Readsets (.fastq / .fastq.gz)
– Amino acids sequence from Mass Spec
• Derived (processed)
– Assembled genomes (.fasta),
– Annotation (.gbk, .gff, gtf., .gff3)
– Predicted protein (predicted from DNA or mRNA sequence)
– Aligned reads (.sam &.bam), variants (.vcf)
• Currated
– Organised, annotated, filtered
• Metadata
– Sample data (source, treatments, batch, quality, phenotype etc...) 5
Raw Data
● Amplicon
○ PCR product, usually Sanger sequence (.ab1, .fasta)
● Locus
○ Multiple overlapping amplicons assembled (.fasta)
● Genome
○ Whole genome shotgun reads (.fastq.gz)
● Prepared libraries (.fastq.gz)
○ Exome
○ RNAseq
○ ChIP-seq
○ Single cell etc...

6
.fasta format
.fa, .fsa, .fna, .faa
Used for nucleotides or
amino acids
Single line header
Sequence may have numbers and spaces
No additional columns
No blank lines

https://en.wikipedia.org/wiki/FASTA_format
.fastq format (‘reads’ compiled into ‘readsets’)

https://en.wikipedia.org/wiki/FASTQ_format 8
Derived Data

● Assembled genome (.fasta)

○ Draft - multiple contigs

○ Complete - one contig per replicon

● Annotated genome (.gbk or .gff)

○ Genomic features labelled e.g. genes

● Protein sequences
○ Translated from predicted genes

○ Translated from assembled transcripts

9
General feature format (.gff)
describes gene models

5’ 3’

https://github.com/The-Sequence-Ontology/Specifications/blob/master/gff3.md 10
.gff format

Similar formats
GFF2
GTF
GFF3

9 required fields

https://en.wikipedia.org/wiki/General_feature_format 11

https://github.com/The-Sequence-Ontology/Specifications/blob/master/gff3.md
.gff format

Row = feature
Each row has 9 fields

https://en.wikipedia.org/wiki/General_feature_format 12

https://github.com/The-Sequence-Ontology/Specifications/blob/master/gff3.md
1

.gff format

Column 1:
Sequence ID

13
2

.gff format

Column 2:
source

14
3

.gff format

Column 3:
Type of feature

15
4 5

.gff format

Column 4:
Feature start site

Column 5:
Feature stop site

16
6

.gff format

Column 6:
score/confidence

17
7

.gff format

Column 7:
Strand the feature
is encoded on

18
8

.gff format

Column 8:
Phase 0, 1, or 2
Only present for
Protein encoding
features.

19
9

.gff format

Column 9:
Other atributes

20
.gtf format

gencode.v33.annotation.sorted.gtf
Downloaded from Gencode and viewed in command line using command:
21
$head -n 20 gencode.v33.annotation.sorted.gtf | cut -c 1-15
Genbank file format

.gb
.gbk

Sequence info
Many additional elements

22
https://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html
Sequence archives
• Data types and file types

• Sequence archives

• Curated collections

23
http://www.insdc.org/
Controlled access repositories
Human data

NCBI has database of genotype and phenotype dbGaP

• https://www.ncbi.nlm.nih.gov/gap/

EMBL has Genome phenome archive

• https://www.ebi.ac.uk/ega/about

DDBJ has genotype phenotype archive

• https://www.ddbj.nig.ac.jp/jga/index-e.html

25
Hosted at NCBI in
Washington, USA

SRA toolbox
https://www.ncbi.nlm.nih.gov/books/NBK158900/ 26
Hosted at EBI in
Cambridge UK

27
Hosted at NIG in
Mishima, Japan

28
Sequence Read Archive (SRA)
https://www.ncbi.nlm.nih.gov/sra/docs/sradownload/

https://www.ncbi.nlm.nih.gov/sra/docs/sragrowth/
29
https://www.ncbi.nlm.nih.gov/sra/docs/submitmeta/
“Study” architecture in SRA (SRP#)

BioProject is a collection of biological

data for a single initiative, originating
from a single organization or from a
consortium
BioSample
Sample 1 Sample 2 Sample 3 (SRS#):
Descriptive
information about
the source
materials
Sample 4 Sample 5 Sample 6

Patient Patient Patient 31

A B C
Each experiment can generate multiple runs (SRR#)
SRR#7.fastq
SRX#1 RNAseq Whole genome
SRR#1.fastq Sequencing SRR#8.fastq
machine 1
SRR#2.fastq Nanopore SRX#4 SRR#9.fastq
SRX#2 SRR#10.fastq
RNAseq Library
SRR#3.fastq
machine 2
SRR#4.fastq
SRX#3 RNAseq Library Whole genome SRR#11.fastq
SRR#5.fastq machine 3 Sequencing SRR#12.fastq
SRR#6.fastq Ilumina SRX#5 SRR#13.fastq
SRR#14.fastq
An SRA Experiment SRX# is the main publishable unit and Sample 3
describes: SRS#3
• Replicate number
• Library
• Sequencing strategy
• Layout Sample 6
• Instrument model
A run (SRR#) is the sequencing data associated with an
Patient C
experiment. 32
33
Protein sequence databases

Currated annotated resources

● Protein https://www.ncbi.nlm.nih.gov/protein/
● UniProt https://www.uniprot.org/
● neXtprot https://www.nextprot.org/

Protein/peptide sequence data dumps

● Peptide Atlas http://www.peptideatlas.org/

● Pride https://www.ebi.ac.uk/pride/

34
Searching for data

35
NCBI-GEO database

Originally developed for

array format data

Now also holds holds

sequencing data for
experiments looking at
gene expression,
epigenetics and other
functional genomics.

36
DRA search at DDBJ

37
OmicsDi (https://www.omicsdi.org/)
Meta search engine searching multiple databases
and repositories simultaneously.

38
SciCrunch (https://scicrunch.org/browse/datadashboard)

39
Reference genomes

40
Reference genomes: NCBI Assembly database

41
Human genome
Agreed reference genomes for all organisms that have
been sequenced are important.
Features are mapped to nucleotide numbers on
chromosomes.
Updates to the genome can alter the numbering.
The version of the genome that you are working in is
critical to your analysis determines what other mapped
data can be included in your analysis.
‘p’ refers to “patch 14”- patches don’t alter nucleotide
numbering
Reproducible data requires that details of genome
versions used in any analysis, and their sources, are
Current human genome version is GRCh38.p14 described in detail in your methods and appropriately
referenced/cited.
42
Gencode annotation files

43
Curated collections
• File types

• Sequence archives

• Curated collections

44
Curated databases enable:
● Comparative genomics
○ Orthologs
○ Protein families
○ Evolutionary conservation
● Functional genomics
○ Homologous genes/proteins
○ Co-expression analysis
○ Phenotype (knockout studies)
○ Disease associations
○ Interactions with genes/proteins
○ Pathway analysis

45
EnteroBase
A Powerful, User-Friendly Online Resource for
Analyzing and Visualizing Genomic Variation
within Enteric Bacteria

Tutorials
https://enterobase.readthedocs.io/en/latest/ente
robase-tutorials/tutorials.html

Users guide
https://genome.cshlp.org/content/early/2019/12/
05/gr.251678.119

46
PlasmoDB

47
Virus Pathogen Resource (VIPR)

48
Model organism databases
● Drosophila http://flybase.org/
● Mouse http://www.informatics.jax.org/

● Rat https://www.rgd.mcw.edu/

● Yeast https://www.yeastgenome.org/

● C. elegans https://wormbase.org/

● Zebra fish http://zfin.org/

49
Ensemble database

Tutorials (inc. short videos) 50

51
OMIM
Human genetic disease
Collates disease associated with specific regions of
nucleotides in human DNA.
Many useful links available to other database from
within each entry.

52
Expression data: Gemma
Over 14,977 curated expression studies
2021 publication

53
Expression data: GREIN

Scrapes SRA data and reprocesses through standardized pipeline.

54
Selected large projects
Focused on human genomics and functional genomics

55
https://www.encodeproject.org/ 56
gnomad

https://gnomad.broadinstitute.org/

57
https://www.gtexportal.org
/home/

58
Some focused smaller projects
Neuroscience- Allen Brain Map
(https://portal.brain-map.org/)
Immunology- Immunological genome
(https://www.immgen.org/)
Genomics – 100,000 genome project
(https://www.genomicsengland.co.uk/initiatives/100000-genomes-project)
Interferome (http://www.interferome.org/interferome/home.jspx)

59
https://academic.oup.com/n
ar

60
Link to issue
Link to issue
61
Data mining overview Validate your findings
Annotate your code
Define your research question Store all your files safely
Plan your data search Reproducible research
Explore the area Curate the data Share your findings
Research the domain Filter for quality
Gather appropriate tools Practice
Stay on task (focus)
Learn from mistakes

Iron pyrite Gold

62
Summary
Datatypes (raw, derived/processed, metadata, currated)
Common File types (.fastq, .fasta, .gff, .gbk)
Importance of reference genomes (version number and patches) and annotation files
• mapping diverse types of features to nucleotides in genomes
The main sequence archives and some smaller ones
• Architecture of SRA sequence archive for deposit and retrieval
Variety of different ways to search for sequence data that may be of interest
• federated search engines
• Standardized processed data
Diversity of curated data resources
• Bringing together different datatypes form different sources to facilitate one particular area of interest.
Exponential growth of available sequence data
• Many new questions can, and are being asked of existing available data 63

• Bioinformatics can reuse data in many ways

Thank you
Please contact me if you have additional
questions or know of some great databases
that I haven’t mentioned.

[email protected]

BI Unit 1 Part-1
No ratings yet
BI Unit 1 Part-1
24 pages
Bioinformatics Tools: Stuart M. Brown, PH.D Dept of Cell Biology NYU School of Medicine
No ratings yet
Bioinformatics Tools: Stuart M. Brown, PH.D Dept of Cell Biology NYU School of Medicine
50 pages
Tao 2016
No ratings yet
Tao 2016
11 pages
Module 2 (Bioinformatics)
No ratings yet
Module 2 (Bioinformatics)
81 pages
Anotacion de Genomas
No ratings yet
Anotacion de Genomas
84 pages
Lecture 2
No ratings yet
Lecture 2
36 pages
2a.BioinfoServerDatabase (Proteomics)
No ratings yet
2a.BioinfoServerDatabase (Proteomics)
50 pages
NGS ToolsFormats r1 BDG
No ratings yet
NGS ToolsFormats r1 BDG
32 pages
NCBI Genome
No ratings yet
NCBI Genome
37 pages
2024.HF BioInformatics Lec3p
No ratings yet
2024.HF BioInformatics Lec3p
11 pages
Lecture1 BIOF242 Shuvadeep
No ratings yet
Lecture1 BIOF242 Shuvadeep
38 pages
4 Bioinformaticsdatabases
No ratings yet
4 Bioinformaticsdatabases
71 pages
Human Genome Project: Presented By: Vaishali Gade & Sandhya Singh
No ratings yet
Human Genome Project: Presented By: Vaishali Gade & Sandhya Singh
30 pages
Bioinfo Course Notes M1 2020 DR Mbulli
No ratings yet
Bioinfo Course Notes M1 2020 DR Mbulli
56 pages
Bio Tools Booklet
No ratings yet
Bio Tools Booklet
5 pages
RIP Tutorials Bioinformatics
No ratings yet
RIP Tutorials Bioinformatics
19 pages
BioInformatics For Newbies Dantelan
No ratings yet
BioInformatics For Newbies Dantelan
46 pages
Titus Brown - How To Interpret Your Own Genome Using (Mostly) Python
No ratings yet
Titus Brown - How To Interpret Your Own Genome Using (Mostly) Python
42 pages
Bioinformatics Database and Applications
100% (3)
Bioinformatics Database and Applications
82 pages
Overview On Bioinformatics
No ratings yet
Overview On Bioinformatics
75 pages
Lecture 5 - DataBase
No ratings yet
Lecture 5 - DataBase
18 pages
Sec1 Introduction To Bioinformatics
No ratings yet
Sec1 Introduction To Bioinformatics
20 pages
BTC 506 Gene Identification Using Bioinformatic Tools-230302130331
No ratings yet
BTC 506 Gene Identification Using Bioinformatic Tools-230302130331
14 pages
Bioinformatics
No ratings yet
Bioinformatics
55 pages
Biopython Org DIST Docs Tutorial Tutorial HTML
No ratings yet
Biopython Org DIST Docs Tutorial Tutorial HTML
267 pages
Bioinformatics: Intended Learning Outcomes
No ratings yet
Bioinformatics: Intended Learning Outcomes
9 pages
Group # 13
No ratings yet
Group # 13
49 pages
Intro To Using Galaxy - For Bioinformatics: Carrie Ganote
No ratings yet
Intro To Using Galaxy - For Bioinformatics: Carrie Ganote
26 pages
Class12 Biological Database
No ratings yet
Class12 Biological Database
23 pages
Nucleic Acid Databases
No ratings yet
Nucleic Acid Databases
37 pages
Unit 6 - Bioinformatics
No ratings yet
Unit 6 - Bioinformatics
41 pages
1000 Genomes Reference
No ratings yet
1000 Genomes Reference
54 pages
University of Okara: Name: Topic: Subject: Semester: Department
No ratings yet
University of Okara: Name: Topic: Subject: Semester: Department
29 pages
2015 PAG Variant PDF
No ratings yet
2015 PAG Variant PDF
65 pages
Lecture1-4 525 W16 Large
No ratings yet
Lecture1-4 525 W16 Large
80 pages
Bioinformatics: ABE 2007 Kent Koster Group 3
No ratings yet
Bioinformatics: ABE 2007 Kent Koster Group 3
43 pages
Introduction
No ratings yet
Introduction
13 pages
Module 1 - Session 3 - Part 1
No ratings yet
Module 1 - Session 3 - Part 1
17 pages
Brutlag 98
No ratings yet
Brutlag 98
6 pages
Lecture 3
No ratings yet
Lecture 3
55 pages
Genome Functional Annotation
No ratings yet
Genome Functional Annotation
24 pages
Lecture 3 Database
No ratings yet
Lecture 3 Database
81 pages
Mids Notes
No ratings yet
Mids Notes
11 pages
Ilovepdf Merged
No ratings yet
Ilovepdf Merged
66 pages
Gene Identification - I: Shivani Chandra Birla Institute of Scientific Research
No ratings yet
Gene Identification - I: Shivani Chandra Birla Institute of Scientific Research
35 pages
Bioinformatics Tools For Nucleotide Sequence Analysis and Database Exploration
No ratings yet
Bioinformatics Tools For Nucleotide Sequence Analysis and Database Exploration
75 pages
Factsheet: Genome Database
No ratings yet
Factsheet: Genome Database
4 pages
A Review Article On Bioinformatics Tools and Software
No ratings yet
A Review Article On Bioinformatics Tools and Software
14 pages
Bioinformatics
No ratings yet
Bioinformatics
5 pages
Bif501 Handouts PDF Bif
No ratings yet
Bif501 Handouts PDF Bif
197 pages
3S03 OnLineText
No ratings yet
3S03 OnLineText
228 pages
Genomic Databases - Analysis Tools
No ratings yet
Genomic Databases - Analysis Tools
87 pages
Genomics 1
No ratings yet
Genomics 1
47 pages
Introduction To Different Resources of Bioinformatics and Application PDF
No ratings yet
Introduction To Different Resources of Bioinformatics and Application PDF
55 pages
BMB402 502 Introduction To Bioinformatics Syllabus 2025
No ratings yet
BMB402 502 Introduction To Bioinformatics Syllabus 2025
11 pages
Ncbi Dulu
No ratings yet
Ncbi Dulu
6 pages
VN2024-7 MicrobialGenomics
No ratings yet
VN2024-7 MicrobialGenomics
26 pages
CUBT401 - 4 - Sequence and Genome Annotation
No ratings yet
CUBT401 - 4 - Sequence and Genome Annotation
66 pages
Accelerated Computing With HIP: Second Edition
From Everand
Accelerated Computing With HIP: Second Edition
Yifan Sun
No ratings yet
Técnicas Estadísticas para la Ciencia de Datos a través de R. Aprendizaje Supervisado: Análisis Discriminante, Árboles de Decisión, Redes Neuronales y Modelos Lineales Generalizados
From Everand
Técnicas Estadísticas para la Ciencia de Datos a través de R. Aprendizaje Supervisado: Análisis Discriminante, Árboles de Decisión, Redes Neuronales y Modelos Lineales Generalizados
César Pérez López
No ratings yet
XProc 3.0 Programmer Reference
From Everand
XProc 3.0 Programmer Reference
Erik Siegel
No ratings yet
Ans 10
No ratings yet
Ans 10
2 pages
Assign2 PDF
No ratings yet
Assign2 PDF
2 pages
COMP90016 2023 09 Variant Consequences
No ratings yet
COMP90016 2023 09 Variant Consequences
40 pages
COMP90016 2023 07 Variant Calling I
No ratings yet
COMP90016 2023 07 Variant Calling I
62 pages
COMP90016 2023 08 Variant Calling II
No ratings yet
COMP90016 2023 08 Variant Calling II
41 pages
BTG3
No ratings yet
BTG3
2 pages
Explain How Mathematics Is Used in The Following Areas
100% (3)
Explain How Mathematics Is Used in The Following Areas
2 pages
Apunts Modul 1
No ratings yet
Apunts Modul 1
25 pages
Nisha Bio
No ratings yet
Nisha Bio
4 pages
1 T Coffee Dalign 18
No ratings yet
1 T Coffee Dalign 18
31 pages
Pam Blosum
100% (1)
Pam Blosum
71 pages
CALL FOR PAPERS - 12th International Conference On Bioinformatics and Bioscience (ICBB 2025)
No ratings yet
CALL FOR PAPERS - 12th International Conference On Bioinformatics and Bioscience (ICBB 2025)
2 pages
Second Semester Examinations Question Paper - Computational Genomics
No ratings yet
Second Semester Examinations Question Paper - Computational Genomics
6 pages
Lecture Notes in Biomathematics
No ratings yet
Lecture Notes in Biomathematics
8 pages
FASTA
No ratings yet
FASTA
24 pages
The Needleman Wunsch Algorithm For Sequence Alignment
No ratings yet
The Needleman Wunsch Algorithm For Sequence Alignment
46 pages
Bioinformatics Biological Database
No ratings yet
Bioinformatics Biological Database
31 pages
BGISEQ-500 WGS Demo Report en
No ratings yet
BGISEQ-500 WGS Demo Report en
17 pages
GTGF GGCF
No ratings yet
GTGF GGCF
19 pages
Bio Info 2023
No ratings yet
Bio Info 2023
2 pages
Rani Anak Mat Case 4 Report
No ratings yet
Rani Anak Mat Case 4 Report
5 pages
Lecture 4 Nucleic Acid Sequence Database
No ratings yet
Lecture 4 Nucleic Acid Sequence Database
21 pages
Genomics Powerpoint
No ratings yet
Genomics Powerpoint
19 pages
Exercise 7 Bioinformatics
No ratings yet
Exercise 7 Bioinformatics
8 pages
Phylogenetics
No ratings yet
Phylogenetics
6 pages
Bioinformatics Is The Inter-Disciplinary Branch of Biology Which Merges Computer Science, Mathematics and Engineering To Study The Biological Data
No ratings yet
Bioinformatics Is The Inter-Disciplinary Branch of Biology Which Merges Computer Science, Mathematics and Engineering To Study The Biological Data
26 pages
Bio-Biomedical Graduate Programs That Do Not Require GRE
No ratings yet
Bio-Biomedical Graduate Programs That Do Not Require GRE
5 pages
Capture D'écran . 2023-03-14 À 00.15.22
No ratings yet
Capture D'écran . 2023-03-14 À 00.15.22
54 pages
Multiple Sequence Alignment Using Clustal W.: Theory
No ratings yet
Multiple Sequence Alignment Using Clustal W.: Theory
9 pages
Quiz Dna
100% (3)
Quiz Dna
8 pages
Dna Data Bank of Japan (DDBJ)
100% (1)
Dna Data Bank of Japan (DDBJ)
29 pages
PLAZA 3.0: An Access Point For Plant Comparative Genomics
No ratings yet
PLAZA 3.0: An Access Point For Plant Comparative Genomics
8 pages
Bio Lab - Report - 2
No ratings yet
Bio Lab - Report - 2
17 pages
KCL NGScourse Session3 Handout
No ratings yet
KCL NGScourse Session3 Handout
13 pages

COMP90016 2023 06 Data Sources

Uploaded by

COMP90016 2023 06 Data Sources

Uploaded by

Computational Genomics

1 Intro & 2 3 Sequencing 4 Intro to 6 Sequencing

● Data types and File types

● Curated data resources

● Assembled genome (.fasta)

○ Complete - one contig per replicon

● Annotated genome (.gbk or .gff)

○ Translated from assembled transcripts

NCBI has database of genotype and phenotype dbGaP

EMBL has Genome phenome archive

DDBJ has genotype phenotype archive

BioProject is a collection of biological

Patient Patient Patient 31

Currated annotated resources

Protein/peptide sequence data dumps

● Peptide Atlas http://www.peptideatlas.org/

Originally developed for

Now also holds holds

● Zebra fish http://zfin.org/

Tutorials (inc. short videos) 50

Scrapes SRA data and reprocesses through standardized pipeline.

Iron pyrite Gold

• Bioinformatics can reuse data in many ways

You might also like