0% found this document useful (0 votes)

41 views4 pages

NGS Data Analysis

Uploaded by

lucylit0666

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

41 views4 pages

NGS Data Analysis

Uploaded by

lucylit0666

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

NGS Data Analysis

NGS (Next-Generation Sequencing) generates massive amounts of raw data,

requiring systematic analysis to ensure accuracy and reliability. The initial
steps include handling FASTQ files, performing a quality check, and
applying pre-processing steps to prepare the data for downstream
analysis.

1. FASTQ Files

What are FASTQ Files?

• FASTQ is a standard file format for storing raw sequence data

generated from NGS platforms (e.g., Illumina, Oxford Nanopore).
• It combines both nucleotide sequence data and quality scores in a
single file.

Structure of a FASTQ File:

Each sequence entry in a FASTQ file consists of 4 lines:

1. Sequence Identifier: Starts with @ followed by a unique sequence

identifier.
2. Sequence: The actual nucleotide sequence (A, T, G, C, N).
3. Plus (+) Line: A + symbol, often followed by the sequence ID
(optional).
4. Quality Scores: ASCII-encoded quality scores corresponding to each
base in the sequence.

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGT
+
!''*((((***+))%%%++)(%%%%).1***-+*''

Key Tools for Handling FASTQ Files:

• FASTQC: Quality control checks.

• seqtk: Lightweight toolkit for FASTQ file manipulation.
• FASTP: FASTQ pre-processing tool.

2. Quality Check (QC)

Why is Quality Check Important?

• Ensures the accuracy of raw sequencing data.

• Identifies poor-quality reads, adapter contamination, and other
sequencing artifacts.
• Prevents downstream errors in alignment, variant calling, or
assembly.

Key Metrics in Quality Control:

1. Per-base Sequence Quality: Quality scores across each nucleotide

position.
2. Per-sequence Quality Scores: Overall quality distribution of all
reads.
3. Adapter Content: Detects adapter sequences that may still be
present in reads.
4. GC Content: Ensures uniform GC distribution.
5. Read Length Distribution: Consistency in read lengths across
samples.
6. Duplicated Reads: Identifies PCR duplicates.

Quality Control Tools:

• FASTQC: Comprehensive quality assessment.

• MultiQC: Aggregates multiple FASTQC reports.
• Trim Galore!: Combines adapter trimming and QC filtering.

Example Output from FASTQC:

• Green: Good quality.

• Orange: Warning.
• Red: Poor quality (requires intervention).

3. Pre-processing

What is Pre-processing?

Pre-processing involves cleaning and preparing raw sequencing data for

downstream analysis. It includes:

1. Adapter Trimming
2. Quality Filtering
3. Read Trimming and Cropping
4. Removal of Low-quality Reads
5. De-duplication
Key Steps in Pre-processing:

1. Adapter Trimming:

• Adapters are short sequences added during library preparation.

• Residual adapter sequences can interfere with alignment and
analysis.
• Tools:
o Cutadapt
o Trimmomatic

2. Quality Filtering:

• Removes reads with poor-quality scores.

• Filters based on:
o Minimum Phred Score (e.g., Q30)
o Minimum read length (e.g., >50 bp)
• Tools:
o FASTP
o PRINSEQ

3. Read Trimming and Cropping:

• Trims poor-quality bases from the ends of reads.

• Crops reads to a specific length if required.
• Tools:
o Sickle
o Trim Galore!

4. Removal of Contaminants:

• Identifies and removes reads originating from non-target sources

(e.g., host genomes, bacterial contamination).
• Tools:
o Bowtie2
o Kraken2

5. De-duplication:

• PCR duplicates arise from library amplification and should be

removed to prevent bias.
• Tools:
o Picard (MarkDuplicates)
o Samtools rmdup
4. Workflow Summary:

Step Purpose Tools

1. Quality Check Assess raw data FASTQC, MultiQC
(QC) quality

2. Adapter Remove adapter Cutadapt,

Trimming sequences Trimmomatic

3. Quality Filtering Remove low-quality FASTP, PRINSEQ

reads

4. Read Trimming Remove low-quality Sickle, Trim Galore!

bases

5. Contaminant Filter unwanted Bowtie2, Kraken2

Removal reads

6. De-duplication Remove PCR Picard, Samtools

duplicates

Final Output After Pre-processing:

• Cleaned FASTQ Files: High-quality reads, free from adapters and

contaminants.
• Quality Metrics Report: Ensures the data meets downstream
analysis requirements.

Key Takeaways:

1. FASTQ Files: Store raw sequencing reads and quality scores.

2. Quality Check: Detects sequencing errors and biases using tools like
FASTQC.
3. Pre-processing: Improves data quality by trimming adapters,
filtering low-quality reads, and removing contaminants.
4. Tools: Essential tools include FASTQC, Cutadapt, Trimmomatic,
Bowtie2, and Picard.
5. Next Steps After Pre-processing: Alignment, variant calling,
transcriptome assembly, or metagenomic analysis.

Advance in Viral Genomes
No ratings yet
Advance in Viral Genomes
135 pages
Microbiomes Health and The Environment 1676562923
100% (1)
Microbiomes Health and The Environment 1676562923
733 pages
Test Bank For Microbiology 2nd Edition by Wessner Chapter 8 Not Included
100% (3)
Test Bank For Microbiology 2nd Edition by Wessner Chapter 8 Not Included
25 pages
Novogene Amplicon Standard Analysis DEMO REPORT
100% (1)
Novogene Amplicon Standard Analysis DEMO REPORT
37 pages
Statquest Gentle Introduction To Rna Seq
100% (1)
Statquest Gentle Introduction To Rna Seq
188 pages
Bioinformatics
No ratings yet
Bioinformatics
3 pages
Genetic Analysis An Integrated Approach, 3rd Edition All Format Download
100% (12)
Genetic Analysis An Integrated Approach, 3rd Edition All Format Download
14 pages
(First Author) 2005 Journal-Of-Biotechnology
No ratings yet
(First Author) 2005 Journal-Of-Biotechnology
189 pages
1.2,3 DNA Sequencing
No ratings yet
1.2,3 DNA Sequencing
64 pages
Biodiversity Assessment, DNA Barcoding, and The Minority Majority
No ratings yet
Biodiversity Assessment, DNA Barcoding, and The Minority Majority
11 pages
004 Cloningv PDF
No ratings yet
004 Cloningv PDF
127 pages
Tosic Et Al 2014 TJFAS
No ratings yet
Tosic Et Al 2014 TJFAS
7 pages
Lecture 1-Need For Change - Genome To Comparative Genomics
No ratings yet
Lecture 1-Need For Change - Genome To Comparative Genomics
23 pages
Chapter 8-Molecular Biology
No ratings yet
Chapter 8-Molecular Biology
111 pages
Achigan-DakoTchokponhoueNDanikouetal 2015
No ratings yet
Achigan-DakoTchokponhoueNDanikouetal 2015
13 pages
PMFIAS CA Prelims 2024 PF Sci and Tech
No ratings yet
PMFIAS CA Prelims 2024 PF Sci and Tech
54 pages
Nextera XT Library Prep Reference Guide 15031942 02 PDF
No ratings yet
Nextera XT Library Prep Reference Guide 15031942 02 PDF
28 pages
Zybio Urine Sediment-U2610
No ratings yet
Zybio Urine Sediment-U2610
29 pages
Data Analysis in Next Generation Sequencing
100% (1)
Data Analysis in Next Generation Sequencing
78 pages
Biotech Reviewer
No ratings yet
Biotech Reviewer
5 pages
Sanger Sequencing
No ratings yet
Sanger Sequencing
16 pages
Reference Standards For Nextgeneration Sequencing
No ratings yet
Reference Standards For Nextgeneration Sequencing
12 pages
Overexpression of A Hydrogenase Gene in Clostridium Paraputrificum To Enhance Hydrogen Gas Production
No ratings yet
Overexpression of A Hydrogenase Gene in Clostridium Paraputrificum To Enhance Hydrogen Gas Production
6 pages
07 Phylogenetic Reconstruction
No ratings yet
07 Phylogenetic Reconstruction
55 pages
Lecture 8
No ratings yet
Lecture 8
60 pages
Morpho-Molecular Identification and Management of Erysiphe Heraclei Causing Dill Powdery Mildew Using A Biocide, Essential Oils, and Organic Acids
No ratings yet
Morpho-Molecular Identification and Management of Erysiphe Heraclei Causing Dill Powdery Mildew Using A Biocide, Essential Oils, and Organic Acids
12 pages
Fastqc 1.1 What Is Fastqc
No ratings yet
Fastqc 1.1 What Is Fastqc
16 pages
Comment: Two Years of COVID-19 in Africa: Lessons For The World
No ratings yet
Comment: Two Years of COVID-19 in Africa: Lessons For The World
4 pages
ScRNA Seq Course
100% (1)
ScRNA Seq Course
337 pages
Ngs Technologies
No ratings yet
Ngs Technologies
34 pages
3 1000000135989 v03 NextSeq 10002000 Run Monitoring
No ratings yet
3 1000000135989 v03 NextSeq 10002000 Run Monitoring
49 pages
Performance Review and Clinical Case Stu
No ratings yet
Performance Review and Clinical Case Stu
15 pages
NGS Quantification Presentation
No ratings yet
NGS Quantification Presentation
15 pages
Proteins - 2021 - Alexander - Target Highlights in CASP14 Analysis of Models by Structure Providers
No ratings yet
Proteins - 2021 - Alexander - Target Highlights in CASP14 Analysis of Models by Structure Providers
26 pages
Intro To RNA-seq Concepts
No ratings yet
Intro To RNA-seq Concepts
85 pages
Quality Control & Normalization of RNA SEQ Data: Shivangi Agarwal, PHD
No ratings yet
Quality Control & Normalization of RNA SEQ Data: Shivangi Agarwal, PHD
35 pages
Whole Exome Seq Data Analysis 1742774815
No ratings yet
Whole Exome Seq Data Analysis 1742774815
58 pages
Recent Advances in Computational Prediction of Secondary and Supersecondary Structures From Protein Sequences
No ratings yet
Recent Advances in Computational Prediction of Secondary and Supersecondary Structures From Protein Sequences
21 pages
Sequencing Quality Control
No ratings yet
Sequencing Quality Control
104 pages
Digital PCR Methods
No ratings yet
Digital PCR Methods
11 pages
Lec 4 FastQC Output Sunjida
No ratings yet
Lec 4 FastQC Output Sunjida
8 pages
NGS Data Analysis
No ratings yet
NGS Data Analysis
19 pages
Nazarov QC-Statistics
No ratings yet
Nazarov QC-Statistics
50 pages
EBTY348L - Comp Genomics Lectures - Even Sem - 2024-25 - Set 2
No ratings yet
EBTY348L - Comp Genomics Lectures - Even Sem - 2024-25 - Set 2
29 pages
Intro 2 RNAseq
No ratings yet
Intro 2 RNAseq
98 pages
Metagenomics Lucylegion
No ratings yet
Metagenomics Lucylegion
21 pages
Computational Genomics Tutorial计算基因组学
No ratings yet
Computational Genomics Tutorial计算基因组学
90 pages
Analysis Results
No ratings yet
Analysis Results
29 pages
M.SC Transcriptome Analysis 2025
No ratings yet
M.SC Transcriptome Analysis 2025
21 pages
RNA-Seq and Transcriptome Analysis: Jessica Holmes
No ratings yet
RNA-Seq and Transcriptome Analysis: Jessica Holmes
98 pages
RNA Seq R - Final Decode
No ratings yet
RNA Seq R - Final Decode
76 pages
Cancer Genomics Technology Discovery and Translati
No ratings yet
Cancer Genomics Technology Discovery and Translati
16 pages
NGS Data Sources
No ratings yet
NGS Data Sources
3 pages
Falco
No ratings yet
Falco
22 pages
Analysis of RNA-Seq Data
No ratings yet
Analysis of RNA-Seq Data
71 pages
Next Generation Sequencing Analysis Lecture 03.
No ratings yet
Next Generation Sequencing Analysis Lecture 03.
21 pages
Next Generation Sequencing Analysis Lecture 04.
No ratings yet
Next Generation Sequencing Analysis Lecture 04.
32 pages
General Biology 2 PDF
80% (79)
General Biology 2 PDF
56 pages
Form For External PG Students
No ratings yet
Form For External PG Students
2 pages
Introduction To Differential Gene Expression Analysis Using RNA-seq
No ratings yet
Introduction To Differential Gene Expression Analysis Using RNA-seq
97 pages
Genetic Remodelling Through AI
No ratings yet
Genetic Remodelling Through AI
10 pages
05 Introduction To Next-Generation Sequencing (NGS)
No ratings yet
05 Introduction To Next-Generation Sequencing (NGS)
25 pages
Lab02 - Reading Results
No ratings yet
Lab02 - Reading Results
16 pages
Summary of Sequencing Updated
No ratings yet
Summary of Sequencing Updated
11 pages
Revolutionizing Beer Quality Control: Rapid Microbial Identification Via Nanopore Sequencing
No ratings yet
Revolutionizing Beer Quality Control: Rapid Microbial Identification Via Nanopore Sequencing
6 pages
Nihms 977214
No ratings yet
Nihms 977214
21 pages
HMCW NGS Data Format
No ratings yet
HMCW NGS Data Format
21 pages
RNA Seq Tutorial
0% (1)
RNA Seq Tutorial
139 pages
生工生物宏全基因组测序项目分析报告模板 (01 36)
No ratings yet
生工生物宏全基因组测序项目分析报告模板 (01 36)
36 pages
Seqqscorer: Automated Quality Control of Next-Generation Sequencing Data Using Machine Learning
No ratings yet
Seqqscorer: Automated Quality Control of Next-Generation Sequencing Data Using Machine Learning
20 pages
CLC Genomics Workbench User Manual Subset
No ratings yet
CLC Genomics Workbench User Manual Subset
222 pages
Introduction To Sushi, A NGS Data Analysis Workflow Manager
No ratings yet
Introduction To Sushi, A NGS Data Analysis Workflow Manager
37 pages
34 Fastp An Ultra
No ratings yet
34 Fastp An Ultra
7 pages
Lecture2-High Throughput Sequencing-2019
No ratings yet
Lecture2-High Throughput Sequencing-2019
58 pages
Tutorial Raw
No ratings yet
Tutorial Raw
13 pages
Metabarcoding Protocol
No ratings yet
Metabarcoding Protocol
8 pages
Brief Guide For NGS Transcriptomics: From Gene Expression To Genetics
No ratings yet
Brief Guide For NGS Transcriptomics: From Gene Expression To Genetics
120 pages
Colon Report
No ratings yet
Colon Report
23 pages
Intro To NGS - Torsten Seemann - PeterMac - 27 Jul 2012
No ratings yet
Intro To NGS - Torsten Seemann - PeterMac - 27 Jul 2012
51 pages
NGS QC
No ratings yet
NGS QC
10 pages
What Does A FASTQ File Look Like?
No ratings yet
What Does A FASTQ File Look Like?
7 pages
Glossary of Terms B4B
No ratings yet
Glossary of Terms B4B
8 pages
NGS QC Metrics
No ratings yet
NGS QC Metrics
7 pages
Summary Bioinformation Technology
No ratings yet
Summary Bioinformation Technology
15 pages
Galaxy Nanopore
No ratings yet
Galaxy Nanopore
11 pages
RNA-Seq Module 1
No ratings yet
RNA-Seq Module 1
54 pages
Poster PPT Portrait
No ratings yet
Poster PPT Portrait
1 page
Chapter 3 Inspection of Sequence Quality PDF
No ratings yet
Chapter 3 Inspection of Sequence Quality PDF
18 pages
Denbi Metagenomics Workshop
No ratings yet
Denbi Metagenomics Workshop
21 pages
FastQC TutorialAndFAQ
No ratings yet
FastQC TutorialAndFAQ
8 pages
Transcriptome Software Paper
No ratings yet
Transcriptome Software Paper
7 pages
NGS ToolsFormats r1 BDG
No ratings yet
NGS ToolsFormats r1 BDG
32 pages
Blank en Berg Pittsburgh 2011 Ngs
No ratings yet
Blank en Berg Pittsburgh 2011 Ngs
59 pages
Genomics For Beginner
No ratings yet
Genomics For Beginner
9 pages
@MBS MedicalBooksStore 2019 Genetic Analysis An Integrated Approach
83% (6)
@MBS MedicalBooksStore 2019 Genetic Analysis An Integrated Approach
901 pages
Comprehensive Guide to Nmap: Definitive Reference for Developers and Engineers
From Everand
Comprehensive Guide to Nmap: Definitive Reference for Developers and Engineers
Richard Johnson
No ratings yet
Tcpdump in Depth: Definitive Reference for Developers and Engineers
From Everand
Tcpdump in Depth: Definitive Reference for Developers and Engineers
Richard Johnson
No ratings yet