Lecture2-DataMining for Bioinformatics

Uploaded by

shoyo3918

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

20 views

Lecture2-DataMining for Bioinformatics

Uploaded by

shoyo3918

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

Data Mining for

Bioinformatics
Dr. Y. V. Lokeswari
Associate Professor
SSN College of Engineering
Data Mining in Bioinformatics
• Data mining in bioinformatics implies extracting valuable information from a large amount of
incomprehensible, biological data. It is a process that leads to knowledge discovery.
• Data mining in bioinformatics deals with different techniques and algorithms to gain knowledge from
data of biological sequences, structures and microarrays.
• Biomedical Data Analysis
• Major Nucleotide Sequence Database, Protein Sequence Database, and Gene Expression
Database
• A DNA sequence consists of four components, namely, adenine (A), cytosine (C), guanine (G) and
thymine (T), specifying the genetic code of the organism.
• A protein sequence consists of 20 amino acids, coded from the coding region of a DNA sequence.
• Gene expression data measures the expression of a particular gene, whether upregulated, down-
regulated, or non-expressing, under specific conditions in a cell.
Data mining=extracting valuable info from large amt of incomprehensible biological
data (seq, structures and MicroArrays).
DNA= alphabet seq of A,G,C,T
-----> leads to knowledge discovery
there are regions in DNA that help code amino acids.
Uses diff techniques and algos
20 amino acids=1 protein seq
Data Mining in Bioinformatics
• The three major DNA sequence databases
• EMBL (http://www.ebi.ac.uk/embl/index.html) European Bioinformatics Institute (EBI), an
outstation of the European Molecular Biology Laboratory (EMBL)
• GenBank (http://www.ncbi.nlm.nih.gov/Genbank/) GenBank database is maintained by the
National Center for Biotechnology Information (NCBI),
• DDBJ (http://www.ddbj.nig.ac.jp/Welcome-e.html) DNA Data Bank of Japan at the National
Institute of Genetics (NIG) in Japan.
• The three databases have collaborated to form the International Nucleotide Sequence
Database Collaboration (http://www.ncbi.nlm.nih.gov/projects/collab/).
• The three major databases for protein sequence are:
• Swiss-Prot (http://www.ebi.ac.uk/swissprot/index.html). Swiss Institute for Bioinformatics (SIB)
• TrEMBL (http://www.ebi.ac.uk/trembl/index.html). The TrEMBL database, maintained by EBI,
contains the translations of all coding sequences (CDS) present in the EMBL Nucleotide Sequence
Database,
• PIR (http://pir.georgetown.edu/pirwww/). The Protein Information Resource (PIR), located at
Georgetown University Medical Center, is an integrated public bioinformatics resource that supports
genomic and proteomic research and scientific studies.
Data Mining in Bioinformatics
• The Microarray Gene Expression Data (MGED) Society (http://www.mged.org/index.html) is an
international organization of biologists, computer scientists, and data analysts that aims to facilitate
the sharing of microarray data generated by functional genomics and proteomics experiments.
• The ArrayExpress at the EBI (http://www.ebi.ac.uk/arrayexpress/index.html) is a public repository
for microarray data.
• The Gene Expression Omnibus (http://www.ncbi.nlm.nih.gov/geo/) at NCBI is a gene expression
and hybridization array data repository.
Data Mining in Bioinformatics
• Software Tools for Bioinformatics Research
• The software tools that facilitate research in bioinformatics can be broadly categorized into four
classes:
• (1) data retrieval tools, (2) sequence comparison and alignment tools, (3) pattern discovery tools,
and (4) visualization tools
• A major tool for data retrieval is Entrez. Others are DBGET/ linkDB and SRS – Sequence Retrieval System
• Entrez is an integrated data retrieval system developed by NCBI that provides integrated access to a
wide range of data domains, including literature, nucleotide and protein sequences, complete
genomes, 3D structures, and more..
• One can use Entrez to:
• Identify a representative, well annotated mRNA sequence record from the millions of sequences
in the Entrez Nucleotide data domain.
• Retrieve associated literature and protein records.
• Identify conserved domains within the protein.
• Identify known mutations within the gene or protein.
• Find a resolved three-dimensional structure for the protein, or, in its absence, identify structures
with homologous sequence.
• View the genomic context of the gene and download the sequence region.
Data Mining in Bioinformatics
• Sequence comparison and alignment tools are
• BLAST (Basic Local Alignment Search Tool, available at http://www.ncbi.nlm. nih.gov/BLAST/)
• BLAST is used for comparing gene and protein sequences against others in public databases.
• FASTA (FAST Alignment, available at http://www.ebi.ac.uk/fasta33/)
• FASTA can be used for a fast protein comparison or a fast nucleotide comparison.
• Multiple sequence alignment, the tool available is ClustalW and Custal Omega
• Refer to https://www.youtube.com/watch?v=LokO-iFJdqc
• ClustalW can be used to align DNA or protein sequences in order to elucidate their relationships
as well as their evolutionary origin.
• Pattern discovery tools are used to search for patterns or features in the data.
• An important pattern discovery tool is cluster analysis
• It is used to find groupings in a given dataset such that objects in the same group are similar to each
other while objects in different groups are dissimilar.
• Cluster analysis has been used extensively in gene expression data analysis (see
http://rana.lbl.gov/EisenSoftware.htm).
• Two useful integrated tools for pattern discovery are
• Expression Profiler (http://ep.ebi.ac.uk/EP/)
• GeneQuiz (available at http://jura.ebi.ac.uk:8765/ext-genequiz/)
Data Mining in Bioinformatics
• Visualization tools allow an interactive, graphical display of genomic data.
• Most major genome analysis packages, such as Expression Profiler, and GeneQuiz, have
a visualization tool integrated in them.
• Visualization tools available for bioinformatics data are:
• TreeView (available at http://rana.lbl.gov/EisenSoftware.htm),
• BioViews
• Genes_Graph
• Protein Explorer (available at http://www.proteinexplorer.org)

Biological Databases Lec 2,3
No ratings yet
Biological Databases Lec 2,3
49 pages
Module 1 Organic Medicinals
No ratings yet
Module 1 Organic Medicinals
7 pages
The Practice of Medicinal Chemistry, 4th Edition
0% (1)
The Practice of Medicinal Chemistry, 4th Edition
2 pages
Unit V DM
No ratings yet
Unit V DM
96 pages
Bioinformatics Database and Applications
100% (3)
Bioinformatics Database and Applications
82 pages
CH12
No ratings yet
CH12
8 pages
Sec1 Introduction to Bioinformatics
No ratings yet
Sec1 Introduction to Bioinformatics
20 pages
Bioinformatics
No ratings yet
Bioinformatics
47 pages
Biological Databases
No ratings yet
Biological Databases
28 pages
Tics - A Brief Introduction
No ratings yet
Tics - A Brief Introduction
4 pages
Bioinformatics Tools For Nucleotide Sequence Analysis and Database Exploration
No ratings yet
Bioinformatics Tools For Nucleotide Sequence Analysis and Database Exploration
75 pages
Day 1
No ratings yet
Day 1
38 pages
unit 1
No ratings yet
unit 1
24 pages
Bioinformatics Lecture Notes Database
No ratings yet
Bioinformatics Lecture Notes Database
28 pages
Fat noews docx (1)
No ratings yet
Fat noews docx (1)
32 pages
8024 Bio Info
No ratings yet
8024 Bio Info
28 pages
Module 2 (Bioinformatics)
No ratings yet
Module 2 (Bioinformatics)
81 pages
Database
No ratings yet
Database
40 pages
Bio Informatics
No ratings yet
Bio Informatics
46 pages
Basics of Bioinformatics
100% (7)
Basics of Bioinformatics
99 pages
Bioinformatics PPT Section B Data Storage and Retrival Group 3
No ratings yet
Bioinformatics PPT Section B Data Storage and Retrival Group 3
36 pages
Bioinformatics: Intended Learning Outcomes
No ratings yet
Bioinformatics: Intended Learning Outcomes
9 pages
Bioinformatics Overview
100% (1)
Bioinformatics Overview
18 pages
BIOINFORMATICS - eNOTES
No ratings yet
BIOINFORMATICS - eNOTES
23 pages
Capture D'écran . 2023-03-14 À 00.15.22
No ratings yet
Capture D'écran . 2023-03-14 À 00.15.22
54 pages
BCH 428 Slide.pptx (1)
No ratings yet
BCH 428 Slide.pptx (1)
32 pages
Biological Data Bases
No ratings yet
Biological Data Bases
36 pages
Datamining
No ratings yet
Datamining
15 pages
BCH 505 Bioinformatics 3(2 2) Databases
No ratings yet
BCH 505 Bioinformatics 3(2 2) Databases
17 pages
Data Retrieval
67% (3)
Data Retrieval
17 pages
biologicaldatabase-190402034501
No ratings yet
biologicaldatabase-190402034501
26 pages
Bioinformatics Intro
No ratings yet
Bioinformatics Intro
69 pages
FALLSEM2019-20 BIT2001 ETH VL2019201000690 Reference Material I 11-Jul-2019 Unit I New
No ratings yet
FALLSEM2019-20 BIT2001 ETH VL2019201000690 Reference Material I 11-Jul-2019 Unit I New
48 pages
Plant Biotechnology
No ratings yet
Plant Biotechnology
44 pages
Index: Auroras Technological and Research Institute
No ratings yet
Index: Auroras Technological and Research Institute
56 pages
BIOINFORMATICS
No ratings yet
BIOINFORMATICS
85 pages
Introduction To Bioinformatics (Databases)
No ratings yet
Introduction To Bioinformatics (Databases)
28 pages
Bioinformatics Biological Database
No ratings yet
Bioinformatics Biological Database
31 pages
Bio PPT
No ratings yet
Bio PPT
35 pages
module 4 merged
No ratings yet
module 4 merged
283 pages
Bio in For Matics
No ratings yet
Bio in For Matics
4 pages
Lecture 5- DataBase
No ratings yet
Lecture 5- DataBase
18 pages
Bioinform-Tica-Pdf-May-6-2010-12-38-Pm-3-5-Meg
No ratings yet
Bioinform-Tica-Pdf-May-6-2010-12-38-Pm-3-5-Meg
105 pages
A Review Article On Bioinformatics Tools and Software
No ratings yet
A Review Article On Bioinformatics Tools and Software
14 pages
Nucleic_Acid_Databases
No ratings yet
Nucleic_Acid_Databases
37 pages
Bioinformatics
No ratings yet
Bioinformatics
22 pages
Unit 6 - Bioinformatics
No ratings yet
Unit 6 - Bioinformatics
41 pages
Biological Data and Database
No ratings yet
Biological Data and Database
13 pages
"MBG1002 Biological Databases Week II
No ratings yet
"MBG1002 Biological Databases Week II
37 pages
M Lec 01 & 02 Biological Database
No ratings yet
M Lec 01 & 02 Biological Database
50 pages
Presentation 11
No ratings yet
Presentation 11
20 pages
2024.HF_BioInformatics_Lec3p
No ratings yet
2024.HF_BioInformatics_Lec3p
11 pages
Biological Information on Artificial Intelligence
No ratings yet
Biological Information on Artificial Intelligence
20 pages
CMSC 838T - Lecture 9: Bioinformatics Databases
No ratings yet
CMSC 838T - Lecture 9: Bioinformatics Databases
65 pages
Exploring Database and Analyzing Protein Sequence
No ratings yet
Exploring Database and Analyzing Protein Sequence
70 pages
Bioinformatics - Group21 - Report - Application of Bioinformatics in Agriculture
No ratings yet
Bioinformatics - Group21 - Report - Application of Bioinformatics in Agriculture
11 pages
Lecture_3
No ratings yet
Lecture_3
55 pages
Bio in For Matics
No ratings yet
Bio in For Matics
17 pages
Biological Databases Genbank
No ratings yet
Biological Databases Genbank
31 pages
Introduction to Bioinformatics, Sequence and Genome Analysis
From Everand
Introduction to Bioinformatics, Sequence and Genome Analysis
Jerry H. Swift
No ratings yet
Introduction to Bioinformatics Using Action Labs
From Everand
Introduction to Bioinformatics Using Action Labs
Jean-Louis Lassez
5/5 (1)
Bioinformatics Unveiled
From Everand
Bioinformatics Unveiled
Joan Melody
No ratings yet
Lecture4-Gene Prediction Problem - Simiarity Based Method
No ratings yet
Lecture4-Gene Prediction Problem - Simiarity Based Method
5 pages
Lecture4-Protein Data Analysis
No ratings yet
Lecture4-Protein Data Analysis
26 pages
Lecture3-DNA Data Analysis
No ratings yet
Lecture3-DNA Data Analysis
17 pages
Lecture1-Bioinformatics Technologies
No ratings yet
Lecture1-Bioinformatics Technologies
69 pages
Lecture2-Structural Bioinformatics
No ratings yet
Lecture2-Structural Bioinformatics
8 pages
Lecture3-Structural Bioinformatics-Secondary Resources
No ratings yet
Lecture3-Structural Bioinformatics-Secondary Resources
26 pages
Head and Neck Imaging 2 Volume Set Expert Consult Online and Print 5th Edition Peter M. Som - The ebook is ready for download, no waiting required
100% (4)
Head and Neck Imaging 2 Volume Set Expert Consult Online and Print 5th Edition Peter M. Som - The ebook is ready for download, no waiting required
30 pages
Evolutionary Genomics and Systems Biology 1st Edition Gustavo Caetano-Anolles 2024 scribd download
100% (19)
Evolutionary Genomics and Systems Biology 1st Edition Gustavo Caetano-Anolles 2024 scribd download
60 pages
Understanding the Concepts of Genes and Chromosomes
No ratings yet
Understanding the Concepts of Genes and Chromosomes
7 pages
DNA and Replication Worksheet Answers
No ratings yet
DNA and Replication Worksheet Answers
2 pages
MolBio Lec Lesson 1 (Part 1)
No ratings yet
MolBio Lec Lesson 1 (Part 1)
2 pages
Lecture 17-Multisubstrate Enzyme RXN Kinetics
100% (1)
Lecture 17-Multisubstrate Enzyme RXN Kinetics
13 pages
Bio-QP-2 (1)
No ratings yet
Bio-QP-2 (1)
15 pages
RNAi Drug List
No ratings yet
RNAi Drug List
26 pages
SZABMU Biology Most Repeated MCQs (Revised Key) by Premed - pk-2
No ratings yet
SZABMU Biology Most Repeated MCQs (Revised Key) by Premed - pk-2
9 pages
Unit 2 Conversion of Muscle To Meat: Structure
No ratings yet
Unit 2 Conversion of Muscle To Meat: Structure
10 pages
Cell Parts and Their Functions
50% (2)
Cell Parts and Their Functions
21 pages
Chemical Basis of Life 01
No ratings yet
Chemical Basis of Life 01
4 pages
Pharmacogenics Challenges and Opportunities in Therapeutic Implementation Y. W. Francis Lam all chapter instant download
100% (1)
Pharmacogenics Challenges and Opportunities in Therapeutic Implementation Y. W. Francis Lam all chapter instant download
55 pages
2.industrial Media and Nutrition of Industrial Organisms
No ratings yet
2.industrial Media and Nutrition of Industrial Organisms
38 pages
Nitrogen Cycle ppt-1
No ratings yet
Nitrogen Cycle ppt-1
14 pages
2009 Milk Derived Bioactive Peptides From Science To Applications PDF
No ratings yet
2009 Milk Derived Bioactive Peptides From Science To Applications PDF
11 pages
SBT 100 Cellular Basis of Life
No ratings yet
SBT 100 Cellular Basis of Life
2 pages
BIOL 409 Quiz #8 KEY
No ratings yet
BIOL 409 Quiz #8 KEY
2 pages
Exam Qs With Answers
No ratings yet
Exam Qs With Answers
10 pages
Enzymes Lols
No ratings yet
Enzymes Lols
39 pages
Laboratory Methods For Analyzing Monoclonal Proteins - UpToDate
No ratings yet
Laboratory Methods For Analyzing Monoclonal Proteins - UpToDate
50 pages
Alpah Term ss2 Biology e - Note
No ratings yet
Alpah Term ss2 Biology e - Note
39 pages
Complete Download Biochemical Physiological and Molecular Aspects of Human Nutrition 4th ed 4th Edition Martha H. Stipanuk PDF All Chapters
100% (3)
Complete Download Biochemical Physiological and Molecular Aspects of Human Nutrition 4th ed 4th Edition Martha H. Stipanuk PDF All Chapters
29 pages
Legumes and Pulses FPP
No ratings yet
Legumes and Pulses FPP
6 pages
DNA Profiling: Aims & Objectives
No ratings yet
DNA Profiling: Aims & Objectives
3 pages
Dorothee_Kern
No ratings yet
Dorothee_Kern
5 pages
Concept Strengthening Sheet CSS-02 Botany: Regd. Office:Aakash Tower, 8, Pusa Road, New Delhi-110005, Ph.011-47623456
No ratings yet
Concept Strengthening Sheet CSS-02 Botany: Regd. Office:Aakash Tower, 8, Pusa Road, New Delhi-110005, Ph.011-47623456
6 pages
Preliminary Study of C. (Morphocarabus) Zawadzkii Seriatissimus
No ratings yet
Preliminary Study of C. (Morphocarabus) Zawadzkii Seriatissimus
1 page

Lecture2-DataMining for Bioinformatics

Uploaded by

Lecture2-DataMining for Bioinformatics

Uploaded by

Data Mining for

You might also like