Storage

The document provides an overview of data storage systems in data engineering, detailing structured, unstructured, and semi-structured data storage methods. It discusses key components such as data warehouses, data lakes, and distributed file systems, along with the importance of data access frequency categorized into hot, lukewarm, and cold data. Additionally, it highlights key considerations for effective data storage, including compatibility, scalability, performance, and query capabilities.

Uploaded by

rajapraneesh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

3 views6 pages

Storage

Uploaded by

rajapraneesh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 6

Storage Systems

Unit - 2

Prepared By
Dr M Praneesh
Sri Ramakrishna College of Arts & Science
Data Storage

In data engineering, data

storage refers to the
mechanisms and
technologies used to store,
organize, and manage large
volumes of data efficiently.
It encompasses various storage
systems, databases, file systems,
and data formats designed to meet
the diverse needs of storing and
accessing data throughout its
lifecycle.
Data Storage Systems

Structured data storage involves

organizing data into predefined Unstructured data storage
schemas, tables, and columns, deals with storing data
typically used in relational database without a predefined
management systems (RDBMS) like schema or structure, such
MySQL, PostgreSQL, or SQL Server. as documents, images,
videos, audio files, and log
Semi-structured data storage files. Object storage
accommodates data with flexible solutions like Amazon S3,
schemas or irregular structures, such Google Cloud Storage, or
as JSON, XML, or key-value pairs. Azure Blob Storage are
NoSQL databases like MongoDB, popular choices for storing
Cassandra, or Couchbase are unstructured data due to
commonly used for semi-structured their scalability, durability,
data storage due to their flexible and cost-effectiveness.
schemas and scalability for handling
unstructured or semi-structured data.
Key Components of Storage
• Data warehouses are specialized databases designed for storing and analyzing
Data large volumes of structured and semi-structured data for business intelligence
ware (BI) and analytics purposes. Examples- Amazon Redshift, Google BigQuery, and
hous Snowflake
e

• Data lakes are centralized repositories that store vast amounts of raw,
unprocessed data in its native format, enabling organizations to perform
advanced analytics, machine learning, and data exploration. Technologies like
Data Apache Hadoop, Apache Spark, and AWS Glue are commonly used for building
Lake and managing data lakes, offering support for batch and real-time data
processing, data ingestion, and data governance.

• Distributed file systems like Hadoop Distributed File System (HDFS) and Google
File File System (GFS) provide scalable, fault-tolerant storage solutions for
Syste distributed computing environments. They are optimized for storing and
m processing large datasets across multiple nodes in a distributed computing
cluster, supporting parallel data processing and fault tolerance.
Data Access Frequency

Data access frequency determines the

“temperature” of your data

•Hot Data: Frequently accessed data, needing

fast retrieval, stored in high-speed storage
solutions.
•Lukewarm Data: Accessed occasionally,
stored in moderately fast storage solutions.
•Cold Data: Rarely accessed, suitable for
archival storage solutions with lower retrieval
costs but higher storage efficiency.
Key Considerations

Compatibility Scalability

Key Factors Data Retrieval

Performance Bottlenecks

Understanding of Technology Query Capabilities:

Emerging Research Trends in Database Systems
No ratings yet
Emerging Research Trends in Database Systems
21 pages
Research Paper 1-MIS
100% (1)
Research Paper 1-MIS
6 pages
Bda Unit 1 - Mam
No ratings yet
Bda Unit 1 - Mam
198 pages
Introduction To QAD Enterprise Applications User Guide PDF
No ratings yet
Introduction To QAD Enterprise Applications User Guide PDF
208 pages
OPL Recommended Settings
No ratings yet
OPL Recommended Settings
7 pages
Authorization Management: at The Customer Site
No ratings yet
Authorization Management: at The Customer Site
20 pages
SG 248069
No ratings yet
SG 248069
366 pages
Mikrotik VRRP and Load Sharing
No ratings yet
Mikrotik VRRP and Load Sharing
12 pages
Big Data Analysis
No ratings yet
Big Data Analysis
9 pages
Big Data and Hadoop Overview
100% (1)
Big Data and Hadoop Overview
17 pages
Unit 6
No ratings yet
Unit 6
143 pages
BDA Unit 2
No ratings yet
BDA Unit 2
30 pages
777 1651399819 BD Module 5
No ratings yet
777 1651399819 BD Module 5
75 pages
Data Engineering Vs Data Science
No ratings yet
Data Engineering Vs Data Science
26 pages
Super Important Questions For BDA
100% (1)
Super Important Questions For BDA
26 pages
CloudComputing DATABASE
No ratings yet
CloudComputing DATABASE
27 pages
KD6 Zapisovac
No ratings yet
KD6 Zapisovac
5 pages
FRAM Utilities UsersGuide
No ratings yet
FRAM Utilities UsersGuide
70 pages
Seminar Nosql
No ratings yet
Seminar Nosql
56 pages
Unit 1 Mangodb
No ratings yet
Unit 1 Mangodb
57 pages
Dbms Essays U1-4
No ratings yet
Dbms Essays U1-4
78 pages
The Background and Skill of Data Engineer
No ratings yet
The Background and Skill of Data Engineer
9 pages
Ds Notes
No ratings yet
Ds Notes
88 pages
Practical File of RDBMS: Mata Gujri College, Fatehgarh Sahib Punjab India 140406
No ratings yet
Practical File of RDBMS: Mata Gujri College, Fatehgarh Sahib Punjab India 140406
73 pages
Session 1
No ratings yet
Session 1
48 pages
Unit-I Remaining HM
No ratings yet
Unit-I Remaining HM
32 pages
Unit 2 Evaluating NoSQL
No ratings yet
Unit 2 Evaluating NoSQL
64 pages
Database Systems
No ratings yet
Database Systems
86 pages
Imp Answers
No ratings yet
Imp Answers
29 pages
Access Questions - Answer Key
100% (1)
Access Questions - Answer Key
2 pages
1 Introduction
No ratings yet
1 Introduction
39 pages
What's New in Solid Edge ST7
No ratings yet
What's New in Solid Edge ST7
82 pages
Ccomputing Madurya
No ratings yet
Ccomputing Madurya
20 pages
AI Practicals
No ratings yet
AI Practicals
108 pages
Queue
No ratings yet
Queue
10 pages
Wa0003.
No ratings yet
Wa0003.
23 pages
CC - Lecture 6-Data
No ratings yet
CC - Lecture 6-Data
44 pages
Big Data
No ratings yet
Big Data
53 pages
09 - Cloud-Enabling Technologies - v2
No ratings yet
09 - Cloud-Enabling Technologies - v2
45 pages
CHO-22CS035, Cloud Computing
No ratings yet
CHO-22CS035, Cloud Computing
10 pages
WK 3
No ratings yet
WK 3
29 pages
Module 1
No ratings yet
Module 1
34 pages
Lecture 6 - NoSQL
No ratings yet
Lecture 6 - NoSQL
28 pages
Lecture 16
No ratings yet
Lecture 16
31 pages
ICT Computer Support Technician 12-11 JD Ps SC 3 Feb 11
No ratings yet
ICT Computer Support Technician 12-11 JD Ps SC 3 Feb 11
3 pages
AWS Database Services
No ratings yet
AWS Database Services
15 pages
Big Data
No ratings yet
Big Data
19 pages
Bcse302l Dbms Module-7 Nosql
No ratings yet
Bcse302l Dbms Module-7 Nosql
30 pages
Big Data With Hadoop
No ratings yet
Big Data With Hadoop
26 pages
Arrays
No ratings yet
Arrays
25 pages
Lecture 1
No ratings yet
Lecture 1
31 pages
Big Data Analytics Notes
No ratings yet
Big Data Analytics Notes
10 pages
Database 240112 181346
No ratings yet
Database 240112 181346
16 pages
CM2 4G GPS Datasheet - 1
No ratings yet
CM2 4G GPS Datasheet - 1
2 pages
B360M D3H B360M D3H GSM: User's Manual
No ratings yet
B360M D3H B360M D3H GSM: User's Manual
44 pages
41 NoSQL Introduction
No ratings yet
41 NoSQL Introduction
18 pages
BDA Assignment1 BE6 20
No ratings yet
BDA Assignment1 BE6 20
10 pages
Nosql Technologies: Performance Characteristics and Monitoring
No ratings yet
Nosql Technologies: Performance Characteristics and Monitoring
18 pages
Duda
No ratings yet
Duda
13 pages
Data Engineering Lifecycle
No ratings yet
Data Engineering Lifecycle
13 pages
Udbms Notes
No ratings yet
Udbms Notes
18 pages
Test Script Purchasing Noor GroupV1
No ratings yet
Test Script Purchasing Noor GroupV1
9 pages
Database Advice Guide
No ratings yet
Database Advice Guide
19 pages
Unit 1
No ratings yet
Unit 1
17 pages
Circular Queue
No ratings yet
Circular Queue
15 pages
Big Data NOTES
No ratings yet
Big Data NOTES
14 pages
Data Engineers Inside An Organization
No ratings yet
Data Engineers Inside An Organization
11 pages
No SQL
No ratings yet
No SQL
12 pages
BDA CW Chapter 3
No ratings yet
BDA CW Chapter 3
9 pages
2 Emerging
No ratings yet
2 Emerging
10 pages
BIG DATA Notes
No ratings yet
BIG DATA Notes
11 pages
2024 Quiz 12
No ratings yet
2024 Quiz 12
3 pages
Ijeme V13 N4 5
No ratings yet
Ijeme V13 N4 5
9 pages
Uc PDF
No ratings yet
Uc PDF
10 pages
No SQL
No ratings yet
No SQL
10 pages
Understanding Source Systems
No ratings yet
Understanding Source Systems
9 pages
First QSN
No ratings yet
First QSN
2 pages
Nosql Technology
No ratings yet
Nosql Technology
8 pages
Bangladesh University of Professionals: Submitted by Submitted To ID: Section: Batch
No ratings yet
Bangladesh University of Professionals: Submitted by Submitted To ID: Section: Batch
6 pages
Advance Database
No ratings yet
Advance Database
5 pages
Lab 14.6.6.2 Configure A Site-To-Site Ipsec VPN Tunnel Using Cli
No ratings yet
Lab 14.6.6.2 Configure A Site-To-Site Ipsec VPN Tunnel Using Cli
9 pages
Data Modeling For Big Data Zhu Wang
No ratings yet
Data Modeling For Big Data Zhu Wang
7 pages
Introduction To Database Systems
No ratings yet
Introduction To Database Systems
4 pages
Eco Strip 050
No ratings yet
Eco Strip 050
17 pages
NetVu Observer 1.18.11
No ratings yet
NetVu Observer 1.18.11
15 pages
Java Spring - Thumbnail Generating
No ratings yet
Java Spring - Thumbnail Generating
14 pages
MP Assignment 1
No ratings yet
MP Assignment 1
9 pages
Volvo Cem m32c L
No ratings yet
Volvo Cem m32c L
8 pages
MIFAREPLUSXFS
No ratings yet
MIFAREPLUSXFS
2 pages
Iv It B Timetable
No ratings yet
Iv It B Timetable
1 page
Asynchronous Bus.
No ratings yet
Asynchronous Bus.
3 pages
Adnaco R1BP1B DS Rev1.1 Ia
No ratings yet
Adnaco R1BP1B DS Rev1.1 Ia
3 pages
Ws 3500
No ratings yet
Ws 3500
2 pages
PS Experiment 02
No ratings yet
PS Experiment 02
2 pages
Use The English For Life Test CD-ROM: How To..
No ratings yet
Use The English For Life Test CD-ROM: How To..
1 page
Database And Computer Management: SERIES 1, #3
From Everand
Database And Computer Management: SERIES 1, #3
Elias Mutegi
No ratings yet
DBMS MASTER: Become Pro in Database Management System
From Everand
DBMS MASTER: Become Pro in Database Management System
Ummed Singh
No ratings yet
Databases: System Concepts, Designs, Management, and Implementation
From Everand
Databases: System Concepts, Designs, Management, and Implementation
Jonathan Rigdon
No ratings yet

Storage

Uploaded by

Storage

Uploaded by

Storage Systems

In data engineering, data

Structured data storage involves

Data access frequency determines the

•Hot Data: Frequently accessed data, needing

Key Factors Data Retrieval

Understanding of Technology Query Capabilities:

You might also like