Data Engineering Roadmap

The document outlines a 10-week training program focused on data engineering, covering topics such as setting up Postgres and Airflow, data ingestion, analytics engineering, batch and streaming processing, data quality, and orchestration. Each week has specific objectives, including hands-on labs and a capstone project to apply learned skills. The program emphasizes the use of tools like Docker, dbt, Spark, and Great Expectations for data management and validation.

Uploaded by

Phát Nguyễn Hồng

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as XLSX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views2 pages

Data Engineering Roadmap

Uploaded by

Phát Nguyễn Hồng

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as XLSX, PDF, TXT or read online on Scribd

You are on page 1/ 2

Subject Objective

Week 1: Introduction and - Running Postgres locally with Docker

Prerequisites -- Setting Setting up
up Airflow
Snowflakelocally
Cloud Data Warehouse
Week 2: Data Ingestion - Ingesting data to AWS with Airflow
-- Partitioning andtoClustering
Ingesting data local Postgres with Airflow
Week 3: Data Warehouse -- Postgres and dbt
Best practices
Week 4: Analytics Engineering -- dbt Whatmodels
is Spark
Week 5: Batch Processing -- Testing and documenting
Spark Dataframes
Week 6: Streaming -- Schemas
Spark SQL(avro)
Processing -- Kafka Streams with Great Expectations and Deequ
Data validation
Week 7: Data Quality -- Pipeline
Week 8: Orchestration and Anomalyorchestration
detection andbenefits
incremental validation with Deequ
- Creating Data Lineage
Automation -- Week 9: working on your project
Week 9 : Capstone Project Event-based vs time-based ; business driven vs data driven
- Week 10 (extra): reviewing your peers
python Labs function and 3 DDL for 3 normal form tables.
- Forward and Backward data format
-- Sample End-to-End data pipeline
Setup Docker
-- Setup MinIO for datalake
Colllect data from API, Database
- Build Pipeline to load data from datalake to data warehouse
-with Schedule dbt pipeline
adenpotent patternwith Airlfow (Astronomer)
-- Processing
Connect BI large data with
tool (Google Spark
Studio / Metabase) with data
- Trigger and schedule spark job
-- Setup schema
Apply Spark jobregister and ML
to process validation
pipeline
-- Analyze real-time data
Implement dataops with dbt and schduling with Airflow
-- Data Quality
Research datawith Great Expectations
lineage
- Design data model for logging and lineage
To be defined

Manindra de Resume
No ratings yet
Manindra de Resume
2 pages
Data Engineering Nanodegree Program Syllabus
33% (3)
Data Engineering Nanodegree Program Syllabus
15 pages
GCP Data Engineer Course Content
No ratings yet
GCP Data Engineer Course Content
7 pages
Course Outline Hadoop and Spark For Big Data and Data Science
100% (1)
Course Outline Hadoop and Spark For Big Data and Data Science
4 pages
Ccs341 - Data Warehousing
100% (1)
Ccs341 - Data Warehousing
2 pages
Data Engineering Notes
No ratings yet
Data Engineering Notes
4 pages
Data Engineering Roadmap
No ratings yet
Data Engineering Roadmap
3 pages
DMV Lab Manual Final 13th April 24 v2
No ratings yet
DMV Lab Manual Final 13th April 24 v2
73 pages
Data Engineer Roadmap
No ratings yet
Data Engineer Roadmap
2 pages
Introduction of Subject
No ratings yet
Introduction of Subject
28 pages
AI - ML - DS 1-Credit Program-Learning-Guide
No ratings yet
AI - ML - DS 1-Credit Program-Learning-Guide
7 pages
Cloud Data Engineering V1.0
No ratings yet
Cloud Data Engineering V1.0
5 pages
Ai For IT Coders
No ratings yet
Ai For IT Coders
18 pages
Course Handout - 21CSE372P - Mastering Cloud Data Services and Analytics With AWS, Azure, and GCP - VF-1
No ratings yet
Course Handout - 21CSE372P - Mastering Cloud Data Services and Analytics With AWS, Azure, and GCP - VF-1
18 pages
Roadmap and Skills
No ratings yet
Roadmap and Skills
15 pages
Shamee K Sharma - IR
No ratings yet
Shamee K Sharma - IR
11 pages
Ai For IT Non Coders
No ratings yet
Ai For IT Non Coders
14 pages
Data and Analytics Syllabus
No ratings yet
Data and Analytics Syllabus
4 pages
Complete Data Engineering Roadmap With Resources
No ratings yet
Complete Data Engineering Roadmap With Resources
16 pages
Reda Hps PDF
100% (1)
Reda Hps PDF
1 page
Venu Data Engineering Training in Hyderabad 1
No ratings yet
Venu Data Engineering Training in Hyderabad 1
8 pages
UNIT 1 Merged
No ratings yet
UNIT 1 Merged
11 pages
NDS Data Practitioner Degree Curriculum
No ratings yet
NDS Data Practitioner Degree Curriculum
10 pages
DE Weekly Learning Update Fakrul
No ratings yet
DE Weekly Learning Update Fakrul
7 pages
Iran
No ratings yet
Iran
7 pages
Data Engineering Nanodegree Program Syllabus
No ratings yet
Data Engineering Nanodegree Program Syllabus
16 pages
5-Day KVCET Bootcamp - Data Analytics
No ratings yet
5-Day KVCET Bootcamp - Data Analytics
6 pages
Become A Big Data Engineer 1
No ratings yet
Become A Big Data Engineer 1
7 pages
Data Engineers Instagram Story
No ratings yet
Data Engineers Instagram Story
8 pages
Data Analyst & Data Engineer
No ratings yet
Data Analyst & Data Engineer
4 pages
Roadmap To Become Data Engineer in 2024
No ratings yet
Roadmap To Become Data Engineer in 2024
8 pages
Enhanced Databricks 6 Week Training Agenda
No ratings yet
Enhanced Databricks 6 Week Training Agenda
6 pages
NPN 1 Credit Course Learning Guide V1
No ratings yet
NPN 1 Credit Course Learning Guide V1
7 pages
CIT 4401big Data Analytics Course Outline
No ratings yet
CIT 4401big Data Analytics Course Outline
5 pages
Big Data Analytics Practical Through Practice
No ratings yet
Big Data Analytics Practical Through Practice
4 pages
Syllabus For Data Engineering
No ratings yet
Syllabus For Data Engineering
3 pages
Associate Data Practitioner Exam Guide English
No ratings yet
Associate Data Practitioner Exam Guide English
3 pages
Roadmap
No ratings yet
Roadmap
3 pages
Data and ML Roadmap
No ratings yet
Data and ML Roadmap
4 pages
Data Engineering Course Outline
No ratings yet
Data Engineering Course Outline
3 pages
Data Engineering Study Plan With Costs
No ratings yet
Data Engineering Study Plan With Costs
5 pages
Big Data Technologies Course Outline
No ratings yet
Big Data Technologies Course Outline
2 pages
Modern DSR 3
No ratings yet
Modern DSR 3
4 pages
Data Analysis Syllabus
No ratings yet
Data Analysis Syllabus
3 pages
Mayur Rao DE Resume
No ratings yet
Mayur Rao DE Resume
2 pages
Course Content
No ratings yet
Course Content
2 pages
Data Science
No ratings yet
Data Science
4 pages
? Phase 1
No ratings yet
? Phase 1
3 pages
Python AWS Data Engineering Course - Master PySpark, Kafka, SQL
No ratings yet
Python AWS Data Engineering Course - Master PySpark, Kafka, SQL
3 pages
Project Ideas For Beginner Data Scientists and Engineers
No ratings yet
Project Ideas For Beginner Data Scientists and Engineers
2 pages
Data Engineer Introduction
No ratings yet
Data Engineer Introduction
3 pages
Data Engineering Roadmap
No ratings yet
Data Engineering Roadmap
3 pages
Data Engineering Nanodegree Program Syllabus PDF
No ratings yet
Data Engineering Nanodegree Program Syllabus PDF
5 pages
Data Engineering Study Plan
No ratings yet
Data Engineering Study Plan
2 pages
Data Engineer in 3 Months
No ratings yet
Data Engineer in 3 Months
2 pages
Course Outline Hadoop and Spark For Big Data and Data Science PDF
No ratings yet
Course Outline Hadoop and Spark For Big Data and Data Science PDF
4 pages
Data Engineering Roadmap
No ratings yet
Data Engineering Roadmap
1 page
CSR BC417 Datasheet
100% (2)
CSR BC417 Datasheet
116 pages
Generating Evidence For Artificial Intelligence-Based Medical Devices
No ratings yet
Generating Evidence For Artificial Intelligence-Based Medical Devices
104 pages
ME990-IH-Section 2a - LongBoltFlangeDesignProblems
No ratings yet
ME990-IH-Section 2a - LongBoltFlangeDesignProblems
15 pages
Course Unit - Human Flourishing in Science and Technology-Merged
No ratings yet
Course Unit - Human Flourishing in Science and Technology-Merged
24 pages
0/1 Knapsack: Branch and Bound
No ratings yet
0/1 Knapsack: Branch and Bound
15 pages
Safety Lab Report Tinkercad
No ratings yet
Safety Lab Report Tinkercad
9 pages
CPE 445-Internet of Things - Chapter 7
No ratings yet
CPE 445-Internet of Things - Chapter 7
39 pages
Code Wars 2024 Sponsorship
No ratings yet
Code Wars 2024 Sponsorship
9 pages
Accessioning Best Practices v.1.0.2 2025
No ratings yet
Accessioning Best Practices v.1.0.2 2025
103 pages
UGRD-EnG6204 Computer Aided Drafting Midterm Quiz 1
No ratings yet
UGRD-EnG6204 Computer Aided Drafting Midterm Quiz 1
11 pages
Week (Multivariable Functions)
100% (1)
Week (Multivariable Functions)
19 pages
Summer Internship Format May 2023 New
No ratings yet
Summer Internship Format May 2023 New
67 pages
RHLS User Guidelines PDF
No ratings yet
RHLS User Guidelines PDF
50 pages
Full Mobile App Development With Ionic Cross Platform Apps With Ionic Angular and Cordova Griffith Ebook All Chapters
100% (3)
Full Mobile App Development With Ionic Cross Platform Apps With Ionic Angular and Cordova Griffith Ebook All Chapters
38 pages
Documents From The US Antitrust Investigation Into Apple
No ratings yet
Documents From The US Antitrust Investigation Into Apple
113 pages
Digitalization and The Future of Work in The Financial Services
No ratings yet
Digitalization and The Future of Work in The Financial Services
53 pages
PW2 - Type of Fiber and Stripping Process SESI 1 2022 - 2023
No ratings yet
PW2 - Type of Fiber and Stripping Process SESI 1 2022 - 2023
12 pages
Statement of Account
No ratings yet
Statement of Account
109 pages
FD Pro 8.1 Admin Guide
No ratings yet
FD Pro 8.1 Admin Guide
22 pages
New Low Rank Optimization Model and Convex Approach For Robust Spectral Compressed Sensing
No ratings yet
New Low Rank Optimization Model and Convex Approach For Robust Spectral Compressed Sensing
13 pages
Software Engineering: UNIT-2
No ratings yet
Software Engineering: UNIT-2
53 pages
5543978
No ratings yet
5543978
2 pages
MatLab Add
No ratings yet
MatLab Add
9 pages
VersaFlex FS45DC Datasheet
No ratings yet
VersaFlex FS45DC Datasheet
2 pages
Conference
No ratings yet
Conference
3 pages
A Systematic Literature Review of A Pathfinding
No ratings yet
A Systematic Literature Review of A Pathfinding
8 pages
COMSATS University Islamabad: Terminal Examination, SPRING 2021
No ratings yet
COMSATS University Islamabad: Terminal Examination, SPRING 2021
6 pages
Panel Options LCD Samsung PDF
No ratings yet
Panel Options LCD Samsung PDF
11 pages
ZYAROCK Artec Pot Leaflet (En)
No ratings yet
ZYAROCK Artec Pot Leaflet (En)
2 pages
Big Data Analytics
From Everand
Big Data Analytics
Venkat Ankam
No ratings yet
Fast Data Processing Systems with SMACK Stack
From Everand
Fast Data Processing Systems with SMACK Stack
Raúl Estrada
No ratings yet
Learning Apache Spark 2
From Everand
Learning Apache Spark 2
Muhammad Asif Abbasi
No ratings yet
Advanced Real-Time Data Integration: Apache Kafka and Spark Streaming Techniques
From Everand
Advanced Real-Time Data Integration: Apache Kafka and Spark Streaming Techniques
Adam Jones
No ratings yet

Data Engineering Roadmap

Uploaded by

Data Engineering Roadmap

Uploaded by

Subject Objective

Week 1: Introduction and - Running Postgres locally with Docker

You might also like