0% found this document useful (0 votes)

5 views

Lab_01 - Data Engineering Practice

The document outlines a three-part process for data ingestion, processing, and orchestration using real-world datasets, specifically the New York Taxi Trips Data. It includes tasks for downloading the dataset, loading it into a database, transforming the data with Pandas and SQL, and automating the process with Apache Airflow. Additional resources for datasets and tutorials are provided, along with suggestions for further exploration in cloud deployment and real-time data ingestion.

Uploaded by

Tuấn Đỗ Anh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views

Lab_01 - Data Engineering Practice

Uploaded by

Tuấn Đỗ Anh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

1: Data Ingestion & Storage

Task 1: Download a Real-world Dataset

Dataset: New York Taxi Trips Data

Download: NYC Taxi Data (Parquet format)
Alternative: Kaggle Datasets (Download CSV datasets)

Task 2: Load Data into a Local Database

• Install and Use PostgreSQL (or SQLite) as a database.

• Write a Python script to load data into the database.

Resources:

• PostgreSQL Installation Guide

• Pandas to PostgreSQL (Tutorial)

• SQLite Quickstart

Practice Steps:
Install PostgreSQL or SQLite.
Use Pandas to read the dataset.
Write a Python script to insert data into the database.
2: Data Processing & Transformation
Task 3: Transform Data Using Pandas & SQL

• Filter out invalid data (e.g., negative trip distances).

• Convert datetime columns into proper formats.

• Aggregate data (e.g., average fare per trip).

Resources:

• SQL Basics (W3Schools)

• Pandas Data Transformations

Practice Steps:
Write SQL queries to clean the data.
Perform aggregations using Pandas.
3: Data Orchestration with Apache Airflow
Task 4: Automate Data Processing with Airflow

• Install Apache Airflow (pip install apache-airflow).

• Create an Airflow DAG (Directed Acyclic Graph) to automate:

• Ingesting data from the dataset.

• Transforming data using SQL.

• Storing results in a database.

Resources:

• Airflow Quickstart Guide

• Airflow DAGs Tutorial

Practice Steps:
Install Airflow and configure it.
Write a DAG to automate data ingestion & transformation.
Schedule the DAG to run every fixed interval e.g.: 5 minute or every hour:
Additional Resources for Downloading Notebooks &
Datasets
Open Datasets

1. Kaggle – https://www.kaggle.com/datasets

2. Google Dataset Search – https://datasetsearch.research.google.com/

3. AWS Open Data – https://registry.opendata.aws/

4. NYC Taxi Data – https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page

Jupyter Notebooks & Tutorials

1. DataTalksClub Data Engineering

Zoomcamp – https://github.com/DataTalksClub/data-engineering-zoomcamp

2. Data Engineering Notebooks

(GitHub) – https://github.com/awesomedata/awesome-public-datasets

3. Pandas & SQL Practice Notebooks – https://github.com/jakevdp/Pandas-Tutorial

4. Apache Airflow
Examples – https://github.com/apache/airflow/tree/main/airflow/example_dags

What You Will Have Built in 3 Labs Above:

Ingested a real dataset into a database (PostgreSQL).

Transformed & cleaned data using Pandas & SQL.
Automated data processing with Apache Airflow.
Created a reproducible data pipeline for ML.

📌 What's Next?
If you have more time, try these:
Deploy your pipeline on the cloud (AWS/GCP/Azure).
Use Kafka for real-time data ingestion.
Implement a Feature Store with Feast.

Copar 4
No ratings yet
Copar 4
63 pages
Wincc Scripts
100% (1)
Wincc Scripts
16 pages
Pa2X Format ENG PDF
No ratings yet
Pa2X Format ENG PDF
2 pages
5-Day KVCET Bootcamp - Data Analytics
No ratings yet
5-Day KVCET Bootcamp - Data Analytics
6 pages
DE Weekly Learning Update Fakrul
No ratings yet
DE Weekly Learning Update Fakrul
7 pages
Data Engineering Notes
No ratings yet
Data Engineering Notes
4 pages
Efficient Data Preparation: With Python
No ratings yet
Efficient Data Preparation: With Python
19 pages
De Programs2
No ratings yet
De Programs2
16 pages
Vivek 210033252 BDCW.ipynb - Colaboratory
No ratings yet
Vivek 210033252 BDCW.ipynb - Colaboratory
112 pages
01_DS and Env Setup
No ratings yet
01_DS and Env Setup
17 pages
Data_Science_With_Python_Workflow
No ratings yet
Data_Science_With_Python_Workflow
3 pages
Khalid Salah Amer Ds
No ratings yet
Khalid Salah Amer Ds
2 pages
Self-Learning Data Science
No ratings yet
Self-Learning Data Science
16 pages
Data Task Breakdown
No ratings yet
Data Task Breakdown
12 pages
Tackling Big Data Using Matlab
No ratings yet
Tackling Big Data Using Matlab
73 pages
Document 4 (2)
No ratings yet
Document 4 (2)
42 pages
Himanshu Gupta Configuration Manual
No ratings yet
Himanshu Gupta Configuration Manual
16 pages
Mind Mapping v1.2 (1)
No ratings yet
Mind Mapping v1.2 (1)
4 pages
Bhavnesh Baghel's Resume
No ratings yet
Bhavnesh Baghel's Resume
2 pages
Asmat Pace Tech 3-20-24
No ratings yet
Asmat Pace Tech 3-20-24
52 pages
DataGrokr Technical Assignment - Data Engineering - Internshala
No ratings yet
DataGrokr Technical Assignment - Data Engineering - Internshala
5 pages
CUSTOMER SEGMENTATION 2
No ratings yet
CUSTOMER SEGMENTATION 2
19 pages
vamshi ml-1,2
No ratings yet
vamshi ml-1,2
25 pages
Data Science Product Development Lecture 1
No ratings yet
Data Science Product Development Lecture 1
39 pages
Ai for IT Coders
No ratings yet
Ai for IT Coders
18 pages
Data Science With Python Workflow: Click The Links For Documentation
No ratings yet
Data Science With Python Workflow: Click The Links For Documentation
2 pages
Ai for IT Non Coders
No ratings yet
Ai for IT Non Coders
14 pages
Big Data in Python
No ratings yet
Big Data in Python
10 pages
AdityaPandey_cdac (2)
No ratings yet
AdityaPandey_cdac (2)
2 pages
Naukri SuvarnaKhairnar[5y 8m]
No ratings yet
Naukri SuvarnaKhairnar[5y 8m]
2 pages
Data Science C
No ratings yet
Data Science C
21 pages
Data Science With Python Workflow
100% (2)
Data Science With Python Workflow
2 pages
Self Intoduction 1 project
No ratings yet
Self Intoduction 1 project
11 pages
Artificial Intelligence 3171105 Lab Manual
No ratings yet
Artificial Intelligence 3171105 Lab Manual
38 pages
3 Must-Have Projects For Your Data Science Portfolio - by Aakash N S - Jovian - Jan, 2021 - Medium
No ratings yet
3 Must-Have Projects For Your Data Science Portfolio - by Aakash N S - Jovian - Jan, 2021 - Medium
1 page
ML Lab Manual
No ratings yet
ML Lab Manual
90 pages
roadmap
No ratings yet
roadmap
3 pages
DOC-20250313-WA0013.
No ratings yet
DOC-20250313-WA0013.
12 pages
Diploma in Data Science Online Training Content by MR Navin NareshIT Modified
No ratings yet
Diploma in Data Science Online Training Content by MR Navin NareshIT Modified
10 pages
BDDA - Course Outline
No ratings yet
BDDA - Course Outline
3 pages
Cacti 0.8 Beginner's Guide
From Everand
Cacti 0.8 Beginner's Guide
Thomas Urban
No ratings yet
Data Engineering Nanodegree Program Syllabus
33% (3)
Data Engineering Nanodegree Program Syllabus
15 pages
Instructions For Big Data Assignment
No ratings yet
Instructions For Big Data Assignment
5 pages
Capstone Story Presentation
No ratings yet
Capstone Story Presentation
21 pages
Data Science Internship Task List
No ratings yet
Data Science Internship Task List
10 pages
Data Engineering 6 Months Plan
No ratings yet
Data Engineering 6 Months Plan
3 pages
Python For Data Exploration
No ratings yet
Python For Data Exploration
28 pages
University Institute of Engineering Department of Computer Science & Engineering
No ratings yet
University Institute of Engineering Department of Computer Science & Engineering
11 pages
CSE6006 NoSQL-Databases ETH 1 AC41
No ratings yet
CSE6006 NoSQL-Databases ETH 1 AC41
10 pages
DSBDA Lab Manual
No ratings yet
DSBDA Lab Manual
167 pages
Charles_Résumé_2024
No ratings yet
Charles_Résumé_2024
6 pages
CouchDB and PHP Web Development Beginner’s Guide
From Everand
CouchDB and PHP Web Development Beginner’s Guide
Tim Juravich
No ratings yet
Athul Dev - Spark With Python (2020) - Libgen - Li
No ratings yet
Athul Dev - Spark With Python (2020) - Libgen - Li
153 pages
Course 2
No ratings yet
Course 2
9 pages
Minor Cse Dsv2
No ratings yet
Minor Cse Dsv2
7 pages
Lab 02 - Introduction to Pandas
No ratings yet
Lab 02 - Introduction to Pandas
6 pages
Python AWS Data Engineering Course- Master PySpark, Kafka, SQL
No ratings yet
Python AWS Data Engineering Course- Master PySpark, Kafka, SQL
3 pages
Big Data Unit 1 notes
No ratings yet
Big Data Unit 1 notes
16 pages
Data Engineering Roadmap 2023
No ratings yet
Data Engineering Roadmap 2023
1 page
1DataScience MachineLearning AI Syllabus.-1.PDF 20240118 174213 0000
No ratings yet
1DataScience MachineLearning AI Syllabus.-1.PDF 20240118 174213 0000
9 pages
DS&a + AI ML Nov 23 6868 - Calendar
No ratings yet
DS&a + AI ML Nov 23 6868 - Calendar
9 pages
EECS6893 BigDataAnalytics Lecture1
No ratings yet
EECS6893 BigDataAnalytics Lecture1
81 pages
Data_Preprocessing_Visualization
No ratings yet
Data_Preprocessing_Visualization
25 pages
Chapter12_StoryTellingWithData
No ratings yet
Chapter12_StoryTellingWithData
41 pages
Chap 4
No ratings yet
Chap 4
27 pages
Chap 5
No ratings yet
Chap 5
25 pages
VERBAL REASONING
No ratings yet
VERBAL REASONING
11 pages
Lecture 4
No ratings yet
Lecture 4
40 pages
Array
No ratings yet
Array
7 pages
LAB & Class Assignment Programming Advance
No ratings yet
LAB & Class Assignment Programming Advance
18 pages
CGMB 234: Multimedia Systems Design
No ratings yet
CGMB 234: Multimedia Systems Design
33 pages
Int 306
No ratings yet
Int 306
41 pages
65GZ032prg v0.11
No ratings yet
65GZ032prg v0.11
77 pages
Bcs Higher Education Qualifications BCS Level 4 Certificate in IT
No ratings yet
Bcs Higher Education Qualifications BCS Level 4 Certificate in IT
3 pages
Land Use Paln in La Trinidad Benguet
No ratings yet
Land Use Paln in La Trinidad Benguet
19 pages
CJR - Group 4 - Hotel and Travel
No ratings yet
CJR - Group 4 - Hotel and Travel
13 pages
AdvancedCompression 11gR2-1
No ratings yet
AdvancedCompression 11gR2-1
41 pages
Storage Admin Roles and Responsibility
No ratings yet
Storage Admin Roles and Responsibility
7 pages
Literature Review Example For Computer Engineering Project
No ratings yet
Literature Review Example For Computer Engineering Project
8 pages
SQL Cumulative
No ratings yet
SQL Cumulative
17 pages
Using Animation As A Means of Enhancing Learning of Individuals With Special Needs
No ratings yet
Using Animation As A Means of Enhancing Learning of Individuals With Special Needs
9 pages
SQL Fundamentals II - Practice Solutions
33% (3)
SQL Fundamentals II - Practice Solutions
25 pages
Exercise: Explore Data Patterns Using Space-Time Pattern Mining
No ratings yet
Exercise: Explore Data Patterns Using Space-Time Pattern Mining
23 pages
Pyspark Commands
No ratings yet
Pyspark Commands
12 pages
Marketing Research
No ratings yet
Marketing Research
19 pages
Sdo Nueva Ecija - 2022 - Joseph Voltaire L. Datu - Analysis of Learning Gaps During The Delivery of Distance Modular
No ratings yet
Sdo Nueva Ecija - 2022 - Joseph Voltaire L. Datu - Analysis of Learning Gaps During The Delivery of Distance Modular
57 pages
2012 FB
No ratings yet
2012 FB
96 pages
Kamat Hotels India LTD
No ratings yet
Kamat Hotels India LTD
44 pages
Introduction To Gis Using Arcgis: Student Edition
No ratings yet
Introduction To Gis Using Arcgis: Student Edition
6 pages
Big Data Storage: Made by Urmil Sehgal 6 Semseter (E) (02524302011)
No ratings yet
Big Data Storage: Made by Urmil Sehgal 6 Semseter (E) (02524302011)
22 pages
Vishal Seminar Presentation
No ratings yet
Vishal Seminar Presentation
34 pages
DICT Updated-NICS
No ratings yet
DICT Updated-NICS
125 pages
Lecture 1 - Introductory To Data Analytics
No ratings yet
Lecture 1 - Introductory To Data Analytics
11 pages
Document (2)
No ratings yet
Document (2)
29 pages
A Study On Service Quality Expectation at Lubi Electronics Private Limited
No ratings yet
A Study On Service Quality Expectation at Lubi Electronics Private Limited
83 pages

Lab_01 - Data Engineering Practice

Uploaded by

Lab_01 - Data Engineering Practice

Uploaded by

1: Data Ingestion & Storage

Task 1: Download a Real-world Dataset

Dataset: New York Taxi Trips Data

Task 2: Load Data into a Local Database

• Install and Use PostgreSQL (or SQLite) as a database.

• Write a Python script to load data into the database.

• PostgreSQL Installation Guide

• Pandas to PostgreSQL (Tutorial)

• Filter out invalid data (e.g., negative trip distances).

• Convert datetime columns into proper formats.

• Aggregate data (e.g., average fare per trip).

• SQL Basics (W3Schools)

• Pandas Data Transformations

• Install Apache Airflow (pip install apache-airflow).

• Create an Airflow DAG (Directed Acyclic Graph) to automate:

• Ingesting data from the dataset.

• Transforming data using SQL.

• Storing results in a database.

• Airflow Quickstart Guide

• Airflow DAGs Tutorial

2. Google Dataset Search – https://datasetsearch.research.google.com/

3. AWS Open Data – https://registry.opendata.aws/

4. NYC Taxi Data – https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page

Jupyter Notebooks & Tutorials

1. DataTalksClub Data Engineering

2. Data Engineering Notebooks

3. Pandas & SQL Practice Notebooks – https://github.com/jakevdp/Pandas-Tutorial

What You Will Have Built in 3 Labs Above:

Ingested a real dataset into a database (PostgreSQL).

You might also like