0% found this document useful (0 votes)

20 views4 pages

Step by Step Data Wrangling

Data wrangling, or data munging, is the process of transforming raw data into a clean and structured format for effective use in decision-making and analytics. The step-by-step process includes discovering, cleaning, structuring, enriching, validating, storing, and documenting data, each with specific tasks and tools. Common tools used throughout the process include Python, R, SQL, and various data visualization platforms.

Uploaded by

VIGNESH BABU T R

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

20 views4 pages

Step by Step Data Wrangling

Uploaded by

VIGNESH BABU T R

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

1.

Step-by-Step Data Wrangling Process

Definition of Data Wrangling

Data wrangling, also known as data munging, is the process of transforming raw and
unstructured data into a clean, structured, and usable format. The purpose of data
wrangling is to prepare data so that it can be effectively used for decision-making, machine
learning models, and business intelligence applications.

Step-by-Step Process of Data Wrangling

1. Discovering Data

What is it?

Data discovery is the first step in data wrangling, where analysts identify relevant datasets
from various sources and explore their structure, quality, and completeness. This step helps
in understanding patterns, inconsistencies, and missing values in the data.

Steps:

• Collect data from various sources like databases, spreadsheets, APIs, or web
scraping.

• Identify missing values, duplicate entries, or incorrect data formats.

• Perform basic statistical summaries to check patterns and anomalies.

Common Tools:

• Python: Pandas (df.info(), df.describe())

• R: summary(), str()

• SQL: SELECT COUNT(*), GROUP BY, AVG(), MIN(), MAX()

• Excel: Pivot tables

2. Cleaning Data

What is it?

Data cleaning involves removing errors, inconsistencies, and missing values from datasets to
improve accuracy and reliability. This step ensures that the data is free from irrelevant
information.

Steps:

• Remove duplicates to avoid repeated data.

• Handle missing values by filling them (mean/median) or removing incomplete

records.
• Fix incorrect formats (e.g., changing dates to YYYY-MM-DD).

• Standardize text cases (convert all names to uppercase/lowercase for consistency).

• Remove special characters or unwanted symbols.

Common Tools:

• Python: Pandas (dropna(), fillna(), replace())

• R: na.omit(), mutate()

• SQL: DELETE, UPDATE, TRIM(), REPLACE()

3. Structuring Data

What is it?
Structuring involves organizing raw data into a well-defined format that is easy to analyze. It
ensures that data is properly categorized and formatted.

Steps:

• Convert unstructured data (text, JSON, XML) into structured formats (tables,
relational databases).

• Normalize data to avoid redundancy.

• Reshape data into a required format (wide vs. long format).

Common Tools:

• Python: Pandas

• R: (tidyverse package)

• SQL: JOIN, UNION, GROUP BY

• Google Sheets/Excel: Text-to-columns, CONCATENATE function

4. Enriching Data

What is it?

Data enrichment involves adding relevant external or additional data to improve the
dataset’s value and completeness. It enhances insights by merging new sources.

Steps:

• Feature engineering: Create new useful columns from existing ones (e.g., extracting
the year from a date column).
• Adding external data: Merge datasets to include more information (e.g., adding
weather data to sales records).

• Categorizing values: Convert numeric ranges into categories (e.g., age groups: Child,
Adult, Senior).

Common Tools:

• Python: Scikit-learn (PolynomialFeatures, OneHotEncoder)

• R: mutate() function in dplyr

• SQL: ALTER TABLE, ADD COLUMN, CASE WHEN

• Google Data Studio: Merging data sources

5. Validating Data

What is it?

Validation ensures data accuracy, consistency, and integrity by applying rules and constraints
to detect errors.

Steps:

• Validate data types (numeric, categorical).

• Check for outliers and anomalies.

• Validate foreign keys and relationships in databases.

• Ensure consistency across datasets.

Common Tools:

• R: validate package

• SQL: CHECK CONSTRAINT, FOREIGN KEY

• Tableau Prep: Data validation workflows

6. Storing Data

What is it?

Storing involves saving the cleaned and processed data in an organized and secure format
for further analysis.

Steps:
• Save data in commonly used formats like CSV, JSON, Excel.

• Store in databases (SQL, NoSQL) for efficient querying.

• Use cloud storage (AWS S3, Google Drive) for easy access.

• Index data for faster retrieval.

Common Tools:

• Python: pandas.to_csv(), to_sql()

• R: write.csv(), DBI for database interaction

• SQL: INSERT INTO, CREATE INDEX

• Google BigQuery: Cloud storage and querying

7. Documenting or Publishing Data

What is it?

Documentation ensures that the entire data wrangling process is recorded for future
reference, reproducibility, and collaboration.

Steps:

• Write data dictionaries (descriptions of all columns).

• Record transformations and cleaning processes.

• Create reports or dashboards summarizing key insights.

• Publish cleaned datasets on platforms like Kaggle or Google Data Studio.

Common Tools:

• Python: Jupyter Notebooks, pandas_profiling for automated reports

• R: R Markdown, knitr package

• SQL: Metadata tables (INFORMATION_SCHEMA)

• Power BI & Tableau: Interactive data dashboards

BIG DATA AND BUSINESS INTELLIGENCE - Abboub - Mohamed - El - Mehdi
100% (3)
BIG DATA AND BUSINESS INTELLIGENCE - Abboub - Mohamed - El - Mehdi
15 pages
Preparing For Your Professional Data Engineer Journey - T-GCPPDE-A-m0-l6-file-en-7
100% (1)
Preparing For Your Professional Data Engineer Journey - T-GCPPDE-A-m0-l6-file-en-7
80 pages
Unit 1 (DWV)
No ratings yet
Unit 1 (DWV)
12 pages
Unit IV
No ratings yet
Unit IV
27 pages
Math211101020
No ratings yet
Math211101020
12 pages
Data Wrangling
No ratings yet
Data Wrangling
9 pages
Group 1 CIN-Act QN (A)
No ratings yet
Group 1 CIN-Act QN (A)
3 pages
DATA WRANGLING New
No ratings yet
DATA WRANGLING New
13 pages
Data Cleaning
No ratings yet
Data Cleaning
28 pages
2-Data Wrangling
No ratings yet
2-Data Wrangling
13 pages
22UCS303 DS-Unit II-N
No ratings yet
22UCS303 DS-Unit II-N
71 pages
As You Delve Into The World of Data Analytics
No ratings yet
As You Delve Into The World of Data Analytics
10 pages
Data Analytics - Module-1.1
No ratings yet
Data Analytics - Module-1.1
42 pages
1708443470801
No ratings yet
1708443470801
71 pages
Introduction To Data Analysis
No ratings yet
Introduction To Data Analysis
94 pages
Scribd 3
No ratings yet
Scribd 3
2 pages
Rakshana SN - LAQ Week 2 DA
No ratings yet
Rakshana SN - LAQ Week 2 DA
3 pages
Data Wrangling Steps
No ratings yet
Data Wrangling Steps
10 pages
BIA 5000 Introduction To Analytics - Lesson 6
No ratings yet
BIA 5000 Introduction To Analytics - Lesson 6
59 pages
Data Cleansing Steps
No ratings yet
Data Cleansing Steps
8 pages
DSBD
No ratings yet
DSBD
23 pages
Data Analytic Process
No ratings yet
Data Analytic Process
3 pages
Big Data
No ratings yet
Big Data
4 pages
Data Exploration and Visualization Unit 3
No ratings yet
Data Exploration and Visualization Unit 3
13 pages
FDS UNIT 1 Part2
No ratings yet
FDS UNIT 1 Part2
47 pages
Data Processes
No ratings yet
Data Processes
4 pages
QB Ese FDS
No ratings yet
QB Ese FDS
29 pages
Data Wrangling
No ratings yet
Data Wrangling
18 pages
Data Mining Basics
No ratings yet
Data Mining Basics
38 pages
Ads Imp Qna 2025 15 04 06 06 35
No ratings yet
Ads Imp Qna 2025 15 04 06 06 35
33 pages
Document
No ratings yet
Document
29 pages
Data Mining Basics
No ratings yet
Data Mining Basics
52 pages
DAV Practical 2
No ratings yet
DAV Practical 2
6 pages
Business Data Mining Week 2
No ratings yet
Business Data Mining Week 2
6 pages
DSILYTC Session 2 - Data Wrangling
No ratings yet
DSILYTC Session 2 - Data Wrangling
46 pages
Module 3 Notes
No ratings yet
Module 3 Notes
5 pages
Data Wrangling
No ratings yet
Data Wrangling
15 pages
50 Interview Questions & Answers!
No ratings yet
50 Interview Questions & Answers!
52 pages
Data Source Data Collection Method Tools
No ratings yet
Data Source Data Collection Method Tools
35 pages
ADA All Answer
No ratings yet
ADA All Answer
79 pages
? Data Cleaning 101
No ratings yet
? Data Cleaning 101
17 pages
Data Processing
No ratings yet
Data Processing
5 pages
Data Analytics Template - Task 3 - Final
No ratings yet
Data Analytics Template - Task 3 - Final
11 pages
Introduction To Data Science: Data Science Methodology & Data Preparation DR Shuhaida Mohamed Shuhidan Jan 2025
No ratings yet
Introduction To Data Science: Data Science Methodology & Data Preparation DR Shuhaida Mohamed Shuhidan Jan 2025
34 pages
Project Report
100% (1)
Project Report
16 pages
DM Unit 3
No ratings yet
DM Unit 3
15 pages
Steps For Data Analytics
No ratings yet
Steps For Data Analytics
6 pages
Unit 3
No ratings yet
Unit 3
22 pages
What Is Duplicate Data?
No ratings yet
What Is Duplicate Data?
10 pages
Satyam Rana 4 Sem Business Analytics
No ratings yet
Satyam Rana 4 Sem Business Analytics
29 pages
5 Data Science Project Lifecycle
No ratings yet
5 Data Science Project Lifecycle
33 pages
Data Analytics
No ratings yet
Data Analytics
30 pages
Comprehensive Data Analysis Course Roadmap
No ratings yet
Comprehensive Data Analysis Course Roadmap
4 pages
Data Analytics
No ratings yet
Data Analytics
4 pages
EBook - Data Science 4
No ratings yet
EBook - Data Science 4
14 pages
Data Preprocessing Techniques Cleaning Transformation and Integration
No ratings yet
Data Preprocessing Techniques Cleaning Transformation and Integration
6 pages
U1 - DA - Data Preprocessing
No ratings yet
U1 - DA - Data Preprocessing
6 pages
Data Cleaning Guide
No ratings yet
Data Cleaning Guide
4 pages
ISPFL9 Module1
100% (1)
ISPFL9 Module1
22 pages
How Should Data Preparation Be Done For An Analytics Project
No ratings yet
How Should Data Preparation Be Done For An Analytics Project
30 pages
THE SQL LANGUAGE: Master Database Management and Unlock the Power of Data (2024 Beginner's Guide)
From Everand
THE SQL LANGUAGE: Master Database Management and Unlock the Power of Data (2024 Beginner's Guide)
JAMIE POWERS
No ratings yet
Data Analytics with Generative AI
From Everand
Data Analytics with Generative AI
Younish P
No ratings yet
UNIT 2 - Groups (Decision Tree)
No ratings yet
UNIT 2 - Groups (Decision Tree)
20 pages
UNIT 3 - Exploratory Graphs
No ratings yet
UNIT 3 - Exploratory Graphs
23 pages
AIML 2 Marks
No ratings yet
AIML 2 Marks
6 pages
2marks AIML
No ratings yet
2marks AIML
4 pages
Permuations & Combinations Mcqs
No ratings yet
Permuations & Combinations Mcqs
3 pages
Room Rent Management System Report
No ratings yet
Room Rent Management System Report
10 pages
Oakridge International School: Student Grade Report System
No ratings yet
Oakridge International School: Student Grade Report System
29 pages
Chapter 9 - Structured Query Language (SQL) - NCERT Solutions For Class 12 Computer Science Code 083 CB
No ratings yet
Chapter 9 - Structured Query Language (SQL) - NCERT Solutions For Class 12 Computer Science Code 083 CB
30 pages
05 - Data As A Product - IBM Watsonx - Data and IBM Cloud Pak For Data
100% (1)
05 - Data As A Product - IBM Watsonx - Data and IBM Cloud Pak For Data
31 pages
DBMS Lab
No ratings yet
DBMS Lab
10 pages
Research Methodology (BEG396HS)
No ratings yet
Research Methodology (BEG396HS)
1 page
502 Aptitude Test For MSC Computer Science
No ratings yet
502 Aptitude Test For MSC Computer Science
37 pages
5 Errors
No ratings yet
5 Errors
21 pages
OCP Java SE 11 Study Plan
No ratings yet
OCP Java SE 11 Study Plan
2 pages
Tableau Handson
No ratings yet
Tableau Handson
16 pages
Chapter 3
No ratings yet
Chapter 3
4 pages
SAP Data Archiving Basic Guide For Beginner's - SAP Community
No ratings yet
SAP Data Archiving Basic Guide For Beginner's - SAP Community
14 pages
Tal L. Node - Js Secure Coding. Defending Against Command Injection Vulnerab. 2023
No ratings yet
Tal L. Node - Js Secure Coding. Defending Against Command Injection Vulnerab. 2023
113 pages
Introduction To Data Mining Assignment 2
No ratings yet
Introduction To Data Mining Assignment 2
1 page
Consider A Student Registration Database Comprising of The Below Given Table Schema
No ratings yet
Consider A Student Registration Database Comprising of The Below Given Table Schema
4 pages
Individual Task - EERD
No ratings yet
Individual Task - EERD
6 pages
Introduction and Conceptual Modeling: Sarat Saharia, Deptt. of CSE, Tezpur University
No ratings yet
Introduction and Conceptual Modeling: Sarat Saharia, Deptt. of CSE, Tezpur University
22 pages
Hospital Management System
No ratings yet
Hospital Management System
2 pages
E-Commerece System
No ratings yet
E-Commerece System
11 pages
Pganalyze Effective Indexing in Postgres
No ratings yet
Pganalyze Effective Indexing in Postgres
29 pages
Micro Project Report: (Your Guide Name)
No ratings yet
Micro Project Report: (Your Guide Name)
16 pages
Resume Anvesh Garg Recent
No ratings yet
Resume Anvesh Garg Recent
2 pages
Share Plex
No ratings yet
Share Plex
2 pages
Informatica Interview Questioner Ambarish PDF
No ratings yet
Informatica Interview Questioner Ambarish PDF
211 pages
Syllabus FDS
No ratings yet
Syllabus FDS
4 pages
ARTICLE 2 - Evaluating Adaptive Reuse Potential of Abandoned Factories in India
No ratings yet
ARTICLE 2 - Evaluating Adaptive Reuse Potential of Abandoned Factories in India
25 pages
Exercise in Measure of Central Tendency
No ratings yet
Exercise in Measure of Central Tendency
2 pages
Sa 3
No ratings yet
Sa 3
3 pages

Step by Step Data Wrangling

Uploaded by

Step by Step Data Wrangling

Uploaded by

1.

Step-by-Step Data Wrangling Process

Definition of Data Wrangling

Step-by-Step Process of Data Wrangling

• Identify missing values, duplicate entries, or incorrect data formats.

• Perform basic statistical summaries to check patterns and anomalies.

• Python: Pandas (df.info(), df.describe())

• SQL: SELECT COUNT(*), GROUP BY, AVG(), MIN(), MAX()

• Excel: Pivot tables

• Remove duplicates to avoid repeated data.

• Handle missing values by filling them (mean/median) or removing incomplete

• Standardize text cases (convert all names to uppercase/lowercase for consistency).

• Remove special characters or unwanted symbols.

• Python: Pandas (dropna(), fillna(), replace())

• SQL: DELETE, UPDATE, TRIM(), REPLACE()

• Normalize data to avoid redundancy.

• Reshape data into a required format (wide vs. long format).

• SQL: JOIN, UNION, GROUP BY

• Google Sheets/Excel: Text-to-columns, CONCATENATE function

• Python: Scikit-learn (PolynomialFeatures, OneHotEncoder)

• R: mutate() function in dplyr

• SQL: ALTER TABLE, ADD COLUMN, CASE WHEN

• Google Data Studio: Merging data sources

• Validate data types (numeric, categorical).

• Check for outliers and anomalies.

• Validate foreign keys and relationships in databases.

• Ensure consistency across datasets.

• SQL: CHECK CONSTRAINT, FOREIGN KEY

• Tableau Prep: Data validation workflows

• Store in databases (SQL, NoSQL) for efficient querying.

• Index data for faster retrieval.

• Python: pandas.to_csv(), to_sql()

• R: write.csv(), DBI for database interaction

• SQL: INSERT INTO, CREATE INDEX

• Google BigQuery: Cloud storage and querying

7. Documenting or Publishing Data

• Write data dictionaries (descriptions of all columns).

• Record transformations and cleaning processes.

• Create reports or dashboards summarizing key insights.

• Publish cleaned datasets on platforms like Kaggle or Google Data Studio.

• Python: Jupyter Notebooks, pandas_profiling for automated reports

• R: R Markdown, knitr package

• SQL: Metadata tables (INFORMATION_SCHEMA)

• Power BI & Tableau: Interactive data dashboards

You might also like