0% found this document useful (0 votes)

8 views

Assessing Data Quality Dimensions

Uploaded by

amullya patil

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views

Assessing Data Quality Dimensions

Uploaded by

amullya patil

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

Assessing Data Quality Dimensions in Business Data

Prerequisites
1. Install Python: Make sure you have Python installed. You can download it
from Python's official website (https://www.python.org/downloads/).

2. Install Required Libraries: You will need the following libraries: 'pandas',
'numpy', and 'matplotlib'. You can install them using pip.

pip install pandas numpy matplotlib

2. Set Up Your IDE: You can use any Python IDE or text editor (like Jupyter
Notebook, VS Code, or PyCharm).
Step 1: Gather Data
For demonstration, let’s create a sample dataset in CSV format. Save the
following data in a file named 'business_data.csv'.

CustomerID,Name,Email,JoinDate,AmountSpent
1,John Doe,[email protected],2024-01-15,150.00
2,Jane Smith,[email protected],2024-02-20,200.00
3,Bob Johnson,,2024-03-05,150.00
4,Mary Johnson,[email protected],2024-02-30,300.00
5,Tom Brown,[email protected],2024-03-15,400.00
6,Emily Davis,[email protected],2024-01-25,
1,John Doe,[email protected],2024-01-15,150.00

Step 2: Load the Data

Use Pandas to load the dataset and inspect its contents.

import pandas as pd

# Load the data

data = pd.read_csv('business_data.csv')

# Display the first few rows

print(data.head())

Step 3: Data Profiling

Perform basic profiling to understand the structure of the dataset.

# Get summary statistics

print(data.describe())

# Check for missing values

print(data.isnull().sum())
# Check data types
print(data.dtypes)

# Check unique values in 'CustomerID'

print(data['CustomerID'].unique())

Step 4: Assess Data Quality Dimensions

a. Accuracy:

Check for potential inaccuracies, like invalid email formats or incorrect join
dates.

import re

# Function to validate email

def is_valid_email(email):
pattern = r'^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$'
return bool(re.match(pattern, email))

# Validate emails
data['Email_Valid'] = data['Email'].apply(lambda x: is_valid_email(x) if
pd.notnull(x) else False)
print(data[['Email', 'Email_Valid']])

b. Completeness:

Count missing values in each column.

# Check completeness
missing_values = data.isnull().sum()
print("Missing Values:\n", missing_values)

c. Consistency:

Check for duplicate entries.

# Check for duplicates

duplicates = data.duplicated().sum()
print("Number of duplicate entries:", duplicates)
# Display duplicates
print(data[data.duplicated()])

d. Timeliness:

Assess whether JoinDate is in a valid range.

# Check for valid JoinDate format

data['JoinDate'] = pd.to_datetime(data['JoinDate'], errors='coerce')
invalid_dates = data[data['JoinDate'].isnull()]
print("Invalid Join Dates:\n", invalid_dates)

e. Relevance:

Evaluate whether all columns are relevant for analysis.

# Display columns to evaluate relevance

print("Columns in the dataset:\n", data.columns)
f. Uniqueness:

Check for unique CustomerID values.

# Check for unique CustomerID

unique_ids = data['CustomerID'].nunique()
print("Unique Customer IDs:", unique_ids)

Step 5: Data Cleaning

Now let’s clean the dataset based on our assessments.

a. Fill missing values:

For AmountSpent, we could fill missing values with the average.

# Fill missing AmountSpent with mean

mean_amount = data['AmountSpent'].mean()
data['AmountSpent'].fillna(mean_amount, inplace=True)

b. Remove duplicates:

# Remove duplicates
data.drop_duplicates(inplace=True)

c. Remove invalid emails:

# Remove rows with invalid emails

data = data[data['Email_Valid']]
d. Remove invalid dates:

# Remove rows with invalid JoinDates

data = data[data['JoinDate'].notnull()]

Step 6: Validate Data Quality After Cleaning

After cleaning, validate the data quality again.

# Check for missing values again

print("Missing Values after cleaning:\n", data.isnull().sum())

# Check for duplicates again

print("Number of duplicate entries after cleaning:", data.duplicated().sum())

Step 7: Documentation and Reporting

Create a report summarizing your findings.

with open('data_quality_report.txt', 'w') as report:

report.write("Data Quality Assessment Report\n")
report.write("=================================\n")
report.write(f"Total Rows: {len(data)}\n")
report.write(f"Missing Values: {data.isnull().sum().to_dict()}\n")
report.write(f"Duplicate Entries: {data.duplicated().sum()}\n")
report.write(f"Invalid Emails: {data[data['Email_Valid'] == False].shape[0]}\n")
report.write(f"Invalid Join Dates: {data[data['JoinDate'].isnull()].shape[0]}\n")

Data Analyst Interview Question and Answer
No ratings yet
Data Analyst Interview Question and Answer
51 pages
CS00030 - Expt 1 DOS Commands
No ratings yet
CS00030 - Expt 1 DOS Commands
10 pages
(Alfred R. Mele) Free Will and Luck (B-Ok - Xyz)
100% (3)
(Alfred R. Mele) Free Will and Luck (B-Ok - Xyz)
234 pages
Document (2)
No ratings yet
Document (2)
29 pages
Unit 2
No ratings yet
Unit 2
23 pages
dm unit 3
No ratings yet
dm unit 3
15 pages
Data Quality
No ratings yet
Data Quality
6 pages
DataCleaning
No ratings yet
DataCleaning
28 pages
Deep Learning Ram
No ratings yet
Deep Learning Ram
21 pages
REPORT SHAWARI_Copy
No ratings yet
REPORT SHAWARI_Copy
10 pages
B Tech-AIML-question bank-2 Answer Key
No ratings yet
B Tech-AIML-question bank-2 Answer Key
9 pages
Naan Mudhalvan Phase 2
No ratings yet
Naan Mudhalvan Phase 2
13 pages
Business Data Mining Week 2
No ratings yet
Business Data Mining Week 2
6 pages
Project Report
100% (1)
Project Report
16 pages
Wrangle Report
No ratings yet
Wrangle Report
7 pages
Amazon Interview Questions ➖
No ratings yet
Amazon Interview Questions ➖
7 pages
SMA EXP 3
No ratings yet
SMA EXP 3
7 pages
Data Cleaning
No ratings yet
Data Cleaning
35 pages
Da Qa
No ratings yet
Da Qa
51 pages
Top 50 Data Analyst Interview Questions
No ratings yet
Top 50 Data Analyst Interview Questions
51 pages
IMps QTN
No ratings yet
IMps QTN
51 pages
Business Intelligence and Analytics
No ratings yet
Business Intelligence and Analytics
8 pages
As You Delve Into The World of Data Analytics
No ratings yet
As You Delve Into The World of Data Analytics
10 pages
EuroElectro International Ltd. DDDB
No ratings yet
EuroElectro International Ltd. DDDB
21 pages
DAP writeups_merged
No ratings yet
DAP writeups_merged
33 pages
Data Science Workflow
No ratings yet
Data Science Workflow
7 pages
subtitle (3)
No ratings yet
subtitle (3)
1 page
DWM - Exp 1
No ratings yet
DWM - Exp 1
11 pages
Unit II Notes
No ratings yet
Unit II Notes
36 pages
Case Study-1 Data Quality
No ratings yet
Case Study-1 Data Quality
4 pages
Chap.3 Data Preprocessing
No ratings yet
Chap.3 Data Preprocessing
6 pages
Satyam Rana 4 sem business analytics
No ratings yet
Satyam Rana 4 sem business analytics
29 pages
dw lab file
No ratings yet
dw lab file
18 pages
Kavin
No ratings yet
Kavin
13 pages
Dataset Quality Report
100% (1)
Dataset Quality Report
6 pages
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
ITECH2302 MainAssessment Report
No ratings yet
ITECH2302 MainAssessment Report
8 pages
Amazon Interview Questions
No ratings yet
Amazon Interview Questions
7 pages
Steps for Data Analytics
No ratings yet
Steps for Data Analytics
6 pages
Annual Report 1
No ratings yet
Annual Report 1
23 pages
Avneesh_To be printed Information Practice
No ratings yet
Avneesh_To be printed Information Practice
8 pages
CMR BDA Data Pre Processing
No ratings yet
CMR BDA Data Pre Processing
10 pages
III-Unit
No ratings yet
III-Unit
4 pages
Explorotary Data Analysis
100% (1)
Explorotary Data Analysis
30 pages
Summary_ Lifecycle of Data Analysis -3982
No ratings yet
Summary_ Lifecycle of Data Analysis -3982
7 pages
Dcova Framework
No ratings yet
Dcova Framework
7 pages
Introduction-to-Data-Analytics
No ratings yet
Introduction-to-Data-Analytics
15 pages
L1-D2 Basics of Data Preperation and Quality
100% (1)
L1-D2 Basics of Data Preperation and Quality
17 pages
Ads Phase 5
No ratings yet
Ads Phase 5
23 pages
Data Analysis by Using Python
No ratings yet
Data Analysis by Using Python
15 pages
Unit 1 Introduction To Data Analysis
No ratings yet
Unit 1 Introduction To Data Analysis
10 pages
L 4 and 5-Data Cleaning DS-Sa
No ratings yet
L 4 and 5-Data Cleaning DS-Sa
44 pages
text 3
No ratings yet
text 3
3 pages
Ajay Pgpdse Resume
No ratings yet
Ajay Pgpdse Resume
2 pages
MODULE2 Material
No ratings yet
MODULE2 Material
14 pages
Math211101020
No ratings yet
Math211101020
12 pages
prac1
No ratings yet
prac1
5 pages
Big Data Lec5
No ratings yet
Big Data Lec5
37 pages
Data Preparation and Analysis
No ratings yet
Data Preparation and Analysis
22 pages
Quick Python Guide
From Everand
Quick Python Guide
Coder1
No ratings yet
Angular Generative AI: Building an intelligent CV enhancer with Google Gemini
From Everand
Angular Generative AI: Building an intelligent CV enhancer with Google Gemini
Abdelfattah Ragab
No ratings yet
Python For Beginners
From Everand
Python For Beginners
Célio Azevedo
No ratings yet
Bertalanffy General System
No ratings yet
Bertalanffy General System
19 pages
Copper Tubes: Sample Information Sheet
No ratings yet
Copper Tubes: Sample Information Sheet
4 pages
PNEUMONIA
No ratings yet
PNEUMONIA
24 pages
Xushi Ko Online Menu
No ratings yet
Xushi Ko Online Menu
8 pages
Newtonian and NON - Newtonian Fluids
No ratings yet
Newtonian and NON - Newtonian Fluids
42 pages
Appendix E3-Ii List of Equipments
No ratings yet
Appendix E3-Ii List of Equipments
8 pages
GRADE 12 ENGLISH WORK SHEEThhhh
No ratings yet
GRADE 12 ENGLISH WORK SHEEThhhh
26 pages
Highway Engineering Gate Questions
No ratings yet
Highway Engineering Gate Questions
117 pages
Name: - Section: - Schedule: - Class Number: - Date
No ratings yet
Name: - Section: - Schedule: - Class Number: - Date
8 pages
KSLU's 8th International Law Moot Court Competition
0% (1)
KSLU's 8th International Law Moot Court Competition
26 pages
Modern Classics Magazine July 2017 PDF
No ratings yet
Modern Classics Magazine July 2017 PDF
124 pages
B24 Grinding Polishing: XXXX B24B B24B XXXX
No ratings yet
B24 Grinding Polishing: XXXX B24B B24B XXXX
8 pages
A 432 HZ Is A Bunch of B.S.
33% (3)
A 432 HZ Is A Bunch of B.S.
4 pages
YC Application Info
No ratings yet
YC Application Info
4 pages
On-line OGL Ch 02 CPL Review - Contracts PDF
No ratings yet
On-line OGL Ch 02 CPL Review - Contracts PDF
14 pages
41year - 115th Final Exam For Graduation (80 Questions) - EN
No ratings yet
41year - 115th Final Exam For Graduation (80 Questions) - EN
17 pages
Retail Food Sector Jakarta Indonesia 1-7-2010
No ratings yet
Retail Food Sector Jakarta Indonesia 1-7-2010
28 pages
Oblicon-Riesenbeck Vs CA
No ratings yet
Oblicon-Riesenbeck Vs CA
2 pages
43 IoT - Assignment Brief 1 2022
No ratings yet
43 IoT - Assignment Brief 1 2022
3 pages
Lisa Comfort Skirt Project
No ratings yet
Lisa Comfort Skirt Project
4 pages
Ethio Economy
No ratings yet
Ethio Economy
51 pages
Wall Treatments and Wall Functions
No ratings yet
Wall Treatments and Wall Functions
15 pages
Person Centered Care Literature Review
100% (2)
Person Centered Care Literature Review
4 pages
Whea or Rice Straw Treatment
No ratings yet
Whea or Rice Straw Treatment
2 pages
Christmas Story
No ratings yet
Christmas Story
3 pages
Word Magic System For Pbta
No ratings yet
Word Magic System For Pbta
6 pages
Lecture 3 - Introduction To Ages of Literature
No ratings yet
Lecture 3 - Introduction To Ages of Literature
19 pages
Atg Worksheet Must Dont
100% (2)
Atg Worksheet Must Dont
2 pages

Assessing Data Quality Dimensions

Uploaded by

Assessing Data Quality Dimensions

Uploaded by

Assessing Data Quality Dimensions in Business Data

pip install pandas numpy matplotlib

Step 2: Load the Data

# Load the data

# Display the first few rows

Step 3: Data Profiling

# Get summary statistics

# Check for missing values

# Check unique values in 'CustomerID'

Step 4: Assess Data Quality Dimensions

# Function to validate email

Count missing values in each column.

Check for duplicate entries.

# Check for duplicates

Assess whether JoinDate is in a valid range.

# Check for valid JoinDate format

Evaluate whether all columns are relevant for analysis.

# Display columns to evaluate relevance

Check for unique CustomerID values.

# Check for unique CustomerID

Step 5: Data Cleaning

a. Fill missing values:

For AmountSpent, we could fill missing values with the average.

# Fill missing AmountSpent with mean

c. Remove invalid emails:

# Remove rows with invalid emails

# Remove rows with invalid JoinDates

Step 6: Validate Data Quality After Cleaning

After cleaning, validate the data quality again.

# Check for missing values again

# Check for duplicates again

Step 7: Documentation and Reporting

Create a report summarizing your findings.

with open('data_quality_report.txt', 'w') as report:

You might also like