Data Profiling

Data profiling is the process of examining existing data sources to collect statistics and summaries about the data. This helps assess data quality, understand data structure and relationships, discover metadata, and identify potential issues. It involves analyzing data at the column, table, and cross-table levels using descriptive statistics. Data profiling is conducted at various stages of data warehouse development to evaluate source systems and ensure proper data extraction, transformation and loading. It provides benefits like improved data quality, shorter project timelines, and better user understanding of data.

Uploaded by

charlotte899

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

63 views3 pages

Data Profiling

Uploaded by

charlotte899

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

Data profiling

Data profiling is the process of examining the data available from an existing information source (e.g. a
database or a file) and collecting statistics or informative summaries about that data.[1] The purpose of these
statistics may be to:

1. Find out whether existing data can be easily used for other purposes
2. Improve the ability to search data by tagging it with keywords, descriptions, or assigning it to
a category
3. Assess data quality, including whether the data conforms to particular standards or
patterns[2]
4. Assess the risk involved in integrating data in new applications, including the challenges of
joins
5. Discover metadata of the source database, including value patterns and distributions, key
candidates, foreign-key candidates, and functional dependencies
6. Assess whether known metadata accurately describes the actual values in the source
database
7. Understanding data challenges early in any data intensive project, so that late project
surprises are avoided. Finding data problems late in the project can lead to delays and cost
overruns.
8. Have an enterprise view of all data, for uses such as master data management, where key
data is needed, or data governance for improving data quality.

Introduction
Data profiling refers to the analysis of information for use in a data warehouse in order to clarify the
structure, content, relationships, and derivation rules of the data.[3] Profiling helps to not only understand
anomalies and assess data quality, but also to discover, register, and assess enterprise metadata.[4][5] The
result of the analysis is used to determine the suitability of the candidate source systems, usually giving the
basis for an early go/no-go decision, and also to identify problems for later solution design.[3]

How data profiling is conducted

Data profiling utilizes methods of descriptive statistics such as minimum, maximum, mean, mode,
percentile, standard deviation, frequency, variation, aggregates such as count and sum, and additional
metadata information obtained during data profiling such as data type, length, discrete values, uniqueness,
occurrence of null values, typical string patterns, and abstract type recognition.[4][6][7] The metadata can
then be used to discover problems such as illegal values, misspellings, missing values, varying value
representation, and duplicates.

Different analyses are performed for different structural levels. E.g. single columns could be profiled
individually to get an understanding of frequency distribution of different values, type, and use of each
column. Embedded value dependencies can be exposed in a cross-columns analysis. Finally, overlapping
value sets possibly representing foreign key relationships between entities can be explored in an inter-table
analysis.[4]
Normally, purpose-built tools are used for data profiling to ease the process.[3][4][6][7][8][9] The computation
complexity increases when going from single column, to single table, to cross-table structural profiling.
Therefore, performance is an evaluation criterion for profiling tools.[5]

When is data profiling conducted?

According to Kimball,[3] data profiling is performed several times and with varying intensity throughout the
data warehouse developing process. A light profiling assessment should be undertaken immediately after
candidate source systems have been identified and DW/BI business requirements have been satisfied. The
purpose of this initial analysis is to clarify at an early stage if the correct data is available at the appropriate
detail level and that anomalies can be handled subsequently. If this is not the case the project may be
terminated.[3]

Additionally, more in-depth profiling is done prior to the dimensional modeling process in order assess
what is required to convert data into a dimensional model. Detailed profiling extends into the ETL system
design process in order to determine the appropriate data to extract and which filters to apply to the data
set.[3]

Additionally, data profiling may be conducted in the data warehouse development process after data has
been loaded into staging, the data marts, etc. Conducting data at these stages helps ensure that data cleaning
and transformations have been done correctly and in compliance of requirements.

Benefits and examples

The benefits of data profiling are to improve data quality, shorten the implementation cycle of major
projects, and improve users' understanding of data.[9] Discovering business knowledge embedded in data
itself is one of the significant benefits derived from data profiling.[5] Data profiling is one of the most
effective technologies for improving data accuracy in corporate databases.[9]

See also
Data quality
Data governance
Master data management
Database normalization
Data visualization
Analysis paralysis
Data analysis

References
1. Johnson, Theodore (2009). "Data Profiling". In Springer, Heidelberg (ed.). Encyclopedia of
Database Systems.
2. Woodall, Philip; Oberhofer, Martin; Borek, Alexander (2014). "A classification of data quality
assessment and improvement methods" (http://www.inderscience.com/link.php?id=68656).
International Journal of Information Quality. 3 (4): 298. doi:10.1504/ijiq.2014.068656 (https://
doi.org/10.1504%2Fijiq.2014.068656).
3. Kimball, Ralph; et al. (2008). The Data Warehouse Lifecycle Toolkit (https://archive.org/detai
ls/datawarehouselif00kimb_924) (Second ed.). Wiley. pp. 376 (https://archive.org/details/dat
awarehouselif00kimb_924/page/n17). ISBN 9780470149775.
4. Loshin, David (2009). Master Data Management (https://archive.org/details/masterdatamana
ge00losh). Morgan Kaufmann. pp. 94 (https://archive.org/details/masterdatamanage00losh/p
age/n197)–96. ISBN 9780123742254.
5. Loshin, David (2003). Business Intelligence: The Savvy Manager's Guide, Getting Onboard
with Emerging IT. Morgan Kaufmann. pp. 110–111. ISBN 9781558609167.
6. Rahm, Erhard; Hai Do, Hong (December 2000). "Data Cleaning: Problems and Current
Approaches". Bulletin of the Technical Committee on Data Engineering. IEEE Computer
Society. 23 (4).
7. Singh, Ranjit; Singh, Kawaljeet; et al. (May 2010). "A Descriptive Classification of Causes of
Data Quality Problems in Data Warehousing". IJCSI International Journal of Computer
Science Issue. 2. 7 (3).
8. Kimball, Ralph (2004). "Kimball Design Tip #59: Surprising Value of Data Profiling" (http://w
ww.kimballgroup.com/wp-content/uploads/2012/05/DT59SurprisingValue.pdf) (PDF).
Kimball Group.
9. Olson, Jack E. (2003). Data Quality: The Accuracy Dimension (https://archive.org/details/dat
aqualityaccur00olso_641). Morgan Kaufmann. pp. 140 (https://archive.org/details/dataquality
accur00olso_641/page/n159)–142.

Retrieved from "https://en.wikipedia.org/w/index.php?title=Data_profiling&oldid=1102297638"

Cip - Guideliness
86% (7)
Cip - Guideliness
80 pages
Dendrogram
No ratings yet
Dendrogram
3 pages
Reading and Writing COMPARE-AND-CONTRAST-WRITTEN-TEXTS-2
No ratings yet
Reading and Writing COMPARE-AND-CONTRAST-WRITTEN-TEXTS-2
19 pages
Chapter 4 - Sensory Attentional and Perceptual Processes
No ratings yet
Chapter 4 - Sensory Attentional and Perceptual Processes
20 pages
Descriptive Statistics
0% (1)
Descriptive Statistics
3 pages
Self Efficacy - Bandura
100% (9)
Self Efficacy - Bandura
65 pages
Modul 1 CertDA
No ratings yet
Modul 1 CertDA
8 pages
Data Analysis and Interpretation
100% (1)
Data Analysis and Interpretation
26 pages
Edu411 Unit 5
No ratings yet
Edu411 Unit 5
8 pages
Data Warehousing and Data Mining
No ratings yet
Data Warehousing and Data Mining
36 pages
Data Profiling Vision Felix Naumann
No ratings yet
Data Profiling Vision Felix Naumann
11 pages
Data Profiling
No ratings yet
Data Profiling
9 pages
Ead 520 Curriculum Integration To Promote Student Outcomes
No ratings yet
Ead 520 Curriculum Integration To Promote Student Outcomes
12 pages
Jahnavi IITPATNA
100% (1)
Jahnavi IITPATNA
1 page
Types of Data Analysis: Techniques and Methods
No ratings yet
Types of Data Analysis: Techniques and Methods
4 pages
Data Mesh
No ratings yet
Data Mesh
4 pages
Ch-1 Assignment 1
No ratings yet
Ch-1 Assignment 1
4 pages
Visual Analytics
No ratings yet
Visual Analytics
5 pages
Cse2026 Module 1 & 2 Detailed Notes
No ratings yet
Cse2026 Module 1 & 2 Detailed Notes
185 pages
Unit 2
No ratings yet
Unit 2
144 pages
Unit 2
No ratings yet
Unit 2
81 pages
Data Analyst Complete Notes
No ratings yet
Data Analyst Complete Notes
34 pages
AA THeory and Methods
No ratings yet
AA THeory and Methods
40 pages
Basics of Data Integration
No ratings yet
Basics of Data Integration
67 pages
Cyber Security Unit - 5
No ratings yet
Cyber Security Unit - 5
43 pages
Data Analysis - Wikipedia
No ratings yet
Data Analysis - Wikipedia
79 pages
Lecture3 - Informatica Developer Concepts 1
No ratings yet
Lecture3 - Informatica Developer Concepts 1
28 pages
in Educ 201
No ratings yet
in Educ 201
28 pages
BIA 5000 Introduction To Analytics - Lesson 6
No ratings yet
BIA 5000 Introduction To Analytics - Lesson 6
59 pages
Unit 2 Data Profiling
No ratings yet
Unit 2 Data Profiling
14 pages
Unit 2 Data Warehouse and Data Mining
No ratings yet
Unit 2 Data Warehouse and Data Mining
19 pages
Data Quality
No ratings yet
Data Quality
15 pages
Data Profiling, Quality and Governance - Research Paper
No ratings yet
Data Profiling, Quality and Governance - Research Paper
13 pages
Data Analysis: Analysis of Data Is A Process of Inspecting, Cleaning, Transforming, and Modeling
No ratings yet
Data Analysis: Analysis of Data Is A Process of Inspecting, Cleaning, Transforming, and Modeling
6 pages
Active Passive
100% (1)
Active Passive
16 pages
Data Profiling Is A Critical Step in Data Manageme
No ratings yet
Data Profiling Is A Critical Step in Data Manageme
7 pages
Unit - 2
No ratings yet
Unit - 2
4 pages
Data and Information Visualization
No ratings yet
Data and Information Visualization
27 pages
Chapter 1.3
No ratings yet
Chapter 1.3
9 pages
Cladistics
No ratings yet
Cladistics
15 pages
Infographic
No ratings yet
Infographic
12 pages
Bahasa Inggris
No ratings yet
Bahasa Inggris
9 pages
2.data Analysis Vs Analytics
No ratings yet
2.data Analysis Vs Analytics
6 pages
ACC 157 SAS No. 24
No ratings yet
ACC 157 SAS No. 24
6 pages
Data Analysis
No ratings yet
Data Analysis
28 pages
Heat Map
No ratings yet
Heat Map
9 pages
DAVAI Macro
No ratings yet
DAVAI Macro
6 pages
Upload 3
No ratings yet
Upload 3
22 pages
CS EN ENE13.05i CRUZ - P J 2023 1
No ratings yet
CS EN ENE13.05i CRUZ - P J 2023 1
11 pages
Treemapping
No ratings yet
Treemapping
7 pages
Data Migration First Steps
No ratings yet
Data Migration First Steps
6 pages
Data Profiling White Paper1003-Final
No ratings yet
Data Profiling White Paper1003-Final
17 pages
Lesson 1 Reviewer
No ratings yet
Lesson 1 Reviewer
5 pages
GED 111 CC - Detailed Lesson Plan
No ratings yet
GED 111 CC - Detailed Lesson Plan
3 pages
Data Mining and Data Profiling - Nargis Hamid Monami
No ratings yet
Data Mining and Data Profiling - Nargis Hamid Monami
7 pages
Book Review - Nissrine Jabbar
No ratings yet
Book Review - Nissrine Jabbar
6 pages
Data Profiling: References
No ratings yet
Data Profiling: References
28 pages
The Difficulty in Speaking English of College Students: Group 11
No ratings yet
The Difficulty in Speaking English of College Students: Group 11
20 pages
What Is Organizational Behavior?
No ratings yet
What Is Organizational Behavior?
33 pages
The Process of Data Analysis
No ratings yet
The Process of Data Analysis
9 pages
CAS Portfolio
No ratings yet
CAS Portfolio
1 page
ToolKit 1 - Unit 1 - Introduction To Data Analytics
No ratings yet
ToolKit 1 - Unit 1 - Introduction To Data Analytics
15 pages
Ejemplo Oral Production
No ratings yet
Ejemplo Oral Production
2 pages
Grand Tour (Data Visualisation)
No ratings yet
Grand Tour (Data Visualisation)
2 pages
Undergrad Thesis Template Updated
No ratings yet
Undergrad Thesis Template Updated
18 pages
Geovisualization
No ratings yet
Geovisualization
5 pages
Data Profiling Overview
No ratings yet
Data Profiling Overview
11 pages
Optional Engleza 8
No ratings yet
Optional Engleza 8
8 pages
Business Uses of Data Mining and Data Warehousing MIS 304 Section 04 CRN-41595
No ratings yet
Business Uses of Data Mining and Data Warehousing MIS 304 Section 04 CRN-41595
23 pages
Imc FAMOS
No ratings yet
Imc FAMOS
2 pages
Information Design
No ratings yet
Information Design
5 pages
Kimball D T 59 Surprising Value
No ratings yet
Kimball D T 59 Surprising Value
2 pages
Hyperbolic Tree
No ratings yet
Hyperbolic Tree
2 pages
Violations of Maxims Analysis of Cooperative Principle in Maleficent Movie
No ratings yet
Violations of Maxims Analysis of Cooperative Principle in Maleficent Movie
6 pages
Time Duration: 1 Hour: Daily Lesson Plan
No ratings yet
Time Duration: 1 Hour: Daily Lesson Plan
6 pages
Data Profiling
No ratings yet
Data Profiling
7 pages
Concept Map
No ratings yet
Concept Map
5 pages
Is There A Reason For Everything
No ratings yet
Is There A Reason For Everything
2 pages
Data Quality Assessment: A Methodology For Success: Data: The Good, The Bad and The Money
No ratings yet
Data Quality Assessment: A Methodology For Success: Data: The Good, The Bad and The Money
8 pages
Data Analysis
No ratings yet
Data Analysis
22 pages
Mailvis: Visualizing Emailbox For Re-Finding Emails
No ratings yet
Mailvis: Visualizing Emailbox For Re-Finding Emails
2 pages
Frameworks
No ratings yet
Frameworks
4 pages
1020 Data Profiling
No ratings yet
1020 Data Profiling
3 pages
Research Academic Report (Role Plays)
No ratings yet
Research Academic Report (Role Plays)
9 pages
Gingoog City Colleges - Junior High School: The Problem and Its Background
No ratings yet
Gingoog City Colleges - Junior High School: The Problem and Its Background
6 pages
It Is The Process of Checking and Adjusting The Data For Omissions
No ratings yet
It Is The Process of Checking and Adjusting The Data For Omissions
5 pages
The Teachers Role in Reducing Learners' Anxiety in Second Language Production
No ratings yet
The Teachers Role in Reducing Learners' Anxiety in Second Language Production
10 pages
Analysis of Data Is A Process of Inspecting, Cleaning, Transforming, and
No ratings yet
Analysis of Data Is A Process of Inspecting, Cleaning, Transforming, and
12 pages
Daily Lesson Plan: Lesson Title: Grade: Projected/Current Unit of Study
No ratings yet
Daily Lesson Plan: Lesson Title: Grade: Projected/Current Unit of Study
3 pages
Data Profiling Overview: What Is Data Profiling, and How Can It Help With Data Quality?
No ratings yet
Data Profiling Overview: What Is Data Profiling, and How Can It Help With Data Quality?
3 pages
Data Profiling
No ratings yet
Data Profiling
15 pages
Data Profiling
No ratings yet
Data Profiling
7 pages
The Necessity of Data Profiling: A How-To Guide To Getting Started and Driving Value
No ratings yet
The Necessity of Data Profiling: A How-To Guide To Getting Started and Driving Value
2 pages
Data Migration Strategies
No ratings yet
Data Migration Strategies
6 pages
Data Analytics with Generative AI
From Everand
Data Analytics with Generative AI
Younish P
No ratings yet
Applied Data Mining with Weka: Definitive Reference for Developers and Engineers
From Everand
Applied Data Mining with Weka: Definitive Reference for Developers and Engineers
Richard Johnson
No ratings yet
Efficient Data Querying with Drill: Definitive Reference for Developers and Engineers
From Everand
Efficient Data Querying with Drill: Definitive Reference for Developers and Engineers
Richard Johnson
No ratings yet
Teradata Architecture and SQL Essentials: Definitive Reference for Developers and Engineers
From Everand
Teradata Architecture and SQL Essentials: Definitive Reference for Developers and Engineers
Richard Johnson
No ratings yet
Trino Distributed SQL Query Engine Essentials: Definitive Reference for Developers and Engineers
From Everand
Trino Distributed SQL Query Engine Essentials: Definitive Reference for Developers and Engineers
Richard Johnson
No ratings yet
Database Management System
From Everand
Database Management System
Manish Soni
No ratings yet
Essential Guide to DataStage Systems: Definitive Reference for Developers and Engineers
From Everand
Essential Guide to DataStage Systems: Definitive Reference for Developers and Engineers
Richard Johnson
No ratings yet
Data Structures Explained: A Practical Guide with Examples
From Everand
Data Structures Explained: A Practical Guide with Examples
William E. Clark
No ratings yet
InfluxDB Essentials: Definitive Reference for Developers and Engineers
From Everand
InfluxDB Essentials: Definitive Reference for Developers and Engineers
Richard Johnson
No ratings yet
Mastering Data Mining Techniques
From Everand
Mastering Data Mining Techniques
Dhaanyalakshmi Ahuja
No ratings yet
The InfluxDB Handbook: Deploying, Optimizing, and Scaling Time Series Data
From Everand
The InfluxDB Handbook: Deploying, Optimizing, and Scaling Time Series Data
Robert Johnson
No ratings yet

Data Profiling

Uploaded by

Data Profiling

Uploaded by

Data profiling

How data profiling is conducted

When is data profiling conducted?

Benefits and examples

Retrieved from "https://en.wikipedia.org/w/index.php?title=Data_profiling&oldid=1102297638"

You might also like