Retail Sales Dataset Project Documen1

The Retail Sales Dataset Project aims to process and analyze retail sales data using Azure Data Lake Storage and Databricks, organizing data into four layers: Landing, Bronze, Silver, and Gold. The project involves data ingestion, cleansing, transformation, and integration with Databricks for efficient analysis. Future enhancements include implementing Delta Lake, automating the ingestion pipeline, and applying machine learning for demand forecasting.

Uploaded by

sekarmani111

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

96 views2 pages

Retail Sales Dataset Project Documen1

Uploaded by

sekarmani111

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 2

Retail Sales Dataset Project Document

1. Project Overview
This project focuses on processing and analyzing retail sales data using Azure Data Lake
Storage (ADLS) and Databricks. The goal is to ingest, transform, and organize data
efficiently across different storage layers (Landing, Bronze, Silver, and Gold) for insightful
analysis.

2. Data Source
 Source: Kaggle Retail Sales Dataset
 Data Type: CSV files

3. Data Storage Structure

3.1 Folder Structure in ADLS

 Landing: Raw data files uploaded from Kaggle.

 Bronze: Cleansed and standardized raw data.
 Silver: Transformed data with necessary enrichments.
 Gold: Final processed data for analysis and reporting.

4. Data Processing Workflow

1. Data Ingestion
o Download data from Kaggle.
o Split data into four files based on predefined logic.
o Upload files to the Landing folder in ADLS.
2. Data Movement and Transformation
o Move data from landing → Bronze.
o Apply basic cleansing (removing duplicates, handling missing values).
o Move data from Bronze → Silver.
o Perform transformations (date formatting, category standardization, revenue
calculations).
o Move data from Silver → Gold.
o Aggregate and optimize data for reporting and analytics.
3. Databricks Integration
o Connect Databricks with ADLS using an access key.
o Use Databricks notebooks to automate the ingestion and transformation
pipeline.

5. Technologies Used
 Cloud Storage: Azure Data Lake Storage (ADLS)
 Processing Framework: Databricks (Apache Spark)
 Data Source: Kaggle CSV files
 Authentication: Access key-based authentication

6. Expected Outcomes
 Well-organized data across Landing, Bronze, Silver, and Gold layers.
 Cleaned and transformed data ready for analysis.
 Efficient data pipeline for future scalability and automation.

7. Future Enhancements
 Implement Delta Lake for enhanced data reliability.
 Automate the ingestion pipeline using Azure Data Factory (ADF).
 Apply Machine Learning models for demand forecasting.

My First ETL Pipeline
No ratings yet
My First ETL Pipeline
10 pages
Retail Data Analysis in Istanbul - Demo - Guide File
No ratings yet
Retail Data Analysis in Istanbul - Demo - Guide File
25 pages
Rithika Content
No ratings yet
Rithika Content
25 pages
DABI - Final Assignment - Arif - Shayekh
No ratings yet
DABI - Final Assignment - Arif - Shayekh
12 pages
Python Project Report
No ratings yet
Python Project Report
19 pages
Retail Sales Analytics Project Proposal
No ratings yet
Retail Sales Analytics Project Proposal
1 page
Retail Sales Analytics Project
No ratings yet
Retail Sales Analytics Project
3 pages
Retail Performance
No ratings yet
Retail Performance
3 pages
File 2620
No ratings yet
File 2620
24 pages
End To End Project ADF
No ratings yet
End To End Project ADF
73 pages
Sales Data Analysis and Reporting For A Retail Chain-1
No ratings yet
Sales Data Analysis and Reporting For A Retail Chain-1
1 page
CSUDS Project
No ratings yet
CSUDS Project
13 pages
Internship Report of Sales Data Analysis
No ratings yet
Internship Report of Sales Data Analysis
21 pages
Rithika
No ratings yet
Rithika
16 pages
Project Charter Coffee Shop
No ratings yet
Project Charter Coffee Shop
3 pages
br17 Final Project Report
No ratings yet
br17 Final Project Report
7 pages
Azure de Project
No ratings yet
Azure de Project
29 pages
Supermarket - Sales - Analysis - Algorithm - by Data Analaysis
No ratings yet
Supermarket - Sales - Analysis - Algorithm - by Data Analaysis
2 pages
R CASE STUDY 1 (Retail)
No ratings yet
R CASE STUDY 1 (Retail)
4 pages
249 PRJ
No ratings yet
249 PRJ
31 pages
Amazon Final
No ratings yet
Amazon Final
18 pages
Simple PowerBI Project
No ratings yet
Simple PowerBI Project
1 page
Synopsis
No ratings yet
Synopsis
4 pages
MarketLytics-Data Intern 2023
No ratings yet
MarketLytics-Data Intern 2023
2 pages
Advance Database
No ratings yet
Advance Database
15 pages
Project Proposal - Sales Dashboard
No ratings yet
Project Proposal - Sales Dashboard
3 pages
Customer Segmentation
No ratings yet
Customer Segmentation
9 pages
Aaabgh Project
No ratings yet
Aaabgh Project
28 pages
Cbdasproject
No ratings yet
Cbdasproject
23 pages
Pranita Dane - IBM - Internship Project Submission - Data Analytics
No ratings yet
Pranita Dane - IBM - Internship Project Submission - Data Analytics
28 pages
Data Mining
No ratings yet
Data Mining
10 pages
Retail Analytics
No ratings yet
Retail Analytics
2 pages
5
No ratings yet
5
2 pages
Analysis of Superstore Database
No ratings yet
Analysis of Superstore Database
23 pages
Report On Internship
No ratings yet
Report On Internship
28 pages
DMV Lab 12
No ratings yet
DMV Lab 12
8 pages
Data Analysis
No ratings yet
Data Analysis
10 pages
Formatted Big Mart Sale Analysis
No ratings yet
Formatted Big Mart Sale Analysis
15 pages
Bike Store Document
No ratings yet
Bike Store Document
7 pages
3
No ratings yet
3
2 pages
Final Project
No ratings yet
Final Project
15 pages
Assigment 3 Data Science
No ratings yet
Assigment 3 Data Science
3 pages
IIT FDS Assignment1
No ratings yet
IIT FDS Assignment1
2 pages
AS Riyyan ICT702
No ratings yet
AS Riyyan ICT702
8 pages
Data Analytics in Retail
No ratings yet
Data Analytics in Retail
18 pages
Text
No ratings yet
Text
3 pages
4
No ratings yet
4
2 pages
Data Description
No ratings yet
Data Description
2 pages
MANTHIRAM NAAN MUDHALVAN Finished. Picture Completed The Project.
No ratings yet
MANTHIRAM NAAN MUDHALVAN Finished. Picture Completed The Project.
18 pages
05 Detailed Project Report
No ratings yet
05 Detailed Project Report
23 pages
Business Report On Sales
No ratings yet
Business Report On Sales
3 pages
Project PPTX Lyst5585
No ratings yet
Project PPTX Lyst5585
8 pages
Data Analysis Project On Customer Purchases Dataset
No ratings yet
Data Analysis Project On Customer Purchases Dataset
1 page
Retail Management System Project No Images
No ratings yet
Retail Management System Project No Images
11 pages
CLC - Analytics Problem Statement
No ratings yet
CLC - Analytics Problem Statement
13 pages
CLC - Final Capstone Project Thesis
No ratings yet
CLC - Final Capstone Project Thesis
61 pages
Project List Data Analytics
No ratings yet
Project List Data Analytics
13 pages

Retail Sales Dataset Project Documen1

Uploaded by

Retail Sales Dataset Project Documen1

Uploaded by

Retail Sales Dataset Project Document

3. Data Storage Structure

 Landing: Raw data files uploaded from Kaggle.

4. Data Processing Workflow

You might also like