0% found this document useful (0 votes)

5 views9 pages

A Data Science Project 2

The document outlines a data science project involving a global super-store's sales data, focusing on data cleaning, analysis, and visualization using Python libraries such as Pandas, Matplotlib, and Seaborn. Key tasks include handling missing values, identifying duplicates, and performing statistical analysis, including correlation and regression modeling. The project culminates in a linear regression model to predict sales based on profit and discount variables.

Uploaded by

23stcs21

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views9 pages

A Data Science Project 2

Uploaded by

23stcs21

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 9

A DATA SCIENCE PROJECT

GLOBAL SUPER-STORE

AND

SALES DATA

TASL 2(1)

import pandas as pd

from google.colab import files

import matplotlib.pyplot as plt

import seaborn as sns

uploaded=files.upload()

data=pd.read_csv(list(uploaded.keys())[0], encoding='ISO-8859-1')

print("data")

print(data.region())

print(data.product-category())

print(data.profit())

print(data.sales())

print("Any missing values")

print(data.isnull().sum())

print(data.notnull())

data=data.drop_duplicates()

print("Handling outliers")
print(Q1=data.quantile(0.25))

print(Q3=data.quantile(0.75))

IQR=Q3-Q1

print(IQR)

print("Descriptive Statistics")

print(data[['Sales','Profit']].describe())

print("Sales Variance:", data['Sales'].var())

print("Sales Standard Deviation:", data['Sales'].std())

print("Profit Variance:", data['Profit'].var())

print("Profit Standard Deviation:", data['Profit'].std())

print("correlation")

corr_matrix = data.corr(numeric_only=True)

print(corr_matrix[['Sales','Profit']])

sns.histplot(data['Sales'], kde=true)

plt.title("Sales Distribution")

plt.show()

sns.boxplot(x-data['Profit'])

plt.title("Profit Boxplot")

plt.show()

sns.heatmap(data.corr(numeric_only=true), annot=true, cmap='coolwarm')

plt.title("Correlation Heatmap")

plt.show()
SALES DATA

TASK 2(2)

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

uploaded=files.upload()

df=pd.read_csv(list(uploaded.keys())[0], encoding='ISO-8859-1')

print("The data:")

display(df.head())

print("Dataset Information")

df.info()

print("Statistical Summary")

display(df.describe())

duplicates= df,duplicates().sum()

print(f"Number of duplicate rows:{duplicates}")

df= df.drop_duplicates()

print(f"Missing values before cleaning:"{df.isnull().sum()}")

df.fillna(df.select_dtypes(include='number').mean(), inplace=True)

df['Region'] = df['Region'].fillna(fd['Region'].mode()[0])
df['Date']= df['Date'].fillna(df['Date'].mode()[0])

print(f"Missing values after cleaning:{df.isnull().sum()}")

df['Date']= pd.to_datetime(df['Date'], format= '%d-%m-%Y')

print("Data after cleaning:")

display(df.head())

plt.figure(figsize=(8,6))

sns.scatterplot(x='Discount', y='Profit', data =df, color= 'orange')

plt.title('Profit vs Discount')

plt.xlabel('Discount')

plt.ylabel('Profit')

plt.show()

plt.figure(figsize=(8,6))

region_sales= df.groupby('Region')['Sales'].sum()

region_sales.plot(kind='bar',color='green')

plt.title('Sales by region')

plt.ylabel('Total Sales')

plt.show()

plt.figure(figsize=(8,6))

sns.heatmap(df.select_dtypes(include='number').corr(), annot=True,
cmap='coolwarm')

plt.title('Correlation Matrix')

plt.show()
from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

from sklearn.metrics import mean_squared_error, r2_score

X=df[['Profit', 'Discount']]

Y= df['Sales']

X_train, X_test, Y_train, Y_test= train_test_split(X,Y,test_size=0.2,

random_state=42)

model= LinearRegression()

model.fit(X_train, Y_train)

Y_pred = model.predict(X_test)

print(f"Mean Squared Error:{ mean_squared_error(Y_test, Y_pred):.3f}")

print(f"R-squared Score:{r2_score(Y_test, Y_pred):.2f}")

Supermart Grocery Sales Analysis
No ratings yet
Supermart Grocery Sales Analysis
8 pages
Pranita Dane - IBM - Internship Project Submission - Data Analytics
No ratings yet
Pranita Dane - IBM - Internship Project Submission - Data Analytics
28 pages
Project Amazon Sales Data Analysis
No ratings yet
Project Amazon Sales Data Analysis
12 pages
Sales Data Analysis
No ratings yet
Sales Data Analysis
37 pages
Supermart Grocery Sales - Retail Analytics Dataset - (Data Analyst)
No ratings yet
Supermart Grocery Sales - Retail Analytics Dataset - (Data Analyst)
17 pages
Coffee Sales - (Data Analyst)
No ratings yet
Coffee Sales - (Data Analyst)
31 pages
UMTS Voice Quality Improvement Solution (RAN17.1 - 01)
100% (3)
UMTS Voice Quality Improvement Solution (RAN17.1 - 01)
32 pages
Superstore Sales Data Analysis Report - 24MSG1R43 - Sanjeev Kumar
No ratings yet
Superstore Sales Data Analysis Report - 24MSG1R43 - Sanjeev Kumar
8 pages
Calculate Size of Contactor - Fuse - CB - OL Relay of Star-Delta Starter - Electrical Notes & Articles
No ratings yet
Calculate Size of Contactor - Fuse - CB - OL Relay of Star-Delta Starter - Electrical Notes & Articles
8 pages
HackWithInfy - Examination Guidelines
No ratings yet
HackWithInfy - Examination Guidelines
2 pages
1 - Series 2022
100% (2)
1 - Series 2022
9 pages
Data Visualization For Python - Sales Retail - r1
No ratings yet
Data Visualization For Python - Sales Retail - r1
19 pages
Supermarket Sales Analysis Project
No ratings yet
Supermarket Sales Analysis Project
8 pages
Retail Analysis Walmart
No ratings yet
Retail Analysis Walmart
18 pages
Technologyname Phase2
No ratings yet
Technologyname Phase2
20 pages
Supermarket - Sales - Analysis - Algorithm - by Data Analaysis
No ratings yet
Supermarket - Sales - Analysis - Algorithm - by Data Analaysis
2 pages
Sample Project 1
No ratings yet
Sample Project 1
14 pages
Lecture 01 Introduction To Programming
No ratings yet
Lecture 01 Introduction To Programming
41 pages
Task 2 - Experimentation and Uplift Testing - Jupyter Notebook
No ratings yet
Task 2 - Experimentation and Uplift Testing - Jupyter Notebook
41 pages
Deep Learning Assignments
No ratings yet
Deep Learning Assignments
13 pages
Task 6
No ratings yet
Task 6
14 pages
All Analysiscode Explanation
No ratings yet
All Analysiscode Explanation
22 pages
Pro Flo 4 Firmware v65 Update Procedure
100% (1)
Pro Flo 4 Firmware v65 Update Procedure
2 pages
Wa0002.
No ratings yet
Wa0002.
4 pages
PRJ Sales Forecasting
No ratings yet
PRJ Sales Forecasting
22 pages
Amazon Sales Analysis
No ratings yet
Amazon Sales Analysis
3 pages
Python Exp 11
No ratings yet
Python Exp 11
5 pages
Sample Sales Data Analysis
No ratings yet
Sample Sales Data Analysis
13 pages
DWM Project
No ratings yet
DWM Project
16 pages
DF PD - Read - Excel ('Sample - Superstore - XLS') : Anjaliassignmnet - Ipy NB
No ratings yet
DF PD - Read - Excel ('Sample - Superstore - XLS') : Anjaliassignmnet - Ipy NB
23 pages
Final Ca
No ratings yet
Final Ca
10 pages
Identifying Columns With Missing Values
No ratings yet
Identifying Columns With Missing Values
4 pages
Excel To Pandas Advanced Data Techniques For BI Devs 1729266352
No ratings yet
Excel To Pandas Advanced Data Techniques For BI Devs 1729266352
9 pages
Notes 20241025083428
No ratings yet
Notes 20241025083428
4 pages
Exercise3 Solution
No ratings yet
Exercise3 Solution
19 pages
Experiment No 7 DMV
No ratings yet
Experiment No 7 DMV
5 pages
BIDA Practical Print
No ratings yet
BIDA Practical Print
56 pages
Breville BES980XL
100% (1)
Breville BES980XL
7 pages
Naan Mudhalvan - Google Cloud Data Analytics
No ratings yet
Naan Mudhalvan - Google Cloud Data Analytics
33 pages
Agra Supplementary DPR
No ratings yet
Agra Supplementary DPR
67 pages
Data Collection and Data Cleaning: Next Connect To The Drive
No ratings yet
Data Collection and Data Cleaning: Next Connect To The Drive
16 pages
Python For Business Decision Making Asm2
No ratings yet
Python For Business Decision Making Asm2
21 pages
Manmohan Pandey Lab Mannual
No ratings yet
Manmohan Pandey Lab Mannual
30 pages
Analyzing Sales Data
No ratings yet
Analyzing Sales Data
11 pages
SalesMgmtSystem XII IP Projectreport 2022 23
No ratings yet
SalesMgmtSystem XII IP Projectreport 2022 23
18 pages
Wa0003.
No ratings yet
Wa0003.
3 pages
EDA Report Week2
No ratings yet
EDA Report Week2
15 pages
Document 11
No ratings yet
Document 11
6 pages
Raw Customer Analysis
No ratings yet
Raw Customer Analysis
2 pages
Guides
No ratings yet
Guides
23 pages
Dva
No ratings yet
Dva
19 pages
A Real World Scenario Solution Using Pandas
No ratings yet
A Real World Scenario Solution Using Pandas
3 pages
Data Analysis
No ratings yet
Data Analysis
4 pages
Customer Segmentation PDF
No ratings yet
Customer Segmentation PDF
18 pages
Final
No ratings yet
Final
2 pages
Pandas Syntax Revision For ML
No ratings yet
Pandas Syntax Revision For ML
10 pages
Final Project
No ratings yet
Final Project
15 pages
Project Merged
No ratings yet
Project Merged
7 pages
Rithika
No ratings yet
Rithika
16 pages
CDAC Assignment
No ratings yet
CDAC Assignment
3 pages
DMV Lab 12
No ratings yet
DMV Lab 12
8 pages
Supermarket Sales Data Analysis
No ratings yet
Supermarket Sales Data Analysis
6 pages
Intro To BA
No ratings yet
Intro To BA
7 pages
Data Analysis Project On Customer Purchases Dataset
No ratings yet
Data Analysis Project On Customer Purchases Dataset
1 page
UNIT 5 Scenario
No ratings yet
UNIT 5 Scenario
5 pages
Project Python
No ratings yet
Project Python
3 pages
Practice Questions2
No ratings yet
Practice Questions2
2 pages
Summer Internship Report Indian Oil Corp
No ratings yet
Summer Internship Report Indian Oil Corp
63 pages
Iji
No ratings yet
Iji
12 pages
Poe Hmems80 - 56724071 - Mulobetsi N
No ratings yet
Poe Hmems80 - 56724071 - Mulobetsi N
21 pages
Greenwood Hinings Radical-Change
No ratings yet
Greenwood Hinings Radical-Change
34 pages
Chapter 2 Understanding ACI Hardware and Topologies
No ratings yet
Chapter 2 Understanding ACI Hardware and Topologies
31 pages
ElectronicMechanic1stSEMTheory (NSQF)
No ratings yet
ElectronicMechanic1stSEMTheory (NSQF)
231 pages
Neelima Resume
No ratings yet
Neelima Resume
3 pages
Gustave Eiffel
No ratings yet
Gustave Eiffel
13 pages
Fortisandbox: Top-Rated Ai-Powered Breach Protection
No ratings yet
Fortisandbox: Top-Rated Ai-Powered Breach Protection
6 pages
General 02
No ratings yet
General 02
67 pages
9 Evaluation Techniques
No ratings yet
9 Evaluation Techniques
9 pages
Abhilash Resume
No ratings yet
Abhilash Resume
5 pages
PM Wbs Guide
No ratings yet
PM Wbs Guide
2 pages
Find The Fake: Call For Participants
No ratings yet
Find The Fake: Call For Participants
10 pages
Appendix A3 Derivation of Blend Rule For Solubility Parameters 2014 Cleaning With Solvents
No ratings yet
Appendix A3 Derivation of Blend Rule For Solubility Parameters 2014 Cleaning With Solvents
3 pages
A Performative Approach To Urban Informality: Learning From Mexico City and Rio de Janeiro
No ratings yet
A Performative Approach To Urban Informality: Learning From Mexico City and Rio de Janeiro
15 pages
IT Sir Arienza Access-Security
No ratings yet
IT Sir Arienza Access-Security
12 pages
Legal Research Sylabo UQAM
No ratings yet
Legal Research Sylabo UQAM
13 pages
2024 16 10 20 59 55 Statement - 1729092595712
No ratings yet
2024 16 10 20 59 55 Statement - 1729092595712
20 pages
Lab Exer 3
No ratings yet
Lab Exer 3
8 pages
MOW 312 - Semester Test 2 (2021) Memo
No ratings yet
MOW 312 - Semester Test 2 (2021) Memo
6 pages
Palconite 3bsma A Reflection Paper4
No ratings yet
Palconite 3bsma A Reflection Paper4
1 page
Google Cloud Platform for Data Engineering: From Beginner to Data Engineer using Google Cloud Platform
From Everand
Google Cloud Platform for Data Engineering: From Beginner to Data Engineer using Google Cloud Platform
alasdair gilchrist
5/5 (1)

A Data Science Project 2

Uploaded by

A Data Science Project 2

Uploaded by

A DATA SCIENCE PROJECT

from google.colab import files

import matplotlib.pyplot as plt

import seaborn as sns

print("Any missing values")

print("Sales Variance:", data['Sales'].var())

print("Sales Standard Deviation:", data['Sales'].std())

print("Profit Variance:", data['Profit'].var())

print("Profit Standard Deviation:", data['Profit'].std())

sns.heatmap(data.corr(numeric_only=true), annot=true, cmap='coolwarm')

import matplotlib.pyplot as plt

import seaborn as sns

print(f"Number of duplicate rows:{duplicates}")

print(f"Missing values before cleaning:"{df.isnull().sum()}")

print(f"Missing values after cleaning:{df.isnull().sum()}")

df['Date']= pd.to_datetime(df['Date'], format= '%d-%m-%Y')

print("Data after cleaning:")

sns.scatterplot(x='Discount', y='Profit', data =df, color= 'orange')

from sklearn.linear_model import LinearRegression

from sklearn.metrics import mean_squared_error, r2_score

X_train, X_test, Y_train, Y_test= train_test_split(X,Y,test_size=0.2,

print(f"Mean Squared Error:{ mean_squared_error(Y_test, Y_pred):.3f}")

print(f"R-squared Score:{r2_score(Y_test, Y_pred):.2f}")

You might also like