0% found this document useful (0 votes)

61 views4 pages

DMV - 1 - Jupyter Notebook

Uploaded by

Anushka Jadhav

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

61 views4 pages

DMV - 1 - Jupyter Notebook

Uploaded by

Anushka Jadhav

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

10/6/24, 6:55 PM DMV_1 - Jupyter Notebook

In [1]: import pandas as pd

In [2]: csv_data = pd.read_csv('sales_data.csv', encoding='ISO-8859-1')

In [3]: excel_data = pd.read_excel('sales_data.xlsx')

In [4]: json_data = pd.read_json('sales_data.json')

In [5]: print(csv_data.info())
print(excel_data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2823 entries, 0 to 2822
Data columns (total 25 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 ORDERNUMBER 2823 non-null int64
1 QUANTITYORDERED 2823 non-null int64
2 PRICEEACH 2823 non-null float64
3 ORDERLINENUMBER 2823 non-null int64
4 SALES 2823 non-null float64
5 ORDERDATE 2823 non-null object
6 STATUS 2823 non-null object
7 QTR_ID 2823 non-null int64
8 MONTH_ID 2823 non-null int64
9 YEAR_ID 2823 non-null int64
10 PRODUCTLINE 2823 non-null object
11 MSRP 2823 non-null int64
12 PRODUCTCODE 2823 non-null object
13 CUSTOMERNAME 2823 non-null object
14 PHONE 2823 non-null object
15 ADDRESSLINE1 2823 non-null object
16 ADDRESSLINE2 302 non-null object
17 CITY 2823 non-null object
18 STATE 1337 non-null object
19 POSTALCODE 2747 non-null object
20 COUNTRY 2823 non-null object
21 TERRITORY 1749 non-null object
22 CONTACTLASTNAME 2823 non-null object
23 CONTACTFIRSTNAME 2823 non-null object
24 DEALSIZE 2823 non-null object
dtypes: float64(2), int64(7), object(16)
memory usage: 551.5+ KB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 390 entries, 0 to 389
Data columns (total 5 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Postcode 390 non-null int64
1 Sales_Rep_ID 390 non-null int64
2 Sales_Rep_Name 390 non-null object
3 Year 390 non-null int64
4 Value 390 non-null float64
dtypes: float64(1), int64(3), object(1)
memory usage: 15.4+ KB
None

In [6]: print(json_data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9999 entries, 0 to 9998
Data columns (total 7 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 id 9999 non-null int64
1 email 9999 non-null object
2 first 9999 non-null object
3 last 9999 non-null object
4 company 9999 non-null object
5 created_at 9999 non-null datetime64[ns, UTC]
6 country 9999 non-null object
dtypes: datetime64[ns, UTC](1), int64(1), object(5)
memory usage: 546.9+ KB
None

localhost:8888/notebooks/BE_PRACTICALS/DMV_1.ipynb 1/4
10/6/24, 6:55 PM DMV_1 - Jupyter Notebook

In [7]: csv_data.head()

Out[7]:
ORDERNUMBER QUANTITYORDERED PRICEEACH ORDERLINENUMBER SALES ORDERDATE STATUS QTR_ID MONTH_ID YEAR_ID ... ADDRESS

2/24/2003 897 Long

0 10107 30 95.70 2 2871.00 Shipped 1 2 2003 ...
0:00 A

59
1 10121 34 81.35 5 2765.90 5/7/2003 0:00 Shipped 2 5 2003 ...
l'A

27
2 10134 41 94.74 2 3884.34 7/1/2003 0:00 Shipped 3 7 2003 ... Colone

8/25/2003 78934
3 10145 45 83.26 6 3746.70 Shipped 3 8 2003 ...
0:00

10/10/2003
4 10159 49 100.00 14 5205.27 Shipped 4 10 2003 ... 7734 Str
0:00

5 rows × 25 columns

In [8]: csv_data.columns

Out[8]: Index(['ORDERNUMBER', 'QUANTITYORDERED', 'PRICEEACH', 'ORDERLINENUMBER',

'SALES', 'ORDERDATE', 'STATUS', 'QTR_ID', 'MONTH_ID', 'YEAR_ID',
'PRODUCTLINE', 'MSRP', 'PRODUCTCODE', 'CUSTOMERNAME', 'PHONE',
'ADDRESSLINE1', 'ADDRESSLINE2', 'CITY', 'STATE', 'POSTALCODE',
'COUNTRY', 'TERRITORY', 'CONTACTLASTNAME', 'CONTACTFIRSTNAME',
'DEALSIZE'],
dtype='object')

In [9]: excel_data.head()

Out[9]:
Postcode Sales_Rep_ID Sales_Rep_Name Year Value

0 2121 456 Jane 2011 84219.497311

1 2092 789 Ashish 2012 28322.192268

2 2128 456 Jane 2013 81878.997241

3 2073 123 John 2011 44491.142121

4 2134 789 Ashish 2012 71837.720959

In [15]: excel_data.columns

Out[15]: Index(['Postcode', 'Sales_Rep_ID', 'Sales_Rep_Name', 'Year', 'Value'], dtype='object')

In [10]: json_data.head()

Out[10]:
id email first last company created_at country

0 1 [email protected] Torrey Veum Hilll, Mayert and Wolf 2014-12-25 04:06:27.981000+00:00 Switzerland

1 2 [email protected] Micah Sanford Stokes-Reichel 2014-07-03 16:08:17.044000+00:00 Democratic People's Republic of Korea

2 3 [email protected] Hollis Swift Rodriguez, Cartwright and Kuhn 2014-08-18 06:15:16.731000+00:00 Tunisia

3 4 [email protected] Perry Leffler Sipes, Feeney and Hansen 2014-07-10 11:31:40.235000+00:00 Chad

4 5 [email protected] Janelle Hagenes Lesch and Daughters 2014-04-21 15:05:43.229000+00:00 Swaziland

In [14]: json_data.columns

Out[14]: Index(['id', 'email', 'first', 'last', 'company', 'created_at', 'country'], dtype='object')

In [23]: csv_data['COUNTRY'] = csv_data['COUNTRY'].astype(str)

excel_data['Postcode'] = excel_data['Postcode'].astype(str) # Assuming Postcode is analogous to Country
json_data['country'] = json_data['country'].astype(str)

In [44]: csv_selected = csv_data[['COUNTRY', 'ORDERNUMBER', 'SALES', 'YEAR_ID']].rename(columns={'COUNTRY': 'Country', 'YEAR_ID':'Yea

excel_selected = excel_data[['Postcode', 'Year', 'Value']].rename(columns={'Postcode': 'Country'})
json_selected = json_data[['country', 'email', 'first']].rename(columns={'country': 'Country'})

In [55]: combined_data = pd.merge(csv_selected, excel_selected, on=('Year','Country'), how='outer')

combined_data = pd.merge(combined_data, json_selected, on='Country', how='outer')

localhost:8888/notebooks/BE_PRACTICALS/DMV_1.ipynb 2/4
10/6/24, 6:55 PM DMV_1 - Jupyter Notebook

In [56]: combined_data.head()

Out[56]:
Country ORDERNUMBER SALES Year Value email first

0 USA 10107.0 2871.00 2003.0 NaN NaN NaN

1 USA 10145.0 3746.70 2003.0 NaN NaN NaN

2 USA 10159.0 5205.27 2003.0 NaN NaN NaN

3 USA 10168.0 3479.76 2003.0 NaN NaN NaN

4 USA 10201.0 2168.54 2003.0 NaN NaN NaN

In [57]: combined_data.tail()

Out[57]:
Country ORDERNUMBER SALES Year Value email first

82151 China NaN NaN NaN NaN [email protected] Christopher

82152 China NaN NaN NaN NaN [email protected] Hermann

82153 China NaN NaN NaN NaN [email protected] Leann

82154 China NaN NaN NaN NaN [email protected] Cierra

82155 China NaN NaN NaN NaN [email protected] Juliana

In [58]: combined_data.shape

Out[58]: (82156, 7)

In [59]: combined_data.isna().sum()

Out[59]: Country 0
ORDERNUMBER 9700
SALES 9700
Year 9310
Value 81766
email 1538
first 1538
dtype: int64

In [60]: combined_data.dtypes

Out[60]: Country object

ORDERNUMBER float64
SALES float64
Year float64
Value float64
email object
first object
dtype: object

In [64]: combined_data.describe()

Out[64]:
ORDERNUMBER SALES Year

count 72456.000000 72456.000000 72846.000000

mean 10262.038727 3535.301342 2003.891854

std 94.405512 1831.479392 0.926602

min 10100.000000 482.130000 2003.000000

25% 10180.000000 2184.000000 2003.000000

50% 10262.000000 3160.250000 2004.000000

75% 10347.000000 4496.800000 2004.000000

max 10425.000000 14082.800000 2013.000000

In [70]: combined_data['Year'] = combined_data['Year'].astype(int)

In [71]: mean_year = combined_data['Year'].mean() # Calculate the mean of the Year column

combined_data['Year'].fillna(mean_year, inplace=True)

In [72]: mean_sales = combined_data['SALES'].mean()

combined_data['SALES'].fillna(mean_sales, inplace=True)

localhost:8888/notebooks/BE_PRACTICALS/DMV_1.ipynb 3/4
10/6/24, 6:55 PM DMV_1 - Jupyter Notebook

In [73]: import matplotlib.pyplot as plt

import seaborn as sns

# Bar plot
plt.figure(figsize=(10, 6))
sns.barplot(x=combined_data['Year'], y=combined_data['SALES'])
plt.title('Total Sales by Year')
plt.xticks(rotation=45)
plt.show()

In [ ]:

localhost:8888/notebooks/BE_PRACTICALS/DMV_1.ipynb 4/4

Amazon Sales Reports - Jupyter Notebook
No ratings yet
Amazon Sales Reports - Jupyter Notebook
29 pages
002 Python Pandas
No ratings yet
002 Python Pandas
19 pages
Supermarket Sales Analysis Project
No ratings yet
Supermarket Sales Analysis Project
8 pages
E-Commerce Product Delivery Prediction
No ratings yet
E-Commerce Product Delivery Prediction
13 pages
SC Report
No ratings yet
SC Report
104 pages
ML Lab Manual 1-10
No ratings yet
ML Lab Manual 1-10
58 pages
Ex 1
No ratings yet
Ex 1
119 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
BigMart Sales Data Analysis
No ratings yet
BigMart Sales Data Analysis
16 pages
Pandas Fuction Notes
No ratings yet
Pandas Fuction Notes
3 pages
DevOps Session 3 Pandas
No ratings yet
DevOps Session 3 Pandas
33 pages
Grocery
No ratings yet
Grocery
41 pages
EDA Diwali Sale Analysis Project
No ratings yet
EDA Diwali Sale Analysis Project
11 pages
Customer Marketing Analysis 1738244935
No ratings yet
Customer Marketing Analysis 1738244935
42 pages
Customer Segmentation 1683225943
No ratings yet
Customer Segmentation 1683225943
34 pages
ML 5
No ratings yet
ML 5
11 pages
Acknowledgement
No ratings yet
Acknowledgement
25 pages
KPMG - Task 1
No ratings yet
KPMG - Task 1
22 pages
Sales Dataset Analysis
No ratings yet
Sales Dataset Analysis
28 pages
Outlook Module3
No ratings yet
Outlook Module3
21 pages
National Downloadable File
No ratings yet
National Downloadable File
2,736 pages
Pandas Notebook
No ratings yet
Pandas Notebook
24 pages
EDA Cheat Sheet
No ratings yet
EDA Cheat Sheet
7 pages
Updated Placement Report Final Modified
No ratings yet
Updated Placement Report Final Modified
457 pages
SalesMgmtSystem XII IP Projectreport 2022 23
No ratings yet
SalesMgmtSystem XII IP Projectreport 2022 23
18 pages
Dataframe
No ratings yet
Dataframe
19 pages
GRL - EX - 4 (1) .Ipynb - Colaboratory
No ratings yet
GRL - EX - 4 (1) .Ipynb - Colaboratory
7 pages
Data Analysis in The Banking Sector: Pandas Fundamentals
No ratings yet
Data Analysis in The Banking Sector: Pandas Fundamentals
16 pages
Implement K-Means Clustering.: Preprocessing
No ratings yet
Implement K-Means Clustering.: Preprocessing
8 pages
Documentpython 2
No ratings yet
Documentpython 2
22 pages
ML Practical 4D
No ratings yet
ML Practical 4D
11 pages
Siddhesh Asati: #Group: B (ML)
No ratings yet
Siddhesh Asati: #Group: B (ML)
9 pages
1 Pandas Basics
No ratings yet
1 Pandas Basics
13 pages
12 Pandas
No ratings yet
12 Pandas
9 pages
Task 1 Vijaya Lakshman PDF
No ratings yet
Task 1 Vijaya Lakshman PDF
10 pages
Project
No ratings yet
Project
12 pages
P.no 35 To 52
No ratings yet
P.no 35 To 52
18 pages
EcommerceAnalysis 1680541297
No ratings yet
EcommerceAnalysis 1680541297
11 pages
DMV Lab 7
No ratings yet
DMV Lab 7
9 pages
RFM - Analysis - Ipynb - Colaboratory
No ratings yet
RFM - Analysis - Ipynb - Colaboratory
10 pages
EDA Project
No ratings yet
EDA Project
7 pages
CSV File: Python With CSV Files
No ratings yet
CSV File: Python With CSV Files
19 pages
SPPUML6
No ratings yet
SPPUML6
9 pages
MGNM - 801 - Ca1
No ratings yet
MGNM - 801 - Ca1
14 pages
Online Sales Data Analysis
No ratings yet
Online Sales Data Analysis
9 pages
Pandas Notes
No ratings yet
Pandas Notes
8 pages
Python
No ratings yet
Python
8 pages
EDA With Pandas CheatSheet
No ratings yet
EDA With Pandas CheatSheet
3 pages
Untitled0.ipynb - Colab
No ratings yet
Untitled0.ipynb - Colab
6 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
2 pages
Importing Libraries: Import As Import As Import As Import As Import From Import
No ratings yet
Importing Libraries: Import As Import As Import As Import As Import From Import
12 pages
Pandas
No ratings yet
Pandas
20 pages
Lab 1 ML
No ratings yet
Lab 1 ML
2 pages
Task 2 Exploratory Data Analysis
No ratings yet
Task 2 Exploratory Data Analysis
5 pages
Masterclass Data Analysis - Ipynb - Colab
No ratings yet
Masterclass Data Analysis - Ipynb - Colab
4 pages
Data Wrangling Notebook Summary
No ratings yet
Data Wrangling Notebook Summary
9 pages
Online Reatil Data
No ratings yet
Online Reatil Data
3 pages
Ecommerce Purchases Exercise - Jupyter Notebook
No ratings yet
Ecommerce Purchases Exercise - Jupyter Notebook
2 pages
DataCleaning Techniques
No ratings yet
DataCleaning Techniques
20 pages
!listed 2012 05 07 13 07 21
No ratings yet
!listed 2012 05 07 13 07 21
146 pages
005.2 CSV
No ratings yet
005.2 CSV
11 pages
Sample Vba Code
No ratings yet
Sample Vba Code
29 pages
Read CSV Using SQR
No ratings yet
Read CSV Using SQR
5 pages
Link BMKG
No ratings yet
Link BMKG
3 pages
Data Munging - Ipynb - Colaboratory - Yodhi Adhi Sanjaya
No ratings yet
Data Munging - Ipynb - Colaboratory - Yodhi Adhi Sanjaya
4 pages
Ensmble - Learning - ML - 5 - Jupyter Notebook
No ratings yet
Ensmble - Learning - ML - 5 - Jupyter Notebook
7 pages
XP 329IIIR 한글설명서 Uvnex.com -
No ratings yet
XP 329IIIR 한글설명서 Uvnex.com -
70 pages
Cambridge IGCSE™ ICT
No ratings yet
Cambridge IGCSE™ ICT
2 pages
DMV - 6 - Jupyter Notebook
No ratings yet
DMV - 6 - Jupyter Notebook
6 pages
SH3 Patrol Event Recorder
No ratings yet
SH3 Patrol Event Recorder
53 pages
Clustering - With - Elbow - Plot - ML - 4 - Jupyter Notebook
No ratings yet
Clustering - With - Elbow - Plot - ML - 4 - Jupyter Notebook
6 pages
Python Crash Course by Ehmatthes 16
No ratings yet
Python Crash Course by Ehmatthes 16
1 page
HOSPITAL MANAGEMENt2
No ratings yet
HOSPITAL MANAGEMENt2
9 pages
25 March CSV PYQs Qs
No ratings yet
25 March CSV PYQs Qs
6 pages
CSV Programs
No ratings yet
CSV Programs
3 pages
Arpit Shrivastava143
No ratings yet
Arpit Shrivastava143
4 pages
P1 Output
No ratings yet
P1 Output
17 pages
P2 Output
No ratings yet
P2 Output
17 pages
Leer
No ratings yet
Leer
19 pages
Assign 1
No ratings yet
Assign 1
3 pages
Revision Assignment CS
No ratings yet
Revision Assignment CS
13 pages
Format Import Vip
No ratings yet
Format Import Vip
69 pages
GHR Data Specs Covid Public
No ratings yet
GHR Data Specs Covid Public
3 pages
Pandas - Dataframe - Adding, Dropping Rows and Columns
No ratings yet
Pandas - Dataframe - Adding, Dropping Rows and Columns
9 pages
CMLB
No ratings yet
CMLB
2 pages
Code
No ratings yet
Code
2 pages
Creacion de Un CSV Desde Tabla HTML Con Js
No ratings yet
Creacion de Un CSV Desde Tabla HTML Con Js
3 pages
Modul 1
No ratings yet
Modul 1
4 pages
Quiz 4 - SDU UNIVERSITY
No ratings yet
Quiz 4 - SDU UNIVERSITY
4 pages
Data Mining Models: Techniques and Applications
From Everand
Data Mining Models: Techniques and Applications
Ravi Deshpande
No ratings yet
MULTICAST IP ROUTING: MULTICAST IP ROUTING- Part 1
From Everand
MULTICAST IP ROUTING: MULTICAST IP ROUTING- Part 1
Ummed Singh
No ratings yet
Blazor and API Example: Classroom Quiz Application
From Everand
Blazor and API Example: Classroom Quiz Application
Taurius Litvinavicius
No ratings yet
Apache Cassandra Administrator Associate - Exam Practice Tests
From Everand
Apache Cassandra Administrator Associate - Exam Practice Tests
Cristian Scutaru
No ratings yet

DMV - 1 - Jupyter Notebook

Uploaded by

DMV - 1 - Jupyter Notebook

Uploaded by

10/6/24, 6:55 PM DMV_1 - Jupyter Notebook

In [1]: import pandas as pd

In [2]: csv_data = pd.read_csv('sales_data.csv', encoding='ISO-8859-1')

In [3]: excel_data = pd.read_excel('sales_data.xlsx')

In [4]: json_data = pd.read_json('sales_data.json')

2/24/2003 897 Long

Out[8]: Index(['ORDERNUMBER', 'QUANTITYORDERED', 'PRICEEACH', 'ORDERLINENUMBER',

0 2121 456 Jane 2011 84219.497311

1 2092 789 Ashish 2012 28322.192268

2 2128 456 Jane 2013 81878.997241

3 2073 123 John 2011 44491.142121

4 2134 789 Ashish 2012 71837.720959

Out[15]: Index(['Postcode', 'Sales_Rep_ID', 'Sales_Rep_Name', 'Year', 'Value'], dtype='object')

4 5 [email protected] Janelle Hagenes Lesch and Daughters 2014-04-21 15:05:43.229000+00:00 Swaziland

Out[14]: Index(['id', 'email', 'first', 'last', 'company', 'created_at', 'country'], dtype='object')

In [23]: csv_data['COUNTRY'] = csv_data['COUNTRY'].astype(str)

In [44]: csv_selected = csv_data[['COUNTRY', 'ORDERNUMBER', 'SALES', 'YEAR_ID']].rename(columns={'COUNTRY': 'Country', 'YEAR_ID':'Yea

In [55]: combined_data = pd.merge(csv_selected, excel_selected, on=('Year','Country'), how='outer')

0 USA 10107.0 2871.00 2003.0 NaN NaN NaN

1 USA 10145.0 3746.70 2003.0 NaN NaN NaN

2 USA 10159.0 5205.27 2003.0 NaN NaN NaN

3 USA 10168.0 3479.76 2003.0 NaN NaN NaN

4 USA 10201.0 2168.54 2003.0 NaN NaN NaN

82151 China NaN NaN NaN NaN [email protected] Christopher

82152 China NaN NaN NaN NaN [email protected] Hermann

82153 China NaN NaN NaN NaN [email protected] Leann

82154 China NaN NaN NaN NaN [email protected] Cierra

82155 China NaN NaN NaN NaN [email protected] Juliana

Out[60]: Country object

count 72456.000000 72456.000000 72846.000000

mean 10262.038727 3535.301342 2003.891854

std 94.405512 1831.479392 0.926602

min 10100.000000 482.130000 2003.000000

25% 10180.000000 2184.000000 2003.000000

50% 10262.000000 3160.250000 2004.000000

75% 10347.000000 4496.800000 2004.000000

max 10425.000000 14082.800000 2013.000000

In [70]: combined_data['Year'] = combined_data['Year'].astype(int)

In [71]: mean_year = combined_data['Year'].mean() # Calculate the mean of the Year column

In [72]: mean_sales = combined_data['SALES'].mean()

In [73]: import matplotlib.pyplot as plt

You might also like