0% found this document useful (0 votes)

15 views8 pages

FDS Practical 2

Uploaded by

federerroy01

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

15 views8 pages

FDS Practical 2

Uploaded by

federerroy01

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 8

FDS Practical 2

Aim- Categorization and implementation of different data formats for data analysis.

Description
In data analysis, effectively managing and utilizing various data formats is crucial for
ensuring efficient processing, storage, and retrieval of data. Different data formats
cater to distinct needs and use cases, influencing the choice of format based on the
nature of the data and the requirements of the analysis.

Common data formats include:

• CSV (Comma-Separated Values): This format is widely used for simple tabular
data, making it easy to read and write. CSV files are lightweight and can be
easily imported into data analysis tools, but they lack support for hierarchical
or nested data structures.

• JSON (JavaScript Object Notation): Ideal for representing hierarchical or

structured data, JSON is commonly used for web applications and APIs. Its
readability and flexibility make it suitable for transmitting data between a
server and a web application.

• Excel: Known for its rich features, Excel is used for complex spreadsheets that
may include multiple sheets, charts, and advanced formulas. It is popular
among business analysts for data manipulation and visualization.

• Parquet: This columnar storage format is designed for big data processing,
enabling efficient compression and encoding schemes. Parquet files are
particularly suited for analytical queries and are often used with big data
frameworks like Apache Spark and Hadoop.

• SQL Databases: Relational databases store data in structured formats with

predefined schemas, making them suitable for complex queries and
transactions. SQL databases are essential for applications requiring data
integrity and consistency.
SOURCE CODE: -
import pandas as pd

# 1. Reading data from different formats

# Reading from a CSV file

csv_data = pd.read_csv('titanic_train.csv')

# Reading from an Excel file

excel_data = pd.read_excel('file_example_XLSX_100.xlsx', sheet_name='Sheet1')

# Reading from a JSON file

json_data = pd.read_json('test.json')

# 2. Categorizing data by its data types (Numerical, Categorical, DateTime, etc.)

def categorize_data(df):

data_types = df.dtypes

numerical = df.select_dtypes(include=['int64', 'float64'])

categorical = df.select_dtypes(include=['object'])

datetime = df.select_dtypes(include=['datetime64'])

print(f"Numerical Columns:\n{numerical.columns}\n")

print(f"Categorical Columns:\n{categorical.columns}\n")

print(f"DateTime Columns:\n{datetime.columns}\n")

# Example of applying this function

print("Categorizing CSV Data:")

categorize_data(csv_data)

print("Categorizing Excel Data:")

categorize_data(excel_data)
print("Categorizing JSON Data:")

categorize_data(json_data)

# 3. Basic Data Analysis

# Checking for missing values

print("\nMissing values in CSV Data:\n", csv_data.isnull().sum())

print("\nMissing values in Excel Data:\n", excel_data.isnull().sum())

print("\nMissing values in JSON Data:\n", json_data.isnull().sum())

# Descriptive statistics

print("\nDescriptive statistics of CSV Data:\n", csv_data.describe())

print("\nDescriptive statistics of Excel Data:\n", excel_data.describe())

print("\nDescriptive statistics of JSON Data:\n", json_data.describe())

OUTPUT: -
Categorizing CSV Data:

Numerical Columns:

Index(['PassengerId', 'Survived', 'Pclass', 'Age', 'SibSp', 'Parch', 'Fare'], dtype='object')

Categorical Columns:

Index(['Name', 'Sex', 'Ticket', 'Cabin', 'Embarked'], dtype='object')

DateTime Columns:

Index([], dtype='object')

Categorizing Excel Data:

Numerical Columns:

Index([0, 'Age', 'Id'], dtype='object')

Categorical Columns:

Index(['First Name', 'Last Name', 'Gender', 'Country', 'Date'], dtype='object')

DateTime Columns:

Index([], dtype='object')

Categorizing JSON Data:

Numerical Columns:

Index(['version'], dtype='object')

Categorical Columns:
Index(['name', 'language', 'id', 'bio'], dtype='object')

DateTime Columns:

Index([], dtype='object')

Missing values in CSV Data:

PassengerId 0

Survived 0

Pclass 0

Name 0

Sex 0

Age 177

SibSp 0

Parch 0

Ticket 0

Fare 0

Cabin 687

Embarked 2

dtype: int64

Missing values in Excel Data:

0 0

First Name 0

Last Name 0

Gender 0
Country 0

Age 0

Date 0

Id 0

dtype: int64

Missing values in JSON Data:

name 0

language 0

id 0

bio 0

version 0

dtype: int64

Descriptive statistics of CSV Data:

PassengerId Survived Pclass Age SibSp /

count 891.000000 891.000000 891.000000 714.000000 891.000000

mean 446.000000 0.383838 2.308642 29.699118 0.523008

std 257.353842 0.486592 0.836071 14.526497 1.102743

min 1.000000 0.000000 1.000000 0.420000 0.000000

25% 223.500000 0.000000 2.000000 20.125000 0.000000

50% 446.000000 0.000000 3.000000 28.000000 0.000000

75% 668.500000 1.000000 3.000000 38.000000 1.000000

max 891.000000 1.000000 3.000000 80.000000 8.000000

Parch Fare

count 891.000000 891.000000

mean 0.381594 32.204208

std 0.806057 49.693429

min 0.000000 0.000000

25% 0.000000 7.910400

50% 0.000000 14.454200

75% 0.000000 31.000000

max 6.000000 512.329200

Descriptive statistics of Excel Data:

0 Age Id

count 100.000000 100.000000 100.000000

mean 50.500000 33.260000 4717.720000

std 29.011492 8.391458 2379.081421

min 1.000000 21.000000 1258.000000

25% 25.750000 26.000000 2587.000000

50% 50.500000 32.000000 3574.000000

75% 75.250000 38.000000 6540.000000

max 100.000000 58.000000 9654.000000

Descriptive statistics of JSON Data:

version

count 197.000000

mean 5.605838

std 2.590350

min 1.010000

25% 3.600000

50% 5.360000

75% 7.860000

max 9.990000

Data Mining Using Python Manual
No ratings yet
Data Mining Using Python Manual
69 pages
Exploratory Data Analysis
100% (1)
Exploratory Data Analysis
203 pages
Python Lab Manual
No ratings yet
Python Lab Manual
33 pages
Employee Data Analysis System (Ip Class Xii)
No ratings yet
Employee Data Analysis System (Ip Class Xii)
26 pages
Microsoft Azure DP 203 Cert Notes 1712494873
100% (2)
Microsoft Azure DP 203 Cert Notes 1712494873
151 pages
Data Engineering With Databricks (Verma, Sumit) (Z-Library)
No ratings yet
Data Engineering With Databricks (Verma, Sumit) (Z-Library)
219 pages
Data and AI Summit 2025 Presentation
No ratings yet
Data and AI Summit 2025 Presentation
32 pages
Data Preprocessing - 241024 - 215531
No ratings yet
Data Preprocessing - 241024 - 215531
40 pages
002 Python Pandas
No ratings yet
002 Python Pandas
19 pages
Data Science Lab Manual..
No ratings yet
Data Science Lab Manual..
54 pages
Week 1 To Week 9
No ratings yet
Week 1 To Week 9
30 pages
Lecture 2
No ratings yet
Lecture 2
30 pages
Pyt Manual 1
No ratings yet
Pyt Manual 1
85 pages
DS Journal - Final
No ratings yet
DS Journal - Final
37 pages
Matplotlib Library in Python
No ratings yet
Matplotlib Library in Python
85 pages
Information Practices
No ratings yet
Information Practices
141 pages
Data Science Practicals - Ipynb
No ratings yet
Data Science Practicals - Ipynb
54 pages
Practical List 2022-23
100% (1)
Practical List 2022-23
4 pages
Pandas - Data Manipulation and Analysis Library - Educative
No ratings yet
Pandas - Data Manipulation and Analysis Library - Educative
7 pages
CSE445 NSU Week - 3
No ratings yet
CSE445 NSU Week - 3
48 pages
ML Lab Manual 1-10
No ratings yet
ML Lab Manual 1-10
58 pages
Data Analytics Using Python
No ratings yet
Data Analytics Using Python
18 pages
Employee Data Analysis System (Ip Class 12) (2024-25)
No ratings yet
Employee Data Analysis System (Ip Class 12) (2024-25)
30 pages
Create A Pandas Series From A Dictionary of Values and An Ndarray
No ratings yet
Create A Pandas Series From A Dictionary of Values and An Ndarray
15 pages
Assignment 5
No ratings yet
Assignment 5
14 pages
Prac3 23bme053
No ratings yet
Prac3 23bme053
5 pages
DM Project
No ratings yet
DM Project
34 pages
U19ADS2035-Python For Data Science Laboratory Page No:17
No ratings yet
U19ADS2035-Python For Data Science Laboratory Page No:17
5 pages
Data Analysis
No ratings yet
Data Analysis
42 pages
Assignment Data Science
No ratings yet
Assignment Data Science
2 pages
Data Cleaning
No ratings yet
Data Cleaning
13 pages
DM Project
No ratings yet
DM Project
36 pages
Document (4) - 1
No ratings yet
Document (4) - 1
15 pages
Lec 07-I-DSFa23
No ratings yet
Lec 07-I-DSFa23
30 pages
Homework 1
No ratings yet
Homework 1
17 pages
Q.1 Explain Process of Working With Data From Files in Data Science
No ratings yet
Q.1 Explain Process of Working With Data From Files in Data Science
20 pages
Python Basics - Hamza Zahoor
No ratings yet
Python Basics - Hamza Zahoor
6 pages
AI Final PDF
No ratings yet
AI Final PDF
38 pages
DMV Lab 7
No ratings yet
DMV Lab 7
9 pages
Tuning Aws Glue For Apache Spark
No ratings yet
Tuning Aws Glue For Apache Spark
98 pages
Wa0005.
No ratings yet
Wa0005.
29 pages
L6 and 7-Data Preprocessing-Coding
No ratings yet
L6 and 7-Data Preprocessing-Coding
34 pages
Ai Tools and Applications-Lab
No ratings yet
Ai Tools and Applications-Lab
33 pages
Azure Data Fundamentals
No ratings yet
Azure Data Fundamentals
210 pages
BDA Lec9
No ratings yet
BDA Lec9
25 pages
Q.1 Explain Process of Working With Data From Files in Data Science
No ratings yet
Q.1 Explain Process of Working With Data From Files in Data Science
10 pages
DS Journal-1
No ratings yet
DS Journal-1
25 pages
Python (Unit - 2)
No ratings yet
Python (Unit - 2)
22 pages
Spark Optimisation Techniques
No ratings yet
Spark Optimisation Techniques
3 pages
3rd Semester DDM AI DAA DEV Print Pages For Spiral Record 25-1-24 - Removed
No ratings yet
3rd Semester DDM AI DAA DEV Print Pages For Spiral Record 25-1-24 - Removed
28 pages
L32, 33 Pandas
No ratings yet
L32, 33 Pandas
7 pages
Cheat Sheet
No ratings yet
Cheat Sheet
15 pages
BDA File
No ratings yet
BDA File
26 pages
Overview of Data Cleaning
No ratings yet
Overview of Data Cleaning
17 pages
James Serra Azure Synapse Analytics Overview Big Data Conference Europe
No ratings yet
James Serra Azure Synapse Analytics Overview Big Data Conference Europe
72 pages
Stats Unit1
No ratings yet
Stats Unit1
27 pages
AWS ML Notes - Domain 1 - Data Processing
No ratings yet
AWS ML Notes - Domain 1 - Data Processing
37 pages
Student Notebook HR Analysis
No ratings yet
Student Notebook HR Analysis
11 pages
Data Analysis With Python
No ratings yet
Data Analysis With Python
29 pages
Jenisha INTERNSHIP REPORT-2
No ratings yet
Jenisha INTERNSHIP REPORT-2
19 pages
Documentation - Parquet
No ratings yet
Documentation - Parquet
75 pages
AWS Training Notes - Summary
No ratings yet
AWS Training Notes - Summary
131 pages
Course - Introduction To Data Science (SD211105)
No ratings yet
Course - Introduction To Data Science (SD211105)
10 pages
Hive Lecture Notes
100% (1)
Hive Lecture Notes
17 pages
Unit V Data Analytics Notes
No ratings yet
Unit V Data Analytics Notes
22 pages
Lance: Efficient Random Access in Columnar Storage Through Adaptive Structural Encodings
No ratings yet
Lance: Efficient Random Access in Columnar Storage Through Adaptive Structural Encodings
13 pages
BDAmod 3
No ratings yet
BDAmod 3
18 pages
BDA Unit 4 Notes
No ratings yet
BDA Unit 4 Notes
20 pages
Data Minds - Data Science Curriculum 2023 V2
No ratings yet
Data Minds - Data Science Curriculum 2023 V2
15 pages
Exploratory Data Analysis-1
No ratings yet
Exploratory Data Analysis-1
10 pages
Pyspark Code Quality by Azurelib
No ratings yet
Pyspark Code Quality by Azurelib
4 pages
DataFusion Query Engine SIGMOD 2024-FINAL
No ratings yet
DataFusion Query Engine SIGMOD 2024-FINAL
13 pages
MBDHC 2
No ratings yet
MBDHC 2
23 pages
ABD Exame PDF
No ratings yet
ABD Exame PDF
17 pages
3.3 HDFS
No ratings yet
3.3 HDFS
32 pages
SQL-on-Hadoop: Full Circle Back To Shared-Nothing Database Architectures
No ratings yet
SQL-on-Hadoop: Full Circle Back To Shared-Nothing Database Architectures
12 pages
Practical-1 CSV To Parquet Within S3
No ratings yet
Practical-1 CSV To Parquet Within S3
8 pages
Data Exploration in Python PDF
No ratings yet
Data Exploration in Python PDF
1 page
FDS Practical 2
No ratings yet
FDS Practical 2
8 pages
Arrow Cookbook
No ratings yet
Arrow Cookbook
12 pages
Optimizing PySpark Operations
No ratings yet
Optimizing PySpark Operations
4 pages
Deepanshu Sethi Azure Data Engineer
No ratings yet
Deepanshu Sethi Azure Data Engineer
2 pages
Syed Abdul Saleem - SDE - Resume
No ratings yet
Syed Abdul Saleem - SDE - Resume
1 page
Hive Performance With Different Fileformats
No ratings yet
Hive Performance With Different Fileformats
12 pages
Azure DE Interview Que
100% (1)
Azure DE Interview Que
25 pages
Comprehensive Guide to SAS Programming: Definitive Reference for Developers and Engineers
From Everand
Comprehensive Guide to SAS Programming: Definitive Reference for Developers and Engineers
Richard Johnson
No ratings yet
C++ Data Structures Explained: A Practical Guide with Examples
From Everand
C++ Data Structures Explained: A Practical Guide with Examples
William E. Clark
No ratings yet
AWS Timestream Data Management and Analysis: Definitive Reference for Developers and Engineers
From Everand
AWS Timestream Data Management and Analysis: Definitive Reference for Developers and Engineers
Richard Johnson
No ratings yet
Textract Workflows and Applications: Definitive Reference for Developers and Engineers
From Everand
Textract Workflows and Applications: Definitive Reference for Developers and Engineers
Richard Johnson
No ratings yet
Data Lakes & Pipelines: A Modern Azure Guide
From Everand
Data Lakes & Pipelines: A Modern Azure Guide
Kameron Hussain
No ratings yet

FDS Practical 2

Uploaded by

FDS Practical 2

Uploaded by

FDS Practical 2

Common data formats include:

• JSON (JavaScript Object Notation): Ideal for representing hierarchical or

• SQL Databases: Relational databases store data in structured formats with

# 1. Reading data from different formats

# Reading from a CSV file

# Reading from an Excel file

excel_data = pd.read_excel('file_example_XLSX_100.xlsx', sheet_name='Sheet1')

# Reading from a JSON file

# 2. Categorizing data by its data types (Numerical, Categorical, DateTime, etc.)

numerical = df.select_dtypes(include=['int64', 'float64'])

# Example of applying this function

print("Categorizing CSV Data:")

print("Categorizing Excel Data:")

# 3. Basic Data Analysis

# Checking for missing values

print("\nMissing values in CSV Data:\n", csv_data.isnull().sum())

print("\nMissing values in Excel Data:\n", excel_data.isnull().sum())

print("\nMissing values in JSON Data:\n", json_data.isnull().sum())

print("\nDescriptive statistics of CSV Data:\n", csv_data.describe())

print("\nDescriptive statistics of Excel Data:\n", excel_data.describe())

print("\nDescriptive statistics of JSON Data:\n", json_data.describe())

Index(['PassengerId', 'Survived', 'Pclass', 'Age', 'SibSp', 'Parch', 'Fare'], dtype='object')

Index(['Name', 'Sex', 'Ticket', 'Cabin', 'Embarked'], dtype='object')

Categorizing Excel Data:

Index([0, 'Age', 'Id'], dtype='object')

Index(['First Name', 'Last Name', 'Gender', 'Country', 'Date'], dtype='object')

Categorizing JSON Data:

Missing values in CSV Data:

Missing values in Excel Data:

Missing values in JSON Data:

Descriptive statistics of CSV Data:

PassengerId Survived Pclass Age SibSp /

count 891.000000 891.000000 891.000000 714.000000 891.000000

mean 446.000000 0.383838 2.308642 29.699118 0.523008

std 257.353842 0.486592 0.836071 14.526497 1.102743

min 1.000000 0.000000 1.000000 0.420000 0.000000

25% 223.500000 0.000000 2.000000 20.125000 0.000000

50% 446.000000 0.000000 3.000000 28.000000 0.000000

75% 668.500000 1.000000 3.000000 38.000000 1.000000

max 891.000000 1.000000 3.000000 80.000000 8.000000

count 891.000000 891.000000

mean 0.381594 32.204208

std 0.806057 49.693429

min 0.000000 0.000000

25% 0.000000 7.910400

50% 0.000000 14.454200

75% 0.000000 31.000000

max 6.000000 512.329200

Descriptive statistics of Excel Data:

count 100.000000 100.000000 100.000000

mean 50.500000 33.260000 4717.720000

std 29.011492 8.391458 2379.081421

min 1.000000 21.000000 1258.000000

25% 25.750000 26.000000 2587.000000

50% 50.500000 32.000000 3574.000000

75% 75.250000 38.000000 6540.000000

max 100.000000 58.000000 9654.000000

You might also like