0% found this document useful (0 votes)

16 views5 pages

Main - Py Text File

The document is a Python script that performs data analysis, cleaning, and visualization using libraries such as pandas, matplotlib, and seaborn. It includes functions for analyzing data columns, cleaning missing values, identifying critical columns, generating tags from text, and creating various visualizations. The script also manages directories for saving visualizations and cleaned data, and it handles potential errors during execution.

Uploaded by

vikhepa

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

16 views5 pages

Main - Py Text File

Uploaded by

vikhepa

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 5

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns
from sklearn.feature_extraction.text import CountVectorizer
import os

# Set a global seaborn style

sns.set(style="whitegrid", palette="coolwarm") # You can also try 'darkgrid',
'ticks', etc.

# Update font style globally

plt.rcParams.update({'font.size': 12, 'font.family': 'serif'}) # Set font size and
family globally

# Create the directory for visualizations

visualizations_directory = 'visualizations/'
if not os.path.exists(visualizations_directory):
os.makedirs(visualizations_directory)

# Create the directory for cleaned data

cleaned_data_directory = 'cleaned_data_files/'
if not os.path.exists(cleaned_data_directory):
os.makedirs(cleaned_data_directory)

def column_wise_analysis(data):
"""
Analyzes columns for data types, unique values, and numerical summaries.
"""
print("Data Types:\n", data.dtypes)

for column in data.columns:

print(f"\nColumn: {column}")
print(f"Unique Values: {data[column].nunique()}")
if data[column].dtype in ['float64', 'int64']:
print(f"Summary:\n{data[column].describe()}\n")
else:
print(f"Value Counts:\n{data[column].value_counts().head(5)}\n")

def data_cleaning(data):
"""
Cleans the dataset by handling missing values and inconsistencies.
"""
# Handle Missing Values
for column in data.select_dtypes(include=['float64', 'int64']).columns:
if data[column].isnull().any():
data[column] = data[column].fillna(data[column].mean()) # Fill
numerical NaNs with the column mean

for column in data.select_dtypes(include=['object']).columns:

if data[column].isnull().any():
data[column] = data[column].fillna(data[column].mode()[0]) # Fill
categorical NaNs with the mode

# Ensure uniformity in categorical columns (convert to lowercase)

for column in data.select_dtypes(include=['object']).columns:
data[column] = data[column].str.lower()

# Handle outliers (optional, you can adjust the thresholds or remove outliers
if needed)
for column in data.select_dtypes(include=['float64', 'int64']).columns:
upper_limit = data[column].mean() + 3 * data[column].std()
lower_limit = data[column].mean() - 3 * data[column].std()
data[column] = data[column].clip(lower=lower_limit, upper=upper_limit) #
Clip outliers to within limits

return data

def identify_critical_columns(data):
"""
Identifies and visualizes critical columns in the dataset.
"""
print("Columns in the dataset:", data.columns) # Debugging: Print the columns

# Update the critical columns list based on your dataset

critical_columns = [col for col in ['TOTALCOST', 'REPORTING_COST', 'LBRCOST',
'KM'] if col in data.columns]

if not critical_columns:
print("No critical columns found in the dataset.")
return

print("\nReasoning for Selected Critical Columns:") # Reasoning for selection

reasoning = {
'TOTALCOST': "Total expenditure; critical for profitability analysis.",
'REPORTING_COST': "Relevant for tracking costs associated with repairs.",
'LBRCOST': "Labor costs involved in repairs.",
'KM': "Kilometers, relevant for repair frequency analysis."
}

for col in critical_columns:

print(f"{col.upper()}: {reasoning.get(col, 'No reasoning available for this
column')}")

# Visualize the critical column (bar plot)

plt.figure(figsize=(10, 6))
data[col].plot(kind='bar', color='skyblue')
plt.title(f'{col.upper()} Bar Plot')
plt.xlabel('Index')
plt.ylabel(col.upper())
plt.tight_layout()
plt.savefig(f'{visualizations_directory}{col}_barplot.png') # Save plot as
image file
plt.show()

def generate_tags(data, text_column='CAUSAL_PART_NM'):

"""
Generates tags/features from free text in the dataset (if applicable).
"""
if text_column in data.columns:
vectorizer = CountVectorizer(stop_words='english', max_features=10)
data[text_column] = data[text_column].fillna('') # Replace NaNs with empty
strings for text processing
tags = vectorizer.fit_transform(data[text_column]) # Generate tag features
print("\nGenerated Tags:", vectorizer.get_feature_names_out()) # Display
top tags
else:
print(f"\nColumn '{text_column}' not found. Skipping tag generation.")

def visualize_data(data):
"""
Create various visualizations for the dataset.
"""
# Bar Charts for categorical data
categorical_columns = ['CAUSAL_PART_NM', 'PLATFORM', 'BODY_STYLE',
'DEALER_NAME', 'STATE']
for col in categorical_columns:
if col in data.columns:
plt.figure(figsize=(10, 6))
data[col].value_counts().plot(kind='bar', color='skyblue')
plt.title(f'{col} Distribution')
plt.xlabel(col)
plt.ylabel('Frequency')
plt.tight_layout()
plt.savefig(f'{visualizations_directory}{col}_barchart.png', dpi=300)
# Save with high resolution
plt.show()

# Line Chart for time-series data (REPAIR_DATE)

if 'REPAIR_DATE' in data.columns:
plt.figure(figsize=(10, 6))
data['REPAIR_DATE'] = pd.to_datetime(data['REPAIR_DATE'], errors='coerce')
# Convert to datetime

data.groupby(data['REPAIR_DATE'].dt.to_period('M')).size().plot(kind='line',
marker='o', color='orange')
plt.title('Repairs Over Time')
plt.xlabel('Date')
plt.ylabel('Number of Repairs')
plt.tight_layout()
plt.savefig(f'{visualizations_directory}repair_date_linechart.png',
dpi=300)
plt.show()

# Scatter Plot for KM vs TOTALCOST

if 'KM' in data.columns and 'TOTALCOST' in data.columns:
plt.figure(figsize=(10, 6))
plt.scatter(data['KM'], data['TOTALCOST'], color='green')
plt.title('Scatter Plot: KM vs TOTALCOST')
plt.xlabel('Kilometers')
plt.ylabel('Total Cost')
plt.tight_layout()
plt.savefig(f'{visualizations_directory}km_vs_totalcost_scatterplot.png',
dpi=300)
plt.show()

# Histogram for the Distribution of REPAIR_AGE

if 'REPAIR_AGE' in data.columns:
plt.figure(figsize=(10, 6))
data['REPAIR_AGE'].plot(kind='hist', bins=30, edgecolor='black',
color='purple')
plt.title('Distribution of REPAIR_AGE')
plt.xlabel('Repair Age')
plt.ylabel('Frequency')
plt.tight_layout()
plt.savefig(f'{visualizations_directory}repair_age_histogram.png', dpi=300)
plt.show()

# Heatmap for Correlation Between Numerical Columns

numerical_columns = data.select_dtypes(include=['float64', 'int64']).columns
if len(numerical_columns) > 1:
correlation_matrix = data[numerical_columns].corr()
plt.figure(figsize=(10, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f',
cbar=True)
plt.title('Correlation Heatmap')
plt.tight_layout()
plt.savefig(f'{visualizations_directory}correlation_heatmap.png', dpi=300)
plt.show()

# Pie Chart for TRANSACTION_CATEGORY Distribution

if 'TRANSACTION_CATEGORY' in data.columns:
plt.figure(figsize=(8, 8))
data['TRANSACTION_CATEGORY'].value_counts().plot(kind='pie', autopct='%1.1f
%%', startangle=90)
plt.title('Transaction Category Distribution')
plt.ylabel('')
plt.tight_layout()
plt.savefig(f'{visualizations_directory}transaction_category_piechart.png',
dpi=300)
plt.show()

def main():
"""
Main function to execute data analysis, cleaning, and visualization steps.
"""
try:
# Load the dataset
file_path = r'D:\Downloads(D)\Chrome\Data for Task 1. (1).xlsx'
data = pd.read_excel(file_path) # Load data from Excel file
print("Dataset loaded successfully.")

# Display initial dataset overview

print("\nInitial Dataset Overview:")
print(data.head())
print(data.info())

# Step 1: Perform column-wise analysis

print("\nPerforming column-wise analysis...")
column_wise_analysis(data)

# Step 2: Clean the data

print("\nCleaning data...")
cleaned_data = data_cleaning(data)
print("\nData after cleaning:")
print(cleaned_data.head())

# Step 3: Identify and analyze critical columns

print("\nIdentifying and analyzing critical columns...")
identify_critical_columns(cleaned_data)

# Step 4: Generate tags/features from free text

print("\nGenerating tags from free text (if applicable)...")
generate_tags(cleaned_data, text_column='CAUSAL_PART_NM')

# Step 5: Visualize the data

print("\nVisualizing the data...")
visualize_data(cleaned_data)

# Step 6: Save the cleaned data to a CSV file

output_path = os.path.join(cleaned_data_directory, 'cleaned_data.csv')
cleaned_data.to_csv(output_path, index=False)
print(f"\nCleaned data saved to {output_path}")

except Exception as e:
print(f"An error occurred: {e}")

if __name__ == '__main__':
main()

Code - Cap 3
No ratings yet
Code - Cap 3
5 pages
ML 3
No ratings yet
ML 3
24 pages
Data Mining Practicals Complete
No ratings yet
Data Mining Practicals Complete
13 pages
ML Fresher JD
No ratings yet
ML Fresher JD
2 pages
Phase3 NM
No ratings yet
Phase3 NM
7 pages
AIL303 M
No ratings yet
AIL303 M
22 pages
Data Visualization Lab: Experiment 1
No ratings yet
Data Visualization Lab: Experiment 1
8 pages
Chirayu (1) Merged Merged
No ratings yet
Chirayu (1) Merged Merged
76 pages
Analyzing Taxi Trends
No ratings yet
Analyzing Taxi Trends
43 pages
Ex - 08 DS
No ratings yet
Ex - 08 DS
11 pages
ML Labmanual
No ratings yet
ML Labmanual
33 pages
Unit1 ML Programs
No ratings yet
Unit1 ML Programs
5 pages
Eda Lab Assignment2
No ratings yet
Eda Lab Assignment2
10 pages
Dav Week8 240953580
No ratings yet
Dav Week8 240953580
15 pages
Dumpsys ANR WindowManager
No ratings yet
Dumpsys ANR WindowManager
3,358 pages
NumPy and Pandas Step
No ratings yet
NumPy and Pandas Step
9 pages
EDA Plots Code
No ratings yet
EDA Plots Code
13 pages
Fraud 2
No ratings yet
Fraud 2
20 pages
Data Preprocessing 2
No ratings yet
Data Preprocessing 2
5 pages
Advance Python
No ratings yet
Advance Python
5 pages
Malicious Coding
No ratings yet
Malicious Coding
4 pages
Practical 5
No ratings yet
Practical 5
6 pages
Cleaning Data in Python
No ratings yet
Cleaning Data in Python
8 pages
3 Creating Features - Kaggle
No ratings yet
3 Creating Features - Kaggle
14 pages
Mainpy (Customer Segmentation)
No ratings yet
Mainpy (Customer Segmentation)
6 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
43 pages
Codeppsjf
No ratings yet
Codeppsjf
16 pages
Data Analyzer
No ratings yet
Data Analyzer
10 pages
ML Lab
No ratings yet
ML Lab
14 pages
6 Years Experience Resume Format
100% (2)
6 Years Experience Resume Format
8 pages
Matplotlib Pandas Guide
No ratings yet
Matplotlib Pandas Guide
7 pages
DAVP Lab Manual
No ratings yet
DAVP Lab Manual
12 pages
West Rox
No ratings yet
West Rox
29 pages
DV LAb Staff
No ratings yet
DV LAb Staff
73 pages
ML Lab - Exp1-10
No ratings yet
ML Lab - Exp1-10
4 pages
Practical D.V
No ratings yet
Practical D.V
13 pages
Advertising in ML
No ratings yet
Advertising in ML
9 pages
UNITIV BtechIot
No ratings yet
UNITIV BtechIot
43 pages
2025-05-28 - The Experiment - Day 1
No ratings yet
2025-05-28 - The Experiment - Day 1
73 pages
BIDA Practical Print
No ratings yet
BIDA Practical Print
56 pages
Sperry ECDIS-procedure AUG2018
No ratings yet
Sperry ECDIS-procedure AUG2018
10 pages
Boston House Prediction - Colab1
No ratings yet
Boston House Prediction - Colab1
10 pages
Eda Assignment 1
No ratings yet
Eda Assignment 1
12 pages
ML Short Code - Under Updating
No ratings yet
ML Short Code - Under Updating
4 pages
PDF Essential ASP - NET Web Forms Development: Full Stack Programming With C#, SQL, Ajax, and JavaScript 1st Edition Robert E. Beasley Download
100% (3)
PDF Essential ASP - NET Web Forms Development: Full Stack Programming With C#, SQL, Ajax, and JavaScript 1st Edition Robert E. Beasley Download
65 pages
Data Visualization EDA-print
No ratings yet
Data Visualization EDA-print
18 pages
Advanced Visualization For Data Scientists With Matplotlib
No ratings yet
Advanced Visualization For Data Scientists With Matplotlib
38 pages
S6 - Data Mining Lab Experiments (Except 1)
No ratings yet
S6 - Data Mining Lab Experiments (Except 1)
6 pages
Code Shabab Error 7
No ratings yet
Code Shabab Error 7
5 pages
DMV U4 RK
No ratings yet
DMV U4 RK
16 pages
Roll NO 2020
No ratings yet
Roll NO 2020
8 pages
An Extensive Step by Step Guide To Exploratory Data Analysis
No ratings yet
An Extensive Step by Step Guide To Exploratory Data Analysis
26 pages
DMV Unit-4-1 PDF
No ratings yet
DMV Unit-4-1 PDF
10 pages
Https Raw - Githubusercontent.com Joelgrus Data-Science-From-Scratch Master Code Working With Data
No ratings yet
Https Raw - Githubusercontent.com Joelgrus Data-Science-From-Scratch Master Code Working With Data
7 pages
DAVL PR1.2 Mit
No ratings yet
DAVL PR1.2 Mit
10 pages
External
No ratings yet
External
11 pages
Exp 12 and 15
No ratings yet
Exp 12 and 15
4 pages
Netapp Antivirus Best Practices
No ratings yet
Netapp Antivirus Best Practices
15 pages
Project Management & Operations Vs Projects: by I.Krishna Murthy Asst - Prof University of Petroleum and Energy Studies
No ratings yet
Project Management & Operations Vs Projects: by I.Krishna Murthy Asst - Prof University of Petroleum and Energy Studies
25 pages
Hangman C++ Code
No ratings yet
Hangman C++ Code
5 pages
Pandas Complete + Visualisation Summary of IBM Visualization
No ratings yet
Pandas Complete + Visualisation Summary of IBM Visualization
21 pages
Real Estate
No ratings yet
Real Estate
10 pages
3rd Semester DDM AI DAA DEV Print Pages For Spiral Record 25-1-24 - Removed
No ratings yet
3rd Semester DDM AI DAA DEV Print Pages For Spiral Record 25-1-24 - Removed
28 pages
CBSE - IV - Computer Studies - Animating Sprites in Scratch
No ratings yet
CBSE - IV - Computer Studies - Animating Sprites in Scratch
49 pages
AroundTheWorldWith80SoftwareTesters PDF
No ratings yet
AroundTheWorldWith80SoftwareTesters PDF
106 pages
Type of Backup
No ratings yet
Type of Backup
2 pages
Customer Segmentation PDF
No ratings yet
Customer Segmentation PDF
18 pages
Summary: Introduction To Data Visualization Tools
No ratings yet
Summary: Introduction To Data Visualization Tools
13 pages
Correction Multi-Couche
No ratings yet
Correction Multi-Couche
20 pages
Python Codes
No ratings yet
Python Codes
17 pages
Daily Lesson Log (ICT - SJA) - G12 W2
No ratings yet
Daily Lesson Log (ICT - SJA) - G12 W2
2 pages
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
Leica MissionPro
No ratings yet
Leica MissionPro
43 pages
ITEC102 Chapter 1
No ratings yet
ITEC102 Chapter 1
29 pages
5992-2005EN Nemo Analyze TE
No ratings yet
5992-2005EN Nemo Analyze TE
23 pages
Water Lavel Code
No ratings yet
Water Lavel Code
2 pages
Testo 335 Ingles
No ratings yet
Testo 335 Ingles
12 pages
Lua Basic
No ratings yet
Lua Basic
7 pages
Model-Driven Software Engineering
No ratings yet
Model-Driven Software Engineering
13 pages
Chapter 1 Part 2
No ratings yet
Chapter 1 Part 2
9 pages
In Ac aktu-DGMST-1141210004X3
No ratings yet
In Ac aktu-DGMST-1141210004X3
1 page
Autoencoder Transformer
No ratings yet
Autoencoder Transformer
2 pages
Securing Web Applications Against Xss and Sqli Attacks Using A Novel Deep Learning Approach
No ratings yet
Securing Web Applications Against Xss and Sqli Attacks Using A Novel Deep Learning Approach
17 pages
Change of Block AutoCAD LISP
No ratings yet
Change of Block AutoCAD LISP
2 pages
MNG 2200 2014-15 Revision Test 1
No ratings yet
MNG 2200 2014-15 Revision Test 1
3 pages
GIS Program - June 5-11, 2022
No ratings yet
GIS Program - June 5-11, 2022
1 page
Business Intelligence - Data Visualization and Story Telling
No ratings yet
Business Intelligence - Data Visualization and Story Telling
2 pages
Extracted Pages From VW3A3307 ProfibusDP Card Manual 11-2009 EN
No ratings yet
Extracted Pages From VW3A3307 ProfibusDP Card Manual 11-2009 EN
1 page
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet

Main - Py Text File

Uploaded by

Main - Py Text File

Uploaded by

import pandas as pd

import matplotlib.pyplot as plt

# Set a global seaborn style

# Update font style globally

# Create the directory for visualizations

# Create the directory for cleaned data

for column in data.columns:

for column in data.select_dtypes(include=['object']).columns:

# Ensure uniformity in categorical columns (convert to lowercase)

# Update the critical columns list based on your dataset

print("\nReasoning for Selected Critical Columns:") # Reasoning for selection

for col in critical_columns:

# Visualize the critical column (bar plot)

def generate_tags(data, text_column='CAUSAL_PART_NM'):

# Line Chart for time-series data (REPAIR_DATE)

# Scatter Plot for KM vs TOTALCOST

# Histogram for the Distribution of REPAIR_AGE

# Heatmap for Correlation Between Numerical Columns

# Pie Chart for TRANSACTION_CATEGORY Distribution

# Display initial dataset overview

# Step 1: Perform column-wise analysis

# Step 2: Clean the data

# Step 3: Identify and analyze critical columns

# Step 4: Generate tags/features from free text

# Step 5: Visualize the data

# Step 6: Save the cleaned data to a CSV file

You might also like