0% found this document useful (0 votes)

24 views

Google Cluster Data Preprocessing - Updated

Uploaded by

bsf23000703

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

24 views

Google Cluster Data Preprocessing - Updated

Uploaded by

bsf23000703

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

1.

Handling Missing Values

Operation: Identify columns with missing values and assess the extent of missingness.

Python Functions:

# Checking for missing values

df.isnull().sum()

# Fill missing values with median

df['mean_cpu_usage_rate'].fillna(df['mean_cpu_usage_rate'].median(), inplace=True)

# Drop rows or columns with too many missing values

df.dropna(axis=0, thresh=5) # Keep rows with at least 5 non-NaN values

2. Removing Duplicate Entries

Operation: Check for and remove duplicate rows.

Python Functions: *

python

# Identifying duplicates

duplicates = df[df.duplicated()]

# Removing duplicates

df.drop_duplicates(inplace=True)

3. Correcting Data Types

Operation: Ensure that columns have the correct data types.

Python Functions:

# Convert column to float

df['mean_cpu_usage_rate'] = df['mean_cpu_usage_rate'].astype(float)
# Convert to datetime

df['start_time'] = pd.to_datetime(df['start_time'])

df['end_time'] = pd.to_datetime(df['end_time'])

4. Filtering Outliers

Operation: Detect and manage outliers using statistical techniques.

Python Functions:

# Using Z-score to identify outliers

from scipy.stats import zscore

df['zscore'] = zscore(df['mean_cpu_usage_rate'])

outliers = df[(df['zscore'] < -3) | (df['zscore'] > 3)]

# Removing outliers

df = df[(df['zscore'] >= -3) & (df['zscore'] <= 3)]

```

5. Standardizing Units and Scales

Operation: Ensure all measurements are in consistent units and scales.

Python Functions:

python

# Convert bytes to megabytes

df['assigned_memory_usage_MB'] = df['assigned_memory_usage'] / (1024 * 1024)

# Normalize or scale data

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df[['mean_cpu_usage_rate', 'assigned_memory_usage_MB']] = scaler.fit_transform(

df[['mean_cpu_usage_rate', 'assigned_memory_usage_MB']]

6. Handling Inconsistent Entries

Operation: Clean up inconsistencies in the data.

Python Functions:

# Correct inconsistent entries

df['aggregation_type'] = df['aggregation_type'].str.lower().replace(

{'sum': 'sum', 'SUM': 'sum', 'Summation': 'sum'}

7. Correcting Timestamp Misalignments

Operation: Ensure proper alignment of `start_time` and `end_time`.

Python Functions:

# Find rows where end_time is before start_time

misaligned = df[df['end_time'] < df['start_time']]

# Fix or drop these rows as necessary

df = df[df['end_time'] >= df['start_time']]

8. Removing Irrelevant Columns

Operation: Drop columns that are not needed for analysis.

Python Functions:

# Drop unnecessary columns

df.drop(['sample_portion', 'aggregation_type'], axis=1, inplace=True)

```
9. Consistent Handling of Zero or Negative Values

Operation: Identify and handle zero or negative values appropriately.

Python Functions:

# Replace negative or zero values with NaN and then handle them

df['mean_cpu_usage_rate'] = df['mean_cpu_usage_rate'].replace(

lambda x: x if x > 0 else None

df['mean_cpu_usage_rate'].fillna(df['mean_cpu_usage_rate'].median(), inplace=True)

10. Data Sampling and Reduction

Operation: Reduce dataset size without losing critical information.

Python Functions:

# Random sampling of data

sampled_df = df.sample(frac=0.1, random_state=42) # Take 10% sample

# Aggregating data to hourly means

df['hourly_time'] = df['start_time'].dt.floor('H')

aggregated_df = df.groupby('hourly_time').agg({

'mean_cpu_usage_rate': 'mean',

'assigned_memory_usage_MB': 'sum'

}).reset_index()

```

By following these steps and utilizing the corresponding Python functions, you can effectively clean the
Google Cluster Dataset, preparing it for further analysis and ensuring that the insights you derive will be
reliable and accurate.

Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
data wrangling
No ratings yet
data wrangling
6 pages
Pandas Roadmap
No ratings yet
Pandas Roadmap
6 pages
DAP writeups_merged
No ratings yet
DAP writeups_merged
33 pages
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
Data Manipulation in Python Using Pandas
No ratings yet
Data Manipulation in Python Using Pandas
12 pages
Universal Data Analytics Algorithm
No ratings yet
Universal Data Analytics Algorithm
51 pages
Pandas Fuction Notes
No ratings yet
Pandas Fuction Notes
3 pages
Statistical Transform Data Cleaning
No ratings yet
Statistical Transform Data Cleaning
30 pages
Important Pandas Operations 1697910759
No ratings yet
Important Pandas Operations 1697910759
6 pages
Dataframe in Pandas - Cheatsheet
No ratings yet
Dataframe in Pandas - Cheatsheet
8 pages
Pandas Data Manipulation Extended CheatSheet 1731972219
No ratings yet
Pandas Data Manipulation Extended CheatSheet 1731972219
9 pages
Data Cleaning and Preprocessing
No ratings yet
Data Cleaning and Preprocessing
4 pages
EDA with Pandas
No ratings yet
EDA with Pandas
8 pages
Pandas Data Cleaning Presentation
No ratings yet
Pandas Data Cleaning Presentation
11 pages
Group-3 Report
No ratings yet
Group-3 Report
38 pages
Code
No ratings yet
Code
2 pages
Apache Spark - Optimization Techniques
No ratings yet
Apache Spark - Optimization Techniques
7 pages
Data Cleaning and Preparation
No ratings yet
Data Cleaning and Preparation
9 pages
B Tech-AIML-question bank-2 Answer Key
No ratings yet
B Tech-AIML-question bank-2 Answer Key
9 pages
Capstone Project Guidelines
No ratings yet
Capstone Project Guidelines
2 pages
business_requirements 2nd project
No ratings yet
business_requirements 2nd project
6 pages
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
No ratings yet
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
10 pages
task2-eda-cleaning
No ratings yet
task2-eda-cleaning
33 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
Practicals
No ratings yet
Practicals
42 pages
Introduction to Pandas Programming 2
No ratings yet
Introduction to Pandas Programming 2
3 pages
Core of ML - Part 1 Handling Data
No ratings yet
Core of ML - Part 1 Handling Data
3 pages
Week 6 - Data Cleaning
No ratings yet
Week 6 - Data Cleaning
8 pages
III-Unit
No ratings yet
III-Unit
4 pages
ds
No ratings yet
ds
114 pages
index
No ratings yet
index
4 pages
Day 10 Pandasdatacleaning
No ratings yet
Day 10 Pandasdatacleaning
6 pages
DataCleaning
No ratings yet
DataCleaning
28 pages
Pyspark Code Quality by Azurelib
No ratings yet
Pyspark Code Quality by Azurelib
4 pages
Lab 6
No ratings yet
Lab 6
9 pages
Data Wrangling With Dask CheatSheet 1731972488
No ratings yet
Data Wrangling With Dask CheatSheet 1731972488
7 pages
Assvid
No ratings yet
Assvid
13 pages
1.2.1. Retrieving Data - 1.2.2. Cleaning Data
No ratings yet
1.2.1. Retrieving Data - 1.2.2. Cleaning Data
35 pages
Prac 7
No ratings yet
Prac 7
5 pages
PDS_Exp_7_to_9
No ratings yet
PDS_Exp_7_to_9
10 pages
11_20241108_DataAnalysis_AppliExamples
No ratings yet
11_20241108_DataAnalysis_AppliExamples
36 pages
Deep Learning Ram
No ratings yet
Deep Learning Ram
21 pages
Electrical Machine Learning Tool
No ratings yet
Electrical Machine Learning Tool
3 pages
Supermarket Sales Data analysis
No ratings yet
Supermarket Sales Data analysis
6 pages
Python (Unit - 2)
No ratings yet
Python (Unit - 2)
22 pages
Content Pandas Cheat Sheet
No ratings yet
Content Pandas Cheat Sheet
9 pages
Avneesh_To be printed Information Practice
No ratings yet
Avneesh_To be printed Information Practice
8 pages
# Calculate Average Latency
No ratings yet
# Calculate Average Latency
2 pages
Business+Report Linear
No ratings yet
Business+Report Linear
20 pages
Pandas-1
No ratings yet
Pandas-1
13 pages
Data Analysis With Python
No ratings yet
Data Analysis With Python
60 pages
Usage of NumPy for Numerical Data in Detail
No ratings yet
Usage of NumPy for Numerical Data in Detail
52 pages
s8.docx (1)
No ratings yet
s8.docx (1)
6 pages
Kavin
No ratings yet
Kavin
13 pages
Pandas_Tutorial
No ratings yet
Pandas_Tutorial
9 pages
Pandas Notes
No ratings yet
Pandas Notes
3 pages
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Introduction to PHP, Part 2, Second Edition
From Everand
Introduction to PHP, Part 2, Second Edition
Adam Majczak
No ratings yet
Lesson 3 Notes
No ratings yet
Lesson 3 Notes
53 pages
Histogram, box and whisker plots
No ratings yet
Histogram, box and whisker plots
7 pages
Data Visualization and Communication Introduction
No ratings yet
Data Visualization and Communication Introduction
14 pages
Information_Security_Lecture_2
No ratings yet
Information_Security_Lecture_2
15 pages
Simple Linear Regression Using a Real Dataset in R and Excel
No ratings yet
Simple Linear Regression Using a Real Dataset in R and Excel
4 pages
Information Security Lecture 6
No ratings yet
Information Security Lecture 6
12 pages
Information Security Lecture 5
No ratings yet
Information Security Lecture 5
12 pages
Window Functions
No ratings yet
Window Functions
14 pages
Lifi
100% (1)
Lifi
16 pages
Practice of Statistics in The Life Sciences Brigitte Baldi All Chapter Instant Download
100% (1)
Practice of Statistics in The Life Sciences Brigitte Baldi All Chapter Instant Download
40 pages
HSCC Alg1 Pe 11
No ratings yet
HSCC Alg1 Pe 11
49 pages
L2 Acquisition and Processing of Korean Direct Object and Oblique Relative Clauses by English Speakers
No ratings yet
L2 Acquisition and Processing of Korean Direct Object and Oblique Relative Clauses by English Speakers
46 pages
Missing Value Treatment
No ratings yet
Missing Value Treatment
22 pages
Chapter 34 Relationship Strength
No ratings yet
Chapter 34 Relationship Strength
12 pages
Lab 6 With Results Attached
No ratings yet
Lab 6 With Results Attached
25 pages
Data Mining With Weka Heart Disease Dataset: 1 Problem Description
No ratings yet
Data Mining With Weka Heart Disease Dataset: 1 Problem Description
4 pages
Manoj Intern Data Science
No ratings yet
Manoj Intern Data Science
37 pages
Mann Yu Zuhric Final Research Paper
No ratings yet
Mann Yu Zuhric Final Research Paper
42 pages
STT205
No ratings yet
STT205
18 pages
463b62e Cis888614800303964
No ratings yet
463b62e Cis888614800303964
8 pages
Finish Your Thesis Faster - Freebie - F PDF
100% (2)
Finish Your Thesis Faster - Freebie - F PDF
39 pages
Provenance of The Grey and Tan Wares Fro
No ratings yet
Provenance of The Grey and Tan Wares Fro
20 pages
Peirce Sub
No ratings yet
Peirce Sub
8 pages
Iso 4259
No ratings yet
Iso 4259
2 pages
Physics 11
No ratings yet
Physics 11
7 pages
Concordance C Index - 2 PDF
No ratings yet
Concordance C Index - 2 PDF
8 pages
Educational Statistics Notes
No ratings yet
Educational Statistics Notes
32 pages
Minitab 16: ANOVA, Normality, Tukey, Control Charts
No ratings yet
Minitab 16: ANOVA, Normality, Tukey, Control Charts
63 pages
Agricultural Statistics and Biometry (Agr 304) - 2021.2022
No ratings yet
Agricultural Statistics and Biometry (Agr 304) - 2021.2022
11 pages
Chapter-3 data processing
No ratings yet
Chapter-3 data processing
54 pages
Data Mining Basic Techniques
No ratings yet
Data Mining Basic Techniques
14 pages
DWDM Asgmnt Prog
No ratings yet
DWDM Asgmnt Prog
51 pages
2021-Modeling Labels For Conversion Value Prediction
No ratings yet
2021-Modeling Labels For Conversion Value Prediction
6 pages
1.8.4 Test (TST) - Statistical Analysis (Test)
No ratings yet
1.8.4 Test (TST) - Statistical Analysis (Test)
12 pages
Teacher Portfolio-Compressed
No ratings yet
Teacher Portfolio-Compressed
53 pages
Intro To Anomal Detection With Opencv, Computer Vision, and Scikit-Learn
No ratings yet
Intro To Anomal Detection With Opencv, Computer Vision, and Scikit-Learn
38 pages
Audit Committee Indepence and Auditor Independence 2
No ratings yet
Audit Committee Indepence and Auditor Independence 2
15 pages

Google Cluster Data Preprocessing - Updated

Uploaded by

Google Cluster Data Preprocessing - Updated

Uploaded by

1.

Handling Missing Values

# Checking for missing values

# Fill missing values with median

# Drop rows or columns with too many missing values

df.dropna(axis=0, thresh=5) # Keep rows with at least 5 non-NaN values

2. Removing Duplicate Entries

Operation: Check for and remove duplicate rows.

3. Correcting Data Types

Operation: Ensure that columns have the correct data types.

# Convert column to float

Operation: Detect and manage outliers using statistical techniques.

# Using Z-score to identify outliers

from scipy.stats import zscore

outliers = df[(df['zscore'] < -3) | (df['zscore'] > 3)]

df = df[(df['zscore'] >= -3) & (df['zscore'] <= 3)]

5. Standardizing Units and Scales

Operation: Ensure all measurements are in consistent units and scales.

# Convert bytes to megabytes

df['assigned_memory_usage_MB'] = df['assigned_memory_usage'] / (1024 * 1024)

# Normalize or scale data

from sklearn.preprocessing import MinMaxScaler

6. Handling Inconsistent Entries

Operation: Clean up inconsistencies in the data.

# Correct inconsistent entries

{'sum': 'sum', 'SUM': 'sum', 'Summation': 'sum'}

7. Correcting Timestamp Misalignments

Operation: Ensure proper alignment of `start_time` and `end_time`.

# Find rows where end_time is before start_time

misaligned = df[df['end_time'] < df['start_time']]

# Fix or drop these rows as necessary

df = df[df['end_time'] >= df['start_time']]

8. Removing Irrelevant Columns

Operation: Drop columns that are not needed for analysis.

# Drop unnecessary columns

df.drop(['sample_portion', 'aggregation_type'], axis=1, inplace=True)

Operation: Identify and handle zero or negative values appropriately.

lambda x: x if x > 0 else None

10. Data Sampling and Reduction

Operation: Reduce dataset size without losing critical information.

# Random sampling of data

sampled_df = df.sample(frac=0.1, random_state=42) # Take 10% sample

# Aggregating data to hourly means

You might also like