0% found this document useful (0 votes)

116 views11 pages

Numpy Cheatsheet

The document provides a comprehensive cheatsheet for data preprocessing techniques using NumPy. It covers topics such as array creation and manipulation, indexing and slicing, handling missing data, mathematical and statistical operations, data cleaning, filtering and sorting, random sampling, vectorization, file I/O, linear algebra, broadcasting, data transformation, scaling and normalization, handling categorical data, reshaping, interpolation, time series operations, image processing, handling strings, sets, dates, complex numbers, and distances. Statistical testing, outlier detection, handling different data types and imbalanced data are also discussed.

Uploaded by

jwp08363

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

116 views11 pages

Numpy Cheatsheet

Uploaded by

jwp08363

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

# [ Data Preprocessing with NumPy ] {CheatSheet}

Basics and Array Creation:

● Create NumPy Array: [Link]([1, 2, 3])

● Array Shape: [Link]
● Array Dimensions: [Link]
● Array Size: [Link]
● Reshape Array: [Link]((rows, cols))
● Concatenate Arrays Vertically: [Link]((array1, array2))
● Concatenate Arrays Horizontally: [Link]((array1, array2))
● Transpose Array: array.T

Indexing and Slicing:

● Indexing: array[0]
● Slicing: array[1:4]
● Boolean Indexing: array[array > 5]
● Fancy Indexing: array[[1, 3, 5]]

Missing Data:

● Replace NaN with Zero: np.nan_to_num(array)

● Remove NaN Values: array = array[~[Link](array)]

Mathematical Operations:

● Element-wise Addition: array1 + array2

● Element-wise Multiplication: array1 * array2
● Matrix Multiplication: [Link](matrix1, matrix2)
● Element-wise Square Root: [Link](array)

Statistical Operations:

● Mean: [Link](array)
● Median: [Link](array)
● Standard Deviation: [Link](array)

By: Waleed Mousa

● Variance: [Link](array)
● Minimum Value: [Link](array)
● Maximum Value: [Link](array)

Data Cleaning:

● Remove Duplicates: [Link](array)

● Replace Values: [Link](array == 0, 1, array)
● Clip Values: [Link](array, min_val, max_val)

Filtering and Sorting:

● Filter by Condition: array[array > threshold]

● Sort Array: [Link](array)
● Sort by Column/Axis: [Link](axis=0)

Random Sampling:

● Random Permutation: [Link](array)

● Random Sampling with Replacement: [Link](array, size=n,
replace=True)
● Shuffle Array: [Link](array)

Vectorization:

● Vectorized Operations: [Link](function)(array)

File I/O:

● Read CSV: [Link]('[Link]', delimiter=',')

● Write CSV: [Link]('[Link]', array, delimiter=',')

Linear Algebra:

● Dot Product: [Link](array1, array2)

● Matrix Inversion: [Link](matrix)
● Eigenvalues and Eigenvectors: eigenvalues, eigenvectors =
[Link](matrix)

By: Waleed Mousa

Broadcasting:

● Broadcasting: array += 5

Data Transformation:

● Log Transformation: [Link](array)

● Exponential Transformation: [Link](array)
● Box-Cox Transformation: [Link](array)

Scaling and Normalization:

● Min-Max Scaling: (array - [Link]()) / ([Link]() -

[Link]())
● Standardization: (array - [Link](array)) / [Link](array)
● Z-Score Transformation: [Link](array)

Handling Categorical Data:

● One-Hot Encoding: [Link](num_classes)[array]

Reshaping and Flattening:

● Flatten Array: [Link]()

● Ravel Array: [Link](array)

Interpolation:

● Linear Interpolation: [Link](x, xp, yp)

Polynomial Fitting:

● Polynomial Fitting: [Link](x, y, degree)

Time Series Operations:

● Time Lag Transformation: [Link](array, shift=n)

● Moving Average: [Link](array, [Link](window)/window,
mode='valid')

By: Waleed Mousa

Image Processing:

● Image Resizing: [Link](image, zoom=(2, 2, 1))

● Image Rotation: [Link](image, angle=45,
reshape=False)

Handling Strings:

● String Operations on Array: [Link](array1, array2)

Set Operations:

● Set Union: np.union1d(array1, array2)

● Set Intersection: np.intersect1d(array1, array2)
● Set Difference: np.setdiff1d(array1, array2)

Handling Dates:

● Convert to DateTime: np.datetime64('2022-01-01')

● Date Arithmetic: np.datetime64('2022-01-01') + np.timedelta64(5,
'D')

Handling Complex Numbers:

● Create Complex Numbers: [Link](real, imag)

● Complex Conjugate: [Link](complex_array)

Handling Inf and NaN:

● Replace Inf with Max Value: array[[Link](array)] = [Link]

● Replace NaN with Mean: array[[Link](array)] = [Link](array)

Distance Metrics:

● Euclidean Distance: [Link](vector1 - vector2)

● Cosine Similarity: cosine_similarity(array1, array2)

By: Waleed Mousa

Statistical Testing:

● T-Test for Independent Samples: t_stat, p_value =

[Link].ttest_ind(sample1, sample2)
● ANOVA Test: f_stat, p_value = [Link].f_oneway(group1, group2,
group3)

Outlier Detection:

● Z-Score Outliers: z_scores = [Link](array)

Handling Logarithmic Data:

● Log Transformation for Skewed Data: log_array =

np.log1p(skewed_array)

Handling Exponential Data:

● Exponential Transformation for Highly Skewed Data: exp_array =

[Link](original_array)

Handling Power Law Data:

● Power Transformation: power_transformed_array, lambda_value =

[Link](array)
● Yeo-Johnson Transformation: yeo_johnson_transformed_array,
lambda_value = [Link](array)

Principal Component Analysis (PCA):

● PCA: pca = PCA(n_components=2); transformed_data =

pca.fit_transform(data)

Singular Value Decomposition (SVD):

● SVD: U, S, Vt = [Link](matrix)

By: Waleed Mousa

Handling Outliers:

● Winsorizing Outliers: winsorized_array =

[Link](original_array, limits=[0.05, 0.05])

Time Window Operations:

● Rolling Window Mean: rolling_mean =

[Link](array).rolling(window=3).mean()

Interpolation:

● Linear Interpolation: interpolated_values = [Link](x, xp, yp)

Handling JSON Data:

● Convert NumPy Array to JSON: json_data = [Link]([Link]())

● Convert JSON to NumPy Array: numpy_array = [Link](json_data)

Handling CSV Data:

● Read CSV into NumPy Array: data = [Link]('[Link]',

delimiter=',')
● CSV File Reading with Pandas: data = pd.read_csv('[Link]').values

Handling Excel Data:

● Read Excel into NumPy Array: data = pd.read_excel('[Link]',

header=None).values

Handling Text Data:

● Convert Text to NumPy Array: text_array = [Link](list(text))

● Tokenization with CountVectorizer: vectorizer =
sklearn.feature_extraction.[Link](); tokenized_matrix
= vectorizer.fit_transform(text_data)
● TF-IDF Transformation: tfidf_transformer =
sklearn.feature_extraction.[Link](); tfidf_matrix =
tfidf_transformer.fit_transform(count_matrix)

By: Waleed Mousa

Handling Time Series Data:

● Time Series Rolling Mean: rolling_mean =

[Link](array).rolling(window=3).mean()
● Time Series Differencing: differenced_series = [Link](time_series,
n=1)

Handling Multidimensional Arrays:

● Reshape to 3D Array: reshaped_array =

original_array.reshape((num_samples, num_rows, num_cols))

Handling Spatial Data:

● Distance between Two Points in 2D Space: distance =

[Link](point1 - point2)
● Calculate Haversine Distance: haversine_distance = haversine(lon1,
lat1, lon2, lat2)

Data Binning:

● Binning Numerical Data: binned_data = [Link](array, bins)

Handling Imbalanced Data:

● Under-sampling with Random Choice: undersampled_data =

[Link]([[Link](data[data_label == label],
size=min_class_samples) for label in unique_labels])
● Over-sampling with Repetition: oversampled_data =
[Link]([data[data_label == label] for _ in
range(int(max_class_samples / min_class_samples))])
● Synthetic Over-sampling with SMOTE: oversampled_data,
oversampled_labels = SMOTE().fit_resample(data, labels)

Handling Image Data:

● Flatten 2D Image: flat_image = [Link]()

● Reshape 1D Image to 2D: reshaped_image =
flat_image.reshape((height, width))

By: Waleed Mousa

● Convert Image to Grayscale: grayscale_image = [Link](image[...,
:3], [0.2989, 0.5870, 0.1140])
● Resize Image: resized_image = [Link](image,
(new_height, new_width), mode='constant')
● Image Rotation with Scipy: rotated_image =
[Link](image, angle=45, reshape=False)
● Image Histogram Equalization: equalized_image =
[Link].equalize_hist(image)
● Image Gaussian Blurring: blurred_image =
[Link](image, sigma=2)
● Image Edge Detection: edges = [Link](image, sigma=1)
● Image Segmentation with K-Means Clustering: segmented_image =
[Link](image, n_segments=100)
● Image Feature Extraction with Histogram of Oriented Gradients
(HOG): features, hog_image = [Link](image,
visualize=True)
● Image Cropping: cropped_image = original_image[y1:y2, x1:x2]
● Image Histogram: hist, bins = [Link]([Link](),
bins=256, range=[0,256])
● Image Thresholding: thresholded_image =
[Link](grayscale_image, threshold_value, 255,
cv2.THRESH_BINARY)[1]
● Image Morphological Operations: kernel = [Link]((5,5),np.uint8);
morph_image = [Link](thresh_image, cv2.MORPH_OPEN,
kernel)
● Image Contour Detection: contours, hierarchy =
[Link](thresh_image, cv2.RETR_EXTERNAL,
cv2.CHAIN_APPROX_SIMPLE)
● Image Color Spaces Conversion: hsv_image = [Link](rgb_image,
cv2.COLOR_BGR2HSV)
● Image Filtering with OpenCV: filtered_image =
[Link](image, d=9, sigmaColor=75, sigmaSpace=75)
● Image Edge Detection with OpenCV: edges = [Link](image,
low_threshold, high_threshold)
● Image Feature Extraction with OpenCV: sift = cv2.SIFT_create();
keypoints, descriptors = [Link](gray_image, None)
● Image Template Matching with OpenCV: result =
[Link](image, template, cv2.TM_CCOEFF_NORMED)
By: Waleed Mousa
● Image Superpixel Segmentation with OpenCV: segments =
[Link](image, algorithm=0,
region_size=10)
● Image Corner Detection with OpenCV: corners =
[Link](image, maxCorners=25, qualityLevel=0.01,
minDistance=10)
● Image Affine Transformation with OpenCV: rows, cols =
[Link][:2]; M = cv2.getRotationMatrix2D((cols/2, rows/2),
angle, scale); rotated_image = [Link](image, M, (cols,
rows))
● Image Perspective Transformation with OpenCV: pts1 =
np.float32([[56,65],[368,52],[28,387],[389,390]]); pts2 =
np.float32([[0,0],[300,0],[0,300],[300,300]]); M =
[Link](pts1,pts2); transformed_image =
[Link](image,M,(300,300))
● Image Color Histogram with OpenCV: hist = [Link]([image],
[0, 1, 2], None, [256, 256, 256], [0, 256, 0, 256, 0, 256])
● Image Color Quantization with K-Means Clustering: image_reshaped =
[Link]((-1, 3)); kmeans =
KMeans(n_clusters=k).fit(image_reshaped); quantized_image =
kmeans.cluster_centers_.astype(int)[kmeans.labels_].reshape(image.s
hape)

Advanced Operations with NumPy:

● Handling Sparse Data: sparse_matrix =

[Link].csr_matrix(array)
● Matrix Factorization with NMF: W, H =
[Link](n_components=2).fit_transform(data)
● Sparse Matrix Operations: result =
[Link].csr_matrix.dot(sparse_matrix1, sparse_matrix2)

Handling HDF5 Data:

● Read HDF5 File into NumPy Array: data =

pd.read_hdf('data.h5').values

Handling XML Data:

By: Waleed Mousa

● XML Parsing with BeautifulSoup: soup = BeautifulSoup(xml_data,
'xml'); values = [float([Link]) for tag in
soup.find_all('value')]

Handling SQLite Data:

● Read SQLite Database into NumPy Array: connection =

[Link]('[Link]'); query = 'SELECT * FROM table'; data
= pd.read_sql(query, connection).values

Handling Pickle Data:

● Read Pickle File into NumPy Array: with open('[Link]', 'rb') as

f: data = [Link](f)

Handling Avro Data:

● Read Avro File into NumPy Array: import fastavro; with

open('[Link]', 'rb') as f: data = [Link](f)

Handling Parquet Data:

● Read Parquet File into NumPy Array: import [Link] as pq;

table = pq.read_table('[Link]'); data =
table.to_pandas().values

Handling Feather Data:

● Read Feather File into NumPy Array: import [Link] as

feather; table = feather.read_table('[Link]'); data =
table.to_pandas().values

Handling Video Data:

● Read Video Frames into NumPy Array: import cv2; video_capture =

[Link]('video.mp4'); success, frame =
video_capture.read(); video_array = [] while success:
video_array.append(frame); success, frame = video_capture.read()

Handling Audio Data:

By: Waleed Mousa

● Read Audio File into NumPy Array: import librosa; audio_data,
sampling_rate = [Link]('[Link]', sr=None)

Handling NumPy Datetime:

● NumPy Datetime Operations: date1 = np.datetime64('2022-01-01');

date2 = np.datetime64('2022-01-05'); days_difference = date2 -
date1

Handling Complex Numbers:

● Complex Numbers Operations: complex_result = complex_array1 +

complex_array2

Handling Units:

● Convert Units with Pint: import pint; ureg = [Link]();

quantity = 5 * [Link]; converted_quantity =
[Link]([Link])

Handling Heterogeneous Data:

● Structured Arrays: structured_array = [Link]([(1, 'John', 25),

(2, 'Alice', 30)], dtype=[('id', int), ('name', 'U10'), ('age',
int)])

Handling Point Cloud Data:

● PointCloud Operations with Open3D: import open3d; point_cloud =

[Link].read_point_cloud('point_cloud.ply'); downsampled_cloud =
point_cloud.voxel_down_sample(voxel_size=0.05)

By: Waleed Mousa

Comprehensive NumPy Operations Guide
No ratings yet
Comprehensive NumPy Operations Guide
8 pages
L - AND - T - Project - Naveen 24cs002895
No ratings yet
L - AND - T - Project - Naveen 24cs002895
7 pages
Numpy Cheat Sheet
No ratings yet
Numpy Cheat Sheet
1 page
ML Programs
No ratings yet
ML Programs
34 pages
Week7B PBD
No ratings yet
Week7B PBD
3 pages
NumPy Extended Cheatsheet Guide
No ratings yet
NumPy Extended Cheatsheet Guide
8 pages
Numpy Cheat Sheet Python For Data Science: Inspecting Your Array Sorting Arrays
No ratings yet
Numpy Cheat Sheet Python For Data Science: Inspecting Your Array Sorting Arrays
1 page
DSC Lab Programs
No ratings yet
DSC Lab Programs
24 pages
NumPy and Pandas Step
No ratings yet
NumPy and Pandas Step
9 pages
NumPy Basics for Data Analytics
No ratings yet
NumPy Basics for Data Analytics
13 pages
AI & Data Science Lab Record
No ratings yet
AI & Data Science Lab Record
28 pages
NumPy Basics for Engineers
No ratings yet
NumPy Basics for Engineers
13 pages
L and T Projects - Colabs
No ratings yet
L and T Projects - Colabs
7 pages
Essential Guide To Data Science For Petroleum Engineers
No ratings yet
Essential Guide To Data Science For Petroleum Engineers
150 pages
Python Data Analysis Cheat Sheet
100% (3)
Python Data Analysis Cheat Sheet
9 pages
NumpyGUIA PYTHON-03
No ratings yet
NumpyGUIA PYTHON-03
1 page
Numpy Notes
No ratings yet
Numpy Notes
7 pages
Day6 NumpyFeatures
No ratings yet
Day6 NumpyFeatures
6 pages
Report
No ratings yet
Report
18 pages
FDS Record-1-4
No ratings yet
FDS Record-1-4
18 pages
Introduction to NumPy Basics
No ratings yet
Introduction to NumPy Basics
20 pages
Numpy Python Cheat Sheet
100% (1)
Numpy Python Cheat Sheet
1 page
NumPy Basics Cheat Sheet for Python
100% (5)
NumPy Basics Cheat Sheet for Python
14 pages
Numpy
No ratings yet
Numpy
5 pages
NumPy Basics Cheat Sheet for Data Science
No ratings yet
NumPy Basics Cheat Sheet for Data Science
6 pages
Numpy Python Cheat Sheet PDF
No ratings yet
Numpy Python Cheat Sheet PDF
1 page
Numpy Basics: Arithmetic Operations
No ratings yet
Numpy Basics: Arithmetic Operations
6 pages
ML Cheatsheets
100% (2)
ML Cheatsheets
17 pages
NumPy Basics for Data Science
100% (17)
NumPy Basics for Data Science
7 pages
NumPy Basics for Data Science
No ratings yet
NumPy Basics for Data Science
1 page
Ex 1 NumpyArrays
No ratings yet
Ex 1 NumpyArrays
5 pages
Eda Code Snippets
No ratings yet
Eda Code Snippets
17 pages
# (Data Preprocessing) : (Cheatsheet)
No ratings yet
# (Data Preprocessing) : (Cheatsheet)
10 pages
NumPy Tutorial
No ratings yet
NumPy Tutorial
8 pages
Ot Lab 6
No ratings yet
Ot Lab 6
13 pages
External
No ratings yet
External
11 pages
Num Py Pandas Interview Qa
No ratings yet
Num Py Pandas Interview Qa
7 pages
Matplot Numpy
No ratings yet
Matplot Numpy
5 pages
Numpy Notes Merged
No ratings yet
Numpy Notes Merged
16 pages
Advanced Python
No ratings yet
Advanced Python
48 pages
Exp 12 Pyt
No ratings yet
Exp 12 Pyt
7 pages
Num Py Detailed - Intro To Indexing & Filtering
No ratings yet
Num Py Detailed - Intro To Indexing & Filtering
4 pages
Chapter - 3 NumPy Arrays and Vectorized Computation
No ratings yet
Chapter - 3 NumPy Arrays and Vectorized Computation
51 pages
Python Data Analysis Guide
No ratings yet
Python Data Analysis Guide
19 pages
Python Libraries
No ratings yet
Python Libraries
6 pages
Section 7
No ratings yet
Section 7
33 pages
Drop Duplicates in Pandas and NumPy
No ratings yet
Drop Duplicates in Pandas and NumPy
43 pages
NUPLE
No ratings yet
NUPLE
10 pages
Extensive Numpy Cheat Sheet
No ratings yet
Extensive Numpy Cheat Sheet
2 pages
Module 6 NumPY and Pandas
No ratings yet
Module 6 NumPY and Pandas
12 pages
Num Py
No ratings yet
Num Py
5 pages
NumPy and Pandas
No ratings yet
NumPy and Pandas
12 pages
IT Project (CBSE)
No ratings yet
IT Project (CBSE)
16 pages
Project On School Management System
No ratings yet
Project On School Management System
13 pages
GITEX23DU Confirmation 2197101837
No ratings yet
GITEX23DU Confirmation 2197101837
5 pages
Cts Ictsm Cts Nsqf-5
100% (1)
Cts Ictsm Cts Nsqf-5
70 pages
Transport Layer Protocols Overview
100% (1)
Transport Layer Protocols Overview
11 pages
NGN: Telecom Evolution Blueprint
No ratings yet
NGN: Telecom Evolution Blueprint
38 pages
Intelivision 1050 Datasheet
No ratings yet
Intelivision 1050 Datasheet
4 pages
Formato de Ensayo Interpretativo
100% (1)
Formato de Ensayo Interpretativo
4 pages
Session 21
No ratings yet
Session 21
19 pages
Allplan 2015 ArchitectureTutl
No ratings yet
Allplan 2015 ArchitectureTutl
499 pages
Datasheet of DS WSPWI T 08 & DS WSPLI T 08 Workstation V1.0 20190507
No ratings yet
Datasheet of DS WSPWI T 08 & DS WSPLI T 08 Workstation V1.0 20190507
4 pages
Manual GSSI Antennas
No ratings yet
Manual GSSI Antennas
99 pages
Bridge-PG v3.4
No ratings yet
Bridge-PG v3.4
59 pages
Advanced JavaScript 2nd Edition by Chuck Easttom ISBN 155622852X 9781556228520 PDF Download
100% (4)
Advanced JavaScript 2nd Edition by Chuck Easttom ISBN 155622852X 9781556228520 PDF Download
44 pages
Hyperband: Fast Hyperparameter Optimization
No ratings yet
Hyperband: Fast Hyperparameter Optimization
52 pages
1C31129G03 PDF
No ratings yet
1C31129G03 PDF
3 pages
Evaluasi Kinerja Guru Bersertifikasi Dengan Model Charlotte Danielson
No ratings yet
Evaluasi Kinerja Guru Bersertifikasi Dengan Model Charlotte Danielson
13 pages
Week1 Technology Evaluation Form
100% (1)
Week1 Technology Evaluation Form
3 pages
EkataReport v23 2021copy-210329-220148
No ratings yet
EkataReport v23 2021copy-210329-220148
7 pages
Kmu Kmumdcat24 Rollnoslip 73385
No ratings yet
Kmu Kmumdcat24 Rollnoslip 73385
2 pages
Telecommunications Professional Resume
No ratings yet
Telecommunications Professional Resume
4 pages
Meshfree Shape Function From Moving Least Square
No ratings yet
Meshfree Shape Function From Moving Least Square
13 pages
XL4005 DC-DC Converter Guide
No ratings yet
XL4005 DC-DC Converter Guide
9 pages
Wipro
No ratings yet
Wipro
12 pages
Right to Be Forgotten: Pros, Cons, and Indian Context
No ratings yet
Right to Be Forgotten: Pros, Cons, and Indian Context
3 pages
Chap 9 Indices, Exponentials and Logarithms Part 1 PDF
No ratings yet
Chap 9 Indices, Exponentials and Logarithms Part 1 PDF
44 pages
IT Support Application by Angga Fermana
No ratings yet
IT Support Application by Angga Fermana
5 pages
University of Malta: Junior College JUNE 2011
No ratings yet
University of Malta: Junior College JUNE 2011
4 pages
MAGNET Field v8.0 Release Notes
No ratings yet
MAGNET Field v8.0 Release Notes
14 pages
Feasib
No ratings yet
Feasib
2 pages