0% found this document useful (0 votes)

4 views6 pages

Python Syntax and Functions for Data Mining

The document provides an overview of essential Python libraries for data analysis, including NumPy, Pandas, Matplotlib, and Seaborn, along with their basic functionalities. It also covers data preprocessing techniques, various machine learning algorithms such as linear regression, logistic regression, naive Bayes, decision trees, random forests, KNN, and K-means clustering, as well as methods for loading and displaying CSV and Excel files. Overall, it serves as a guide for performing data mining using popular Python libraries and algorithms.

Uploaded by

imtiaznafiz773

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views6 pages

Python Syntax and Functions for Data Mining

Uploaded by

imtiaznafiz773

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

1.

Python Libraries (NumPy, Pandas, Matplotlib, Seaborn):

NumPy:
import numpy as np
# Basic operations
array = np.array([1, 2, 3])
mean = np.mean(array)
std_dev = np.std(array)

Pandas:
import pandas as pd
# DataFrame operations
df = pd.read_csv('data.csv')
df.head()
df.describe()
df['column'].fillna(df['column'].mean(), inplace=True)

Matplotlib:
import matplotlib.pyplot as plt
# Basic plot
plt.plot(x, y)
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.title('Title')
plt.show()

Seaborn:
import seaborn as sns
# Creating visualizations
sns.scatterplot(x='x_column', y='y_column', data=df)
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')

●
2. Data Preprocessing & Feature Engineering:
Handling Missing Values:
df.fillna(method='ffill', inplace=True)
df.dropna(subset=['column'], inplace=True)

Encoding Categorical Data:

pd.get_dummies(df, columns=['category_column'])
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['encoded_col'] = le.fit_transform(df['category_col'])

Feature Scaling:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaled_data = scaler.fit_transform(df)

3. Linear Regression:
Model Representation:
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)

Making Predictions:
predictions = model.predict(X_test)

4. Logistic Regression:
Logistic Function:
import numpy as np
def logistic(x):
return 1 / (1 + np.exp(-x))

Learning the Model:

from sklearn.linear_model import LogisticRegression

log_model = LogisticRegression()
log_model.fit(X_train, y_train)

Prediction:
log_predictions = log_model.predict(X_test)

5. Naive Bayes:
Implementation:
from sklearn.naive_bayes import GaussianNB
nb_model = GaussianNB()
nb_model.fit(X_train, y_train)
nb_predictions = nb_model.predict(X_test)

6. Decision Tree & Random Forest:

Decision Tree:
from sklearn.tree import DecisionTreeClassifier
dt_model = DecisionTreeClassifier()
dt_model.fit(X_train, y_train)

Random Forest:
from sklearn.ensemble import RandomForestClassifier
rf_model = RandomForestClassifier(n_estimators=100)
rf_model.fit(X_train, y_train)
rf_predictions = rf_model.predict(X_test)

7. K-Nearest Neighbour (KNN):

Implementation:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)
knn_predictions = knn.predict(X_test)

8. K-Means Clustering:
Clustering:
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=3)
kmeans.fit(X)
labels = kmeans.labels_
centroids = kmeans.cluster_centers_

9. Loading CSV Files with Pandas:

import pandas as pd

# Load CSV file into a DataFrame

df = pd.read_csv('data.csv')

# Display the first few rows of the DataFrame

print(df.head())

10. Loading Excel Files:

# Load Excel file into a DataFrame

df_excel = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# Display the first few rows

print(df_excel.head())

This covers the essential Python syntax for data mining using these popular algorithms
and libraries.

● To show and display data from a CSV file, you can use the pandas
library. Here is a step-by-step guide:

Step 1: Import the Pandas Library

import pandas as pd

Step 2: Load the CSV File into a DataFrame

# Load the CSV file
df = pd.read_csv('data.csv')

Step 3: Display the Data

Show the First Few Rows:
print(df.head()) # Displays the first 5 rows by default

To show a specific number of rows:

print(df.head(10)) # Displays the first 10 rows

Show the Last Few Rows:

print(df.tail()) # Displays the last 5 rows by default

Show the Entire DataFrame:

print(df)

●
○ Note: Displaying the entire DataFrame may not be practical for large
datasets. Use head() or tail() for better readability.

Additional Useful Functions:

Display Basic Information:
print(df.info()) # Shows a summary including data types and
non-null counts

View DataFrame Dimensions:

print(df.shape) # Prints the number of rows and columns (rows,
columns)

Display Column Names:

print(df.columns)

These commands will help you load and inspect your dataset quickly.

Data Preprocessing in Machine Learning
No ratings yet
Data Preprocessing in Machine Learning
27 pages
Revit Structure 4 User Guide
No ratings yet
Revit Structure 4 User Guide
728 pages
Asset-V1 VIT+MBA109+2020+type@asset+block@Introductio To ML Using Python
No ratings yet
Asset-V1 VIT+MBA109+2020+type@asset+block@Introductio To ML Using Python
7 pages
Powerpoint Presentation On Java: Name - Devendra Kumar Mishra Roll No. - 1735110020
No ratings yet
Powerpoint Presentation On Java: Name - Devendra Kumar Mishra Roll No. - 1735110020
26 pages
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
7516 01 Funnel Diagrams Powerpoint Template 16x9
No ratings yet
7516 01 Funnel Diagrams Powerpoint Template 16x9
14 pages
اُردو قواعد و املا و انشاء
No ratings yet
اُردو قواعد و املا و انشاء
127 pages
Python Library Functions
No ratings yet
Python Library Functions
12 pages
# (Data Preprocessing) : (Cheatsheet)
No ratings yet
# (Data Preprocessing) : (Cheatsheet)
10 pages
ML (Prac1)
No ratings yet
ML (Prac1)
12 pages
Unit-2 Bda
No ratings yet
Unit-2 Bda
11 pages
How To Install Java
No ratings yet
How To Install Java
17 pages
Pandas PDF
No ratings yet
Pandas PDF
25 pages
Learneverythingai
No ratings yet
Learneverythingai
9 pages
3rd Week Report
No ratings yet
3rd Week Report
7 pages
Pandas Complete + Visualisation Summary of IBM Visualization
No ratings yet
Pandas Complete + Visualisation Summary of IBM Visualization
21 pages
Data Aggregation and Group Operations
No ratings yet
Data Aggregation and Group Operations
34 pages
SHUKLAA
100% (1)
SHUKLAA
43 pages
Python For Statistics
No ratings yet
Python For Statistics
40 pages
Summary: Introduction To Data Visualization Tools
No ratings yet
Summary: Introduction To Data Visualization Tools
13 pages
ML Lab Manual Completed
No ratings yet
ML Lab Manual Completed
56 pages
Chapter 2. Data Analysis and Processing - Full
No ratings yet
Chapter 2. Data Analysis and Processing - Full
49 pages
Python Quick Notes
No ratings yet
Python Quick Notes
2 pages
Unit 3 (FODS)
No ratings yet
Unit 3 (FODS)
34 pages
EDS - Python Cheat Sheet
0% (1)
EDS - Python Cheat Sheet
3 pages
Dav 2 Unit
No ratings yet
Dav 2 Unit
55 pages
Python - Data Analysis
No ratings yet
Python - Data Analysis
11 pages
Subject - Machine Learning Group - E27-24 Name
No ratings yet
Subject - Machine Learning Group - E27-24 Name
18 pages
Data Frame
No ratings yet
Data Frame
95 pages
Learninng Plan
No ratings yet
Learninng Plan
6 pages
NumPy and Pandas Tutorial
No ratings yet
NumPy and Pandas Tutorial
8 pages
2015 CASA New Orleans Superhero Race Results
No ratings yet
2015 CASA New Orleans Superhero Race Results
10 pages
EXP1-siddhant Gupta (23 - SE - 148)
No ratings yet
EXP1-siddhant Gupta (23 - SE - 148)
17 pages
Deployment Registry
No ratings yet
Deployment Registry
9 pages
Data Preprocesing JavaPoint
No ratings yet
Data Preprocesing JavaPoint
19 pages
Informatics Practices Practical File
No ratings yet
Informatics Practices Practical File
8 pages
What Is Pandas
No ratings yet
What Is Pandas
9 pages
Eda Code Snippets
No ratings yet
Eda Code Snippets
17 pages
Kartik MLP 4-9prg
No ratings yet
Kartik MLP 4-9prg
10 pages
FDS Record-1-4
No ratings yet
FDS Record-1-4
18 pages
Course - Introduction To Data Science (SD211105)
No ratings yet
Course - Introduction To Data Science (SD211105)
10 pages
Application Guidance MA 2122
No ratings yet
Application Guidance MA 2122
19 pages
Supermarket Sales Data Analysis
No ratings yet
Supermarket Sales Data Analysis
6 pages
UM - E-OCD II Debugger Manual - V1.0.2
No ratings yet
UM - E-OCD II Debugger Manual - V1.0.2
92 pages
MIS - 104: Computing Fundamentals: BBA Department of MIS University of Dhaka
No ratings yet
MIS - 104: Computing Fundamentals: BBA Department of MIS University of Dhaka
22 pages
Week 3
No ratings yet
Week 3
10 pages
BasicAnalysis Using PYTHON
No ratings yet
BasicAnalysis Using PYTHON
6 pages
Practical 1
No ratings yet
Practical 1
5 pages
Practical 01 Dms
No ratings yet
Practical 01 Dms
2 pages
סיכום פקודות יוניטים
No ratings yet
סיכום פקודות יוניטים
3 pages
Practical Data Structures
No ratings yet
Practical Data Structures
25 pages
Python Comands
No ratings yet
Python Comands
3 pages
Code Shabab Error 7
No ratings yet
Code Shabab Error 7
5 pages
Universal Data Analytics Algorithm
No ratings yet
Universal Data Analytics Algorithm
51 pages
Data Science Lab Manual..
No ratings yet
Data Science Lab Manual..
54 pages
Datascience
No ratings yet
Datascience
26 pages
Grand-Piano-Model D Manual
No ratings yet
Grand-Piano-Model D Manual
10 pages
Chapter 1
No ratings yet
Chapter 1
11 pages
NumPy and Pandas
No ratings yet
NumPy and Pandas
12 pages
Oozie Basic Exercise
No ratings yet
Oozie Basic Exercise
3 pages
Unit 2
No ratings yet
Unit 2
36 pages
Openmp
No ratings yet
Openmp
18 pages
Topic Wise Bundle PDF Course Quantitative Aptitude Ages - Based On Twice/Thrice/N Times Set-1 (Eng)
No ratings yet
Topic Wise Bundle PDF Course Quantitative Aptitude Ages - Based On Twice/Thrice/N Times Set-1 (Eng)
5 pages
STAT Online Test Step-by-Step Guide19
No ratings yet
STAT Online Test Step-by-Step Guide19
17 pages
Ayoub Bouyebla: Education Computer Skills
No ratings yet
Ayoub Bouyebla: Education Computer Skills
1 page
Adaptec Ultra160 Windows 98
No ratings yet
Adaptec Ultra160 Windows 98
4 pages
DAP 3 Module
No ratings yet
DAP 3 Module
62 pages
12 IT Sample Question Papper 01
No ratings yet
12 IT Sample Question Papper 01
3 pages
Assignment 1
No ratings yet
Assignment 1
2 pages
TerasLIS English Indonesia
No ratings yet
TerasLIS English Indonesia
24 pages
Log
No ratings yet
Log
30 pages
Class Xii PDF For Practical
No ratings yet
Class Xii PDF For Practical
24 pages
JHGFJHGF
No ratings yet
JHGFJHGF
1 page
Resume Zuha Zahid
No ratings yet
Resume Zuha Zahid
2 pages
Unit 4 - Working With Graphs - Python
No ratings yet
Unit 4 - Working With Graphs - Python
49 pages
100mb Testfile - Org Compressed
No ratings yet
100mb Testfile - Org Compressed
100 pages
Dharan Rajan Resume
No ratings yet
Dharan Rajan Resume
2 pages
Pandas
No ratings yet
Pandas
50 pages
ST Lab Manual (By Suyash Srivastava) - 1
No ratings yet
ST Lab Manual (By Suyash Srivastava) - 1
24 pages
Data Processing
No ratings yet
Data Processing
20 pages
Pandas
No ratings yet
Pandas
2 pages
FOUND. DATA SCIENCE Practical
No ratings yet
FOUND. DATA SCIENCE Practical
15 pages
Networking Devices and Initial Configuration
No ratings yet
Networking Devices and Initial Configuration
59 pages
Python for Data Analysis Notes
No ratings yet
Python for Data Analysis Notes
3 pages
SRT Gemini Traslation Documnetation
No ratings yet
SRT Gemini Traslation Documnetation
10 pages
Unit 2 Notes
No ratings yet
Unit 2 Notes
16 pages
Pandas Research
No ratings yet
Pandas Research
14 pages
Python in Research
No ratings yet
Python in Research
18 pages
Data Wrangling & Data Manipulation With Pandas
No ratings yet
Data Wrangling & Data Manipulation With Pandas
6 pages

Python Syntax and Functions for Data Mining

Uploaded by

Python Syntax and Functions for Data Mining

Uploaded by

1.

Python Libraries (NumPy, Pandas, Matplotlib, Seaborn):

Encoding Categorical Data:

Learning the Model:

6. Decision Tree & Random Forest:

7. K-Nearest Neighbour (KNN):

9. Loading CSV Files with Pandas:

# Load CSV file into a DataFrame

# Display the first few rows of the DataFrame

10. Loading Excel Files:

# Load Excel file into a DataFrame

# Display the first few rows

Step 1: Import the Pandas Library

Step 2: Load the CSV File into a DataFrame

Step 3: Display the Data

To show a specific number of rows:

Show the Last Few Rows:

Show the Entire DataFrame:

Additional Useful Functions:

View DataFrame Dimensions:

Display Column Names:

You might also like