0% found this document useful (0 votes)

20 views8 pages

Data Mining Lab Manual

The document is a Data Mining Lab Manual detailing various experiments using tools like Python, R, and SQL. It covers creating schemas, performing OLAP operations, data cleaning, and implementing algorithms such as Apriori, FP-Growth, Naïve Bayes, and K-Means. Each experiment includes objectives, procedures, code snippets, outputs, and conclusions demonstrating the effectiveness of different data mining techniques.

Uploaded by

ranga raj

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

20 views8 pages

Data Mining Lab Manual

Uploaded by

ranga raj

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 8

Data Mining Lab Manual with Answers

Tools/Technologies to be used:
• Python (pandas, scikit-learn, matplotlib, seaborn)

• R / RStudio

• WEKA / Orange Data Mining Tool

• SQL for OLAP operations

• Jupyter Notebook / Google Colab

Experiment 1: Create a Star and Snowflake schema for a sample sales dataset
using SQL

Objective:
To create a star and snowflake schema for a sample sales dataset using sql.

Tools:
Python / SQL / R / WEKA / Orange, as applicable.

Procedure:
1. Load data
2. Preprocess/transform
3. Apply algorithm
4. Analyze results

Code:
-- Star Schema
CREATE TABLE sales (...);
CREATE TABLE product (...);
CREATE TABLE store (...);
-- Snowflake Schema
CREATE TABLE region (...);
CREATE TABLE store (...); -- referencing region

Output:
Star schema has denormalized dimensions. Snowflake schema normalizes them.

Conclusion:
Successfully created both schemas demonstrating differences in structure.
Experiment 2: Perform OLAP operations (Roll-up, Drill-down, Slice, Dice, Pivot)
using SQL

Objective:
To perform olap operations (roll-up, drill-down, slice, dice, pivot) using sql.

Tools:
Python / SQL / R / WEKA / Orange, as applicable.

Procedure:
1. Load data
2. Preprocess/transform
3. Apply algorithm
4. Analyze results

Code:
-- Roll-up
SELECT region, SUM(amount) FROM sales GROUP BY region;

-- Slice
SELECT * FROM sales WHERE year = 2024;

Output:
Output shows aggregated and filtered sales data as per OLAP operations.

Conclusion:
OLAP queries allow multidimensional analysis through SQL operations.

Experiment 3: Import a CSV dataset and perform data cleaning, missing value
handling, and normalization

Objective:
To import a csv dataset and perform data cleaning, missing value handling, and normalization.

Tools:
Python / SQL / R / WEKA / Orange, as applicable.

Procedure:
1. Load data
2. Preprocess/transform
3. Apply algorithm
4. Analyze results

Code:
import pandas as pd
df = pd.read_csv('data.csv')
df.fillna(df.mean(), inplace=True)
from sklearn.preprocessing import MinMaxScaler
df[['col']] = MinMaxScaler().fit_transform(df[['col']])

Output:
Missing values filled and numeric columns normalized to [0,1].

Conclusion:
Cleaned and prepared dataset for further analysis.

Experiment 4: Implement Apriori algorithm to find frequent itemsets and

generate association rules

Objective:
To implement apriori algorithm to find frequent itemsets and generate association rules.

Tools:
Python / SQL / R / WEKA / Orange, as applicable.

Procedure:
1. Load data
2. Preprocess/transform
3. Apply algorithm
4. Analyze results

Code:
from mlxtend.frequent_patterns import apriori, association_rules
frequent = apriori(df, min_support=0.5, use_colnames=True)
rules = association_rules(frequent, metric='lift', min_threshold=1.0)

Output:
Generated rules showing strong associations like {bread} → {milk}.

Conclusion:
Apriori helps identify frequent patterns and strong item associations.

Experiment 5: Use FP-Growth algorithm for mining frequent patterns from a

retail dataset

Objective:
To use fp-growth algorithm for mining frequent patterns from a retail dataset.
Tools:
Python / SQL / R / WEKA / Orange, as applicable.

Procedure:
1. Load data
2. Preprocess/transform
3. Apply algorithm
4. Analyze results

Code:
from mlxtend.frequent_patterns import fpgrowth
fpgrowth(df, min_support=0.5, use_colnames=True)

Output:
Identified frequent itemsets without candidate generation.

Conclusion:
FP-Growth is efficient for large datasets with less computation.

Experiment 6: Implement Naïve Bayes classifier and evaluate it using accuracy,

precision, and recall

Objective:
To implement naïve bayes classifier and evaluate it using accuracy, precision, and recall.

Tools:
Python / SQL / R / WEKA / Orange, as applicable.

Procedure:
1. Load data
2. Preprocess/transform
3. Apply algorithm
4. Analyze results

Code:
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, precision_score, recall_score

Output:
Accuracy: 85%, Precision: 80%, Recall: 82%

Conclusion:
Naïve Bayes gives good performance on text/classification data.
Experiment 7: Build a Decision Tree using ID3 or C4.5 algorithm and visualize
the result

Objective:
To build a decision tree using id3 or c4.5 algorithm and visualize the result.

Tools:
Python / SQL / R / WEKA / Orange, as applicable.

Procedure:
1. Load data
2. Preprocess/transform
3. Apply algorithm
4. Analyze results

Code:
from sklearn.tree import DecisionTreeClassifier, plot_tree
clf = DecisionTreeClassifier(criterion='entropy')
plot_tree(clf.fit(X, y))

Output:
Tree structure showing decision splits based on information gain.

Conclusion:
Decision Trees provide interpretable and accurate classification models.

Experiment 8: Perform classification using K-Nearest Neighbors (KNN) and

analyze the results

Objective:
To perform classification using k-nearest neighbors (knn) and analyze the results.

Tools:
Python / SQL / R / WEKA / Orange, as applicable.

Procedure:
1. Load data
2. Preprocess/transform
3. Apply algorithm
4. Analyze results

Code:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)
Output:
KNN accuracy: 88%

Conclusion:
KNN is simple and effective for small to medium datasets.

Experiment 9: Apply K-Means clustering on a dataset and visualize cluster

separation

Objective:
To apply k-means clustering on a dataset and visualize cluster separation.

Tools:
Python / SQL / R / WEKA / Orange, as applicable.

Procedure:
1. Load data
2. Preprocess/transform
3. Apply algorithm
4. Analyze results

Code:
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=3)
plt.scatter(..., c=kmeans.labels_)

Output:
Visual clusters with clear boundaries among 3 groups.

Conclusion:
K-Means effectively groups similar data points.

Experiment 10: Use Hierarchical clustering and dendrogram visualization

Objective:
To use hierarchical clustering and dendrogram visualization.

Tools:
Python / SQL / R / WEKA / Orange, as applicable.

Procedure:
1. Load data
2. Preprocess/transform
3. Apply algorithm
4. Analyze results
Code:
from scipy.cluster.hierarchy import dendrogram, linkage
dendrogram(linkage(data, method='ward'))

Output:
Dendrogram showing hierarchy of merged clusters.

Conclusion:
Hierarchical clustering reveals natural data structure.

Experiment 11: Perform Principal Component Analysis (PCA) on a high-

dimensional dataset

Objective:
To perform principal component analysis (pca) on a high-dimensional dataset.

Tools:
Python / SQL / R / WEKA / Orange, as applicable.

Procedure:
1. Load data
2. Preprocess/transform
3. Apply algorithm
4. Analyze results

Code:
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

Output:
Variance explained: PC1 - 70%, PC2 - 20%

Conclusion:
PCA reduces dimensions while retaining variance.

Experiment 12: Mini-project: Apply classification/clustering/association on a

real-world dataset and present findings

Objective:
To mini-project: apply classification/clustering/association on a real-world dataset and present
findings.

Tools:
Python / SQL / R / WEKA / Orange, as applicable.
Procedure:
1. Load data
2. Preprocess/transform
3. Apply algorithm
4. Analyze results

Code:
# Example: Titanic dataset - classification using Decision Tree

Output:
Achieved 82% accuracy with insights on key features like age and class.

Conclusion:
Applied end-to-end workflow from data cleaning to model evaluation.

R23-DWDM Syllabus
No ratings yet
R23-DWDM Syllabus
5 pages
Computer Vision Exam Questions English
No ratings yet
Computer Vision Exam Questions English
9 pages
DWDM Lab Manual
No ratings yet
DWDM Lab Manual
51 pages
Machine Learning LIST OF EXPERIMENTS
No ratings yet
Machine Learning LIST OF EXPERIMENTS
2 pages
RNN and LSTM
No ratings yet
RNN and LSTM
15 pages
Image Recognition With Deep Learning
No ratings yet
Image Recognition With Deep Learning
5 pages
ML Unit 2
No ratings yet
ML Unit 2
23 pages
Lecture 6 - Convolution Neural Network (CNN)
No ratings yet
Lecture 6 - Convolution Neural Network (CNN)
26 pages
Fundamentals of Data Science Students
No ratings yet
Fundamentals of Data Science Students
52 pages
LSTM
No ratings yet
LSTM
11 pages
ML 3
No ratings yet
ML 3
24 pages
IML Lab Manual
No ratings yet
IML Lab Manual
31 pages
Ai, MLDL Bigda Syllabus For Internship Training
No ratings yet
Ai, MLDL Bigda Syllabus For Internship Training
7 pages
JNTUA R20 B.Tech Syllabus
No ratings yet
JNTUA R20 B.Tech Syllabus
225 pages
Bagging and Boosting: Amit Srinet Dave Snyder
No ratings yet
Bagging and Boosting: Amit Srinet Dave Snyder
33 pages
AL801 Business Intelligence
No ratings yet
AL801 Business Intelligence
11 pages
FDS Final Manual
No ratings yet
FDS Final Manual
41 pages
Aman 61
No ratings yet
Aman 61
24 pages
Data Mining Lab Manual
No ratings yet
Data Mining Lab Manual
35 pages
Data Mining Lab Manaul
No ratings yet
Data Mining Lab Manaul
32 pages
Data Science Lab Python
No ratings yet
Data Science Lab Python
3 pages
ML Record
No ratings yet
ML Record
19 pages
Foundation of Data Science Lab Manual Full
No ratings yet
Foundation of Data Science Lab Manual Full
8 pages
DWDM Manual-1
No ratings yet
DWDM Manual-1
96 pages
DMC - Record
No ratings yet
DMC - Record
54 pages
Hands-On Machine Learning: Chapter 5: Support Vector Machines
No ratings yet
Hands-On Machine Learning: Chapter 5: Support Vector Machines
32 pages
Experiment 2
No ratings yet
Experiment 2
4 pages
7 Practicals With Python Practice With Data Science Cookbook
No ratings yet
7 Practicals With Python Practice With Data Science Cookbook
4 pages
Lab Manual
No ratings yet
Lab Manual
7 pages
Experiment 1: Installation of WEKA Tool Aim
No ratings yet
Experiment 1: Installation of WEKA Tool Aim
19 pages
DM Lab Internal
No ratings yet
DM Lab Internal
37 pages
ANN Notes
No ratings yet
ANN Notes
54 pages
Machine Learning Lab File
No ratings yet
Machine Learning Lab File
45 pages
UNIT 4 (MCQS)
No ratings yet
UNIT 4 (MCQS)
13 pages
Tushar Verma 21scse1310012 Data Analysis Using Big Data Tools 21scse1310012 Report
No ratings yet
Tushar Verma 21scse1310012 Data Analysis Using Big Data Tools 21scse1310012 Report
6 pages
Manual PDS Expt No. 7,8,9
No ratings yet
Manual PDS Expt No. 7,8,9
6 pages
ML (Sudhanshu)
No ratings yet
ML (Sudhanshu)
24 pages
Full Stack Datasciece & Ai, Generative Ai, LLM Models
No ratings yet
Full Stack Datasciece & Ai, Generative Ai, LLM Models
26 pages
Lecture 2.1.3 - Hopfield
No ratings yet
Lecture 2.1.3 - Hopfield
10 pages
Machine Learning Syllabus
No ratings yet
Machine Learning Syllabus
4 pages
10.5 DeepRecurrent
No ratings yet
10.5 DeepRecurrent
8 pages
Advance Python
No ratings yet
Advance Python
5 pages
DMC Lab Ex - 1 To 15 (31.03.2024)
No ratings yet
DMC Lab Ex - 1 To 15 (31.03.2024)
52 pages
Hierarchical and Partitional Clustering
No ratings yet
Hierarchical and Partitional Clustering
3 pages
Recent Trends in IT Practical Solutions
No ratings yet
Recent Trends in IT Practical Solutions
11 pages
ML Lab
No ratings yet
ML Lab
30 pages
ML Lab Manual Completed
No ratings yet
ML Lab Manual Completed
56 pages
Class Xii PDF For Practical
No ratings yet
Class Xii PDF For Practical
24 pages
R23!3!1 DWDM Final Syllabus On 21-06-2025
No ratings yet
R23!3!1 DWDM Final Syllabus On 21-06-2025
5 pages
S6 - Data Mining Lab Experiments (Except 1)
No ratings yet
S6 - Data Mining Lab Experiments (Except 1)
6 pages
Assignments For Week 6 2024
No ratings yet
Assignments For Week 6 2024
13 pages
Tushar ML
No ratings yet
Tushar ML
52 pages
DWM Practical
No ratings yet
DWM Practical
12 pages
ML Lab File
No ratings yet
ML Lab File
43 pages
Machine Learning (Se204A) Lab Manual
No ratings yet
Machine Learning (Se204A) Lab Manual
27 pages
This Is A Sample Data For Download The Security Attacks
No ratings yet
This Is A Sample Data For Download The Security Attacks
1 page
Test PDF
No ratings yet
Test PDF
1 page
This Is A Test Page For Download My File
No ratings yet
This Is A Test Page For Download My File
1 page
PP DWDM 4 5
No ratings yet
PP DWDM 4 5
26 pages
Practical File of AI and ML
No ratings yet
Practical File of AI and ML
26 pages
Vamshi ml-1,2
No ratings yet
Vamshi ml-1,2
25 pages
Machine Learning Lab Record Report
No ratings yet
Machine Learning Lab Record Report
38 pages
Lab 02 - Introduction To Pandas
No ratings yet
Lab 02 - Introduction To Pandas
6 pages
ML Lab Manual
No ratings yet
ML Lab Manual
90 pages
Lecture 4
No ratings yet
Lecture 4
64 pages
ML Manual
No ratings yet
ML Manual
21 pages
4 Implementing A GPT Model From Scratch To Generate Text - Build A Large Language Model (From Scratch)
No ratings yet
4 Implementing A GPT Model From Scratch To Generate Text - Build A Large Language Model (From Scratch)
52 pages
ML Shristi File
No ratings yet
ML Shristi File
49 pages
DSBDAlab Manual
No ratings yet
DSBDAlab Manual
116 pages
Machine Learning: Unsupervised Learning Dimensionality Reduction K-Means Clustering
No ratings yet
Machine Learning: Unsupervised Learning Dimensionality Reduction K-Means Clustering
28 pages
Big Data Analysis
No ratings yet
Big Data Analysis
38 pages
Datascience
No ratings yet
Datascience
26 pages
Assignment Class Notes
No ratings yet
Assignment Class Notes
8 pages
OS Journal
No ratings yet
OS Journal
28 pages
DWDM Final Lab Syllabus
No ratings yet
DWDM Final Lab Syllabus
2 pages
Lecture Material 3
No ratings yet
Lecture Material 3
7 pages
Practical Data Analysis Cookbook - Sample Chapter
100% (1)
Practical Data Analysis Cookbook - Sample Chapter
31 pages
ML File Syllabus
No ratings yet
ML File Syllabus
43 pages
ML Priyesha - 778
No ratings yet
ML Priyesha - 778
23 pages
DMW LabFile 0901CS243D11 Swastik
No ratings yet
DMW LabFile 0901CS243D11 Swastik
25 pages
Question Bank Ann
50% (2)
Question Bank Ann
2 pages
DWDM Record Print1
No ratings yet
DWDM Record Print1
100 pages
DBSCAN
No ratings yet
DBSCAN
3 pages
DM Guidelines 14jan2022
No ratings yet
DM Guidelines 14jan2022
5 pages
Artificial Neural Networks
No ratings yet
Artificial Neural Networks
11 pages
Paquete
No ratings yet
Paquete
4 pages
Sample Phase 2 Document
No ratings yet
Sample Phase 2 Document
7 pages
Quiz Format mlt4
No ratings yet
Quiz Format mlt4
1 page
Principles of Deep Learning
No ratings yet
Principles of Deep Learning
2 pages
Neural Network and Fuzzy Logic
No ratings yet
Neural Network and Fuzzy Logic
4 pages
Scala Data Analysis Cookbook (new): Navigate the world of data analysis, visualization, and machine learning with over 100 hands-on Scala recipes
From Everand
Scala Data Analysis Cookbook (new): Navigate the world of data analysis, visualization, and machine learning with over 100 hands-on Scala recipes
Arun Manivannan
No ratings yet
Unit - I Computer Networks - Definition:: Request Reply
No ratings yet
Unit - I Computer Networks - Definition:: Request Reply
22 pages
Data Analysis Lab - Final - 23-24
No ratings yet
Data Analysis Lab - Final - 23-24
11 pages
Advance Deep Learning
No ratings yet
Advance Deep Learning
10 pages
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
From Everand
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
Manish Soni
No ratings yet

Data Mining Lab Manual

Uploaded by

Data Mining Lab Manual

Uploaded by

Data Mining Lab Manual with Answers

• WEKA / Orange Data Mining Tool

• SQL for OLAP operations

• Jupyter Notebook / Google Colab

Experiment 4: Implement Apriori algorithm to find frequent itemsets and

Experiment 5: Use FP-Growth algorithm for mining frequent patterns from a

Experiment 6: Implement Naïve Bayes classifier and evaluate it using accuracy,

Experiment 8: Perform classification using K-Nearest Neighbors (KNN) and

Experiment 9: Apply K-Means clustering on a dataset and visualize cluster

Experiment 10: Use Hierarchical clustering and dendrogram visualization

Experiment 11: Perform Principal Component Analysis (PCA) on a high-

Experiment 12: Mini-project: Apply classification/clustering/association on a

You might also like