0% found this document useful (0 votes)

1 views24 pages

Data Warehousing and Data Mining

The document outlines a series of labs focused on data science techniques using Python, specifically with Anaconda. It includes detailed instructions for installing Python, data preprocessing methods, and implementations of algorithms such as Apriori, FP-growth, and K-means clustering. Each lab consists of source code examples and explanations for performing data analysis and machine learning tasks.

Uploaded by

Supriya Shrestha

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

1 views24 pages

Data Warehousing and Data Mining

Uploaded by

Supriya Shrestha

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 24

LAB 1: Installing Python 3 (Anaconda) for Lab Preparation

Following are the steps to install the python 3 (Anaconda).

1. Download from Anaconda’s official website.

https://www.anaconda.com/products/individual
2. After successful download, open the file location and double click on the downloaded
file. The step-Up wizard appear. Click on next.

3. The License Agreement terms will open. Read it thoroughly and click on “I Agree”.
4. Checkmark the just me and click next.

5. Now, select the installation location. Click next.

6. Register with default Installed Python. Then Click insall.

7. This will install Anaconda on your system.

8. Click next (skip).

9. Click next then finish.

LAB 2: Data Preprocessing and Cleaning
Source Code:
import pandas as pd
import numpy as np
from IPython.display import display_html
#matplotlib inline #This line is commented out, as it's often used in interactive environments like
Jupyter notebooks
def discretization(data):
print("Discretizing 'Clump Thickness' attribute of the breast cancer dataset")
print("Visualizing distribution of attribute value")
print(data['Clump Thickness'].value_counts(sort=False))
print("For the equal width method, the cut() function can be used to discretize into 4 bins of
similar interval widths.")
print("The value_counts() function can be used to determine the number of instances in each
bin.")
bins = pd.cut(data['Clump Thickness'], 4)
print(bins.value_counts(sort=False))
print("For the equal frequency method, the qcut() function can be used to partition the values
into 4 bins such that each bin has nearly the same number of instances.")
bins = pd.qcut(data['Clump Thickness'], 4)
print(bins.value_counts(sort=False))

def sampling(data):
print("Displaying the first five records of the table Without Sampling.")
print(data.head())
print("A sample of size 3 is randomly selected (without replacement) from the original data.")
sample = data.sample(n=3)
print(sample)
print("Randomly select 1% of the data (without replacement) and display the selected
samples.")
sample = data.sample(frac=0.01, random_state=1)
print(sample)
print("A sampling with replacement to create a sample whose size is equal to 1% of the entire
data.")
sample = data.sample(frac=0.01, replace=True, random_state=1)
print(sample)

defremove_duplicate(data):
dups = data.duplicated()
print(f"Number of duplicate rows = {dups.sum()}")
print(data.loc[[11, 28]])
print(f'Number of rows before discarding duplicates = {data.shape[0]}')
data2 = data.drop_duplicates()
print(f'Number of rows after discarding duplicates = {data2.shape[0]}')

def outlier(data):
data2 = data.drop(['Class'], axis=1)
data2['Bare Nuclei'] = pd.to_numeric(data2['Bare Nuclei'])
Z = (data2 - data2.mean()) / data2.std()
print(Z[20:25])
print(f'Number of rows before discarding outliers = {Z.shape[0]}')
Z2 = Z.loc[((Z > -3).sum(axis=1) == 9) & ((Z <= 3).sum(axis=1) == 9), :]
print(f'Number of rows after discarding missing values = {Z2.shape[0]}')

defremove_missing(data):
print(f'Number of rows in original data = {data.shape[0]}')
data = data.dropna()
print(f'Number of rows after discarding missing values = {data.shape[0]}')

defreplace_missing_value_by_median(data):
data2 = data['Bare Nuclei']
print('Before replacing missing values:')
print(data2[20:25])
data2 = data2.fillna(data2.median())
print("\nAfter replacing missing values by median:")
print(data2[20:25])

defnoise_handle(data):
data = data.drop(['Sample code'], axis=1)
data = data.replace('?', np.NaN)
print("Number of instances = %d" % (data.shape[0]))
print("Number of attributes = %d" % (data.shape[1]))
print('Number of missing values:')
for col in data.columns:
print("\t%s: %d" % (col, data[col].isna().sum()))
print("To further preprocess select option:\n"
"0. Exit\n"
"1. Replace missing value by median\n"
"2. Remove missing value\n"
"3. Handle outlier\n"
"4. Remove duplicate\n"
"5. Sampling\n"
"6. Discretization:")

option = int(input())
while option != 0:
if option == 1:
replace_missing_value_by_median(data)
elif option == 2:
remove_missing(data)
elif option == 3:
outlier(data)
elif option == 4:
remove_duplicate(data)
elif option == 5:
sampling(data)
elif option == 6:
discretization(data)
else:
print("Enter correct choice")
print("Select your option again:")
option = int(input())

def view(data):
data.head()
print('Number of instances = %d' % (data.shape[0]))
print('Number of attributes = %d' % (data.shape[1]))
LAB 3: Implementing Apriori Algorithm
Source Code:

import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules
from IPython.display import display, HTML

deftoy_dataset():
data = [
['Milk', 'Onion', 'Nutmeg', 'Kidney Beans', 'Eggs', 'Yogurt'],
['Dill', 'Onion', 'Nutmeg', 'Kidney Beans', 'Eggs', 'Yogurt'],
['Milk', 'Apple', 'Kidney Beans', 'Eggs'],
['Milk', 'Unicorn', 'Corn', 'Kidney Beans', 'Yogurt'],
['Corn', 'Onion', 'Onion', 'Kidney Beans', 'Ice cream', 'Eggs']
]
print("Do you want to view the raw data?")
choice = input()
if choice.lower() == 'yes':
print("Raw Data:")
print(data)
te = TransactionEncoder()
te_ary = te.fit(data).transform(data)
df = pd.DataFrame(te_ary, columns=te.columns)
print("Do you want to view the Encoded data?")
choice = input()
if choice.lower() == 'yes':
print("Encoded Data:")
display(HTML(df.to_html()))
return df

deffrequent_itemset(data):
print("Enter the value of minimum support threshold")
support = float(input())
frequent_itemsets = apriori(data, min_support=support, use_colnames=True)
print("Do you want to view frequent itemsets generated by Apriori?")
choice = input()
if choice.lower() == 'yes':
print("Frequent itemset:")
display(HTML(frequent_itemsets.to_html()))
returnfrequent_itemsets

if __name__ == '__main__':
df = toy_dataset()
if df is not None:
frequent_itemsets(df)

defassociation_rule(frequent_itemsets):
print("Enter your metric of interest ('confidence' or 'lift'):")
choice = input()
if choice == 'confidence':
print("Enter minimum confidence threshold value:")
min_confidence = float(input())
rule = association_rules(frequent_itemsets, metric="confidence",
min_threshold=min_confidence)
elif choice == 'lift':
print("Enter minimum lift threshold value:")
min_lift = float(input())
rule = association_rules(frequent_itemsets, metric="lift", min_threshold=min_lift)
else:
print("Invalid choice.")

return
print("Do you want to view the learned association rules? (yes/no)")
choice = input()
if choice == 'yes':
print(rule.drop(['leverage','conviction'], axis=1))
else:

quit()

quit()
LAB 4: Implementing FP-growth
Source Code:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import fpgrowth
from mlxtend.frequent_patterns import association_rules
from IPython.display import display_html
deftoy_dataset():
data= [['Milk', 'Onion', 'Nutmeg', 'Kidney Beans', 'Eggs', 'Yogurt'],
['Dill', 'Onion', 'Nutmeg', 'Kidney Beans', 'Eggs', 'Yogurt'],
['Milk', 'Apple', 'Kidney Beans', 'Eggs'],
['Milk', 'Unicorn', 'Corn', 'Kidney Beans', 'Yogurt'],
['Corn', 'Onion', 'Onion', 'Kidney Beans', 'Ice cream', 'Eggs']]
print("Do you want to view the raw data?")
choice =input()
if choice=='yes':
print("Raw Data:")
print(data)
te = TransactionEncoder()
te_ary = te.fit(data).transform(data)
df = pd.DataFrame(te_ary, columns=te.columns_)
print("Do you want to view the Encoded data?")
choice =input()
if choice=='yes':
print("Encoded Data:")
display_html(df)
return df

deffrequent_itemset(data):
print("Enter the value of minimum support threshold:")
support=float(input())
frequent_itemsets = fpgrowth(data, min_support=support, use_colnames=True)
print("Do you want to view frequent itemsets generated by FP-growth?")
choice =input()
if choice=='yes':
print(frequent_itemsets)
display_html(frequent_itemsets)
return frequent_itemsets
defassociation_rule(frequent_itemsets):
print("Enter your metric of interest confidence or lift:")
choice = input()
if choice == 'confidence':
print("Enter minimum confidence threshold value:")
min_confidence = float(input())
rule = association_rules(frequent_itemsets, metric="confidence",
min_threshold=min_confidence)
elif choice == 'lift':
print("Enter minimum lift threshold value:")
min_lift = float(input())
rule = association_rules(frequent_itemsets, metric="lift", min_threshold=min_lift)
print("Do you want to view the learned association rules?")
choice = input()
if choice == 'yes':
display_html(rule.drop(['leverage', 'conviction'], axis=1))
else:
quit()

def main():
data = toy_dataset()
frequent_itemsets = frequent_itemset(data)
association_rule(frequent_itemsets)

main()

# Input/Output: Sample Run 1

# Do you want to view the raw data?
# no
# Do you want to view the Encoded data?
# no
# Enter the value of minimum support threshold:
# 0.6
# Do you want to view frequent itemsets generated by FP-growth?
# yes# yes
Enter your metric of interest confidence or lift:
confidence
Enter minimum confidence threshold value:
0.75
Do you want to view the learned association rules?
Yes
Input/Output: Sample Run 2
Do you want to view the raw data?
no
Do you want to view the Encoded data?
no
Enter the value of minimum support threshold:
0.6
Do you want to view frequent itemsets generated by FP-growth?
no
Enter your metric of interest confidence or lift:
lift
Enter minimum lift threshold value:
1.2
Do you want to view the learned association rules?
Yes
LAB 5: Implementing K-means Algorithm
Source code:
import pandas as pd
import numpy as np
from IPython.display import display_html
from sklearn.cluster import KMeans

deftoy_dataset():
ratings = [['Lokesh',5,5,2,1],['Jyoti',4,5,3,2],['Bijay',4,4,4,3],['Sita',2,2,4,5],
['Manish',1,2,3,4],['Ram',2,1,5,5]]
titles = ['user', 'Loot', 'Chino', 'Ghar','Aatma']
movies = pd.DataFrame(ratings,columns=titles)
display_html(movies)
return movies

defk_means_learn(k,movies):
data = movies.drop('user',axis=1)
k_means = KMeans(n_clusters=2, max_iter=50, random_state=1, n_init = 'auto')
k_means.fit(data)
labels = k_means.labels_
print(pd.DataFrame(labels, index=movies.user, columns=['Cluster ID']))
print("Learned cluster centroids for two clusters 0 and 1:")
centroids = k_means.cluster_centers_
display_html(pd.DataFrame(centroids,columns=data.columns))
print("Now you can use cluster centroids to other users to determine their cluster
assignments.")
return(k_means)

defcluster_new_data(k_means, movies):
testData = np.array([[4.5,1,2],[3,2,4,4],[2,3,4,1],[3,2,3,3],[5,4,1,4]])
labels = k_means.predict(testData)
labels = labels.reshape(-1,1)
usernames = np.array(['Radhe', 'Riya', 'Pratik','Prativa', 'Shyam']).reshape(-1,1)
cols = movies.columns.tolist()
newusers = pd.DataFrame(np.concatenate((usernames, testData), axis=1),columns=cols)
cols.append('Assigned Cluster')
newusers_cluster = pd.DataFrame(np.concatenate((usernames, testData, labels), axis=1),
columns =cols)
print("Your New users (test data) are:")
display_html(newusers)
print("New Users with their assigned cluster:")
display_html(newusers_cluster)
def main():
k=2
movies = toy_dataset()
k_means = k_means_learn(k,movies)
cluster_new_data(k_means, movies)

if __name__ == "__main__":
main()
Input/Output

Learned Cluster Centroids for Two Clusters (0 and 1)

Now, the trained model will classify new users based on the learned cluster centroids. The test dataset
contains the following users:
Source Code

importnumpyasnp
import pandas aspdimport
matplotlib.pyplotasplt
%matplotlib inline
importsys
importnumpyasnp
importmatplotlib.pyplotasplt

mean_01 = np.array([0.0, 0.0])

cov_01 = np.array([[1, 0.3], [0.3, 1]])
dist_01 = np.random.multivariate_normal(mean_01, cov_01, 100)
mean_02 = np.array([6.0, 7.0])
cov_02 = np.array([[1.5, 0.3], [0.3, 1]])
dist_02 = np.random.multivariate_normal(mean_02, cov_02, 100)
mean_03 = np.array([7.0, -5.0])
cov_03 = np.array([[1.2, 0.5], [0.5, 1.3]])
dist_03 = np.random.multivariate_normal(mean_03, cov_03, 100)
mean_04 = np.array([2.0, -7.0])
cov_04 = np.array([[1.2, 0.5], [0.5, 1.3]])
dist_04 = np.random.multivariate_normal(mean_04, cov_04, 100)
data = np.vstack((dist_01, dist_02, dist_03, dist_04))
np.random.shuffle(data)

defplot(data, centroids):
plt.scatter(data[:, 0], data[:, 1], marker='.', color='gray', label='data points')
plt.scatter(centroids[:-1, 0], centroids[:-1, 1], color='black', label='previously selected centroids')
plt.scatter(centroids[-1, 0], centroids[-1, 1], color='red', label='next centroid')
plt.title('Select %d th centroid' % (centroids.shape[0]))
plt.legend()
plt.xlim(-5, 12)
plt.ylim(-10, 15)
plt.show()

defdistance(p1, p2):
returnnp.sum((p1 - p2)**2)

definitialize(data, k):
centroids = []
centroids.append(data[np.random.randint(data.shape[0]), :])
plot(data, np.array(centroids))
forc_idin range(k - 1):
dist = []
foriin range(data.shape[0]):
point = data[i:]
d=sys.maxsize
for j in range(len(centroids)):
temp_dist distance(point, centroids[j])
d=min(d, temp_dist)
dist.append(d)
distnp.array(dist)
next_centroid = data[np.argmax(dist),:]
centroids.append(next_centroid)
dist[]
plot(data, np.array(centroids))
return centroids
entroids initialize(data, k = 4)

(Feature Engineering) (Extended-Cheatsheet)
No ratings yet
(Feature Engineering) (Extended-Cheatsheet)
9 pages
Pattern Recognition Lab
No ratings yet
Pattern Recognition Lab
24 pages
How To Open A Chess Game-Evans, Larry
92% (13)
How To Open A Chess Game-Evans, Larry
249 pages
DWDM Lab Report
No ratings yet
DWDM Lab Report
26 pages
S6 - Data Mining Lab Experiments (Except 1)
No ratings yet
S6 - Data Mining Lab Experiments (Except 1)
6 pages
Code:: To Find Frequent Itemsets and Association Between Different Itemsets Using Apriori Algorithm
No ratings yet
Code:: To Find Frequent Itemsets and Association Between Different Itemsets Using Apriori Algorithm
28 pages
ML Lab Record
No ratings yet
ML Lab Record
33 pages
ML Lab File Batch 1
No ratings yet
ML Lab File Batch 1
20 pages
HIV Regression Source Code
No ratings yet
HIV Regression Source Code
26 pages
Indexdw
No ratings yet
Indexdw
34 pages
Algorithm
No ratings yet
Algorithm
8 pages
Ashwin Report
No ratings yet
Ashwin Report
18 pages
DA Programs
No ratings yet
DA Programs
44 pages
DA Lab
No ratings yet
DA Lab
27 pages
Aiml Programs
No ratings yet
Aiml Programs
12 pages
Machine File
No ratings yet
Machine File
27 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
DMC Lab Ex - 1 To 15 (31.03.2024)
No ratings yet
DMC Lab Ex - 1 To 15 (31.03.2024)
52 pages
ML Lab Codes
No ratings yet
ML Lab Codes
14 pages
Machine Learning Laboratory Manual
No ratings yet
Machine Learning Laboratory Manual
11 pages
DataAnalytics Lab Manual
No ratings yet
DataAnalytics Lab Manual
35 pages
Code MLT
No ratings yet
Code MLT
9 pages
Abc
No ratings yet
Abc
5 pages
ASSi2 DSBDA
No ratings yet
ASSi2 DSBDA
4 pages
Tanu Raman ML Lab File
No ratings yet
Tanu Raman ML Lab File
21 pages
15CSL76 Students
No ratings yet
15CSL76 Students
18 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
9 pages
DA Assignment
No ratings yet
DA Assignment
18 pages
BDA Experiments
No ratings yet
BDA Experiments
41 pages
Prac7 8 9 10
No ratings yet
Prac7 8 9 10
12 pages
DMT Cia2
No ratings yet
DMT Cia2
11 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
18 pages
MLFILE
No ratings yet
MLFILE
21 pages
Mlalllabprgs
No ratings yet
Mlalllabprgs
17 pages
Advance Python
No ratings yet
Advance Python
5 pages
Roll NO 2020
No ratings yet
Roll NO 2020
8 pages
Pattern Recognition
No ratings yet
Pattern Recognition
26 pages
Exp-2 ML
No ratings yet
Exp-2 ML
6 pages
Data Cleaning
No ratings yet
Data Cleaning
22 pages
DWDM Lab Manual 28.04.25-9-14
No ratings yet
DWDM Lab Manual 28.04.25-9-14
6 pages
External
No ratings yet
External
11 pages
MACHINE LEARNING Manual
No ratings yet
MACHINE LEARNING Manual
36 pages
ML Labmanual
No ratings yet
ML Labmanual
33 pages
Cardio Screen RF
100% (1)
Cardio Screen RF
27 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
26 pages
ML Complete Notes Hridoy
No ratings yet
ML Complete Notes Hridoy
5 pages
Final ML File
No ratings yet
Final ML File
34 pages
Apriori
No ratings yet
Apriori
5 pages
DM Lab Internal
No ratings yet
DM Lab Internal
37 pages
ML Short Code - Under Updating
No ratings yet
ML Short Code - Under Updating
4 pages
Page Rank
No ratings yet
Page Rank
7 pages
Exp 2
No ratings yet
Exp 2
6 pages
Heart Disease Diagnosis Using Machine Learning
No ratings yet
Heart Disease Diagnosis Using Machine Learning
26 pages
Da Lab Mannual
No ratings yet
Da Lab Mannual
25 pages
D3 Docs
No ratings yet
D3 Docs
6 pages
ML Shristi File
No ratings yet
ML Shristi File
49 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
43 pages
ML (Sudhanshu)
No ratings yet
ML (Sudhanshu)
24 pages
MLLab Manual
No ratings yet
MLLab Manual
24 pages
Batch1 Ds
No ratings yet
Batch1 Ds
15 pages
Python For Beginners
From Everand
Python For Beginners
Célio Azevedo
No ratings yet
Final Kanban Bug Report
No ratings yet
Final Kanban Bug Report
56 pages
SPM Lab Report Hari Rijal
No ratings yet
SPM Lab Report Hari Rijal
21 pages
ISTQB Answers Question
No ratings yet
ISTQB Answers Question
23 pages
Online Shopping System SRS
No ratings yet
Online Shopping System SRS
17 pages
Kristheeya Keerthanagal Manglish (1
No ratings yet
Kristheeya Keerthanagal Manglish (1
1 page
12th Prize List
No ratings yet
12th Prize List
9 pages
Module 1
No ratings yet
Module 1
79 pages
Let It Be
No ratings yet
Let It Be
1 page
Conduct Discipline Rules Urdu English Hindi
No ratings yet
Conduct Discipline Rules Urdu English Hindi
33 pages
5volt: Dream 6800 Power Supply
No ratings yet
5volt: Dream 6800 Power Supply
1 page
Diamond National Packers & Moovers
No ratings yet
Diamond National Packers & Moovers
3 pages
HRA Circular On Transfer
No ratings yet
HRA Circular On Transfer
3 pages
Supermarkets List
No ratings yet
Supermarkets List
4 pages
NB Laporan November 07
No ratings yet
NB Laporan November 07
351 pages
NIA Aviation Sample Test
No ratings yet
NIA Aviation Sample Test
4 pages
Through The Looking-Glass - Lewis Carroll
No ratings yet
Through The Looking-Glass - Lewis Carroll
89 pages
Queen Moves Chess
No ratings yet
Queen Moves Chess
4 pages
ข้อสอบคณิตศาสตร์ ASMOPSS 2023 ป.3 ชุด B
No ratings yet
ข้อสอบคณิตศาสตร์ ASMOPSS 2023 ป.3 ชุด B
8 pages
Jeroen Bosch: Pawn Chain and Kingside Attack: Concept
No ratings yet
Jeroen Bosch: Pawn Chain and Kingside Attack: Concept
9 pages
Deliberate Practive Research
No ratings yet
Deliberate Practive Research
4 pages
(종합보고서1) 2019한국관광해외광고마케팅커뮤니케이션효과조사결과보고서
No ratings yet
(종합보고서1) 2019한국관광해외광고마케팅커뮤니케이션효과조사결과보고서
269 pages
Oroko Medley 1
No ratings yet
Oroko Medley 1
1 page
Savidhan Hatya Diwas
No ratings yet
Savidhan Hatya Diwas
1 page
2007 Camry Tvip V4 Remote Engine Starter (Res) (Without Smart Key System) Electrical Wiring Diagram (Ewd)
No ratings yet
2007 Camry Tvip V4 Remote Engine Starter (Res) (Without Smart Key System) Electrical Wiring Diagram (Ewd)
2 pages
Esquema Elétrico Oneal Opb7060
No ratings yet
Esquema Elétrico Oneal Opb7060
4 pages
LPCX5411x Schematic A
No ratings yet
LPCX5411x Schematic A
6 pages
Chivalry Rules
No ratings yet
Chivalry Rules
3 pages
Dream It - BEXTER
No ratings yet
Dream It - BEXTER
1 page
15 Femdom Sissy Rules
No ratings yet
15 Femdom Sissy Rules
2 pages
Tools, Equipment & Vehicles
No ratings yet
Tools, Equipment & Vehicles
2 pages
JEE ADVANCE Revision (2023) : Permutations and Combinations
No ratings yet
JEE ADVANCE Revision (2023) : Permutations and Combinations
3 pages
Latihan Soal SAS Kelas 1
No ratings yet
Latihan Soal SAS Kelas 1
3 pages
The Sniper Play 1 g6 Bg7 and c5 First Edition: Charlie Storey
No ratings yet
The Sniper Play 1 g6 Bg7 and c5 First Edition: Charlie Storey
77 pages

Data Warehousing and Data Mining

Uploaded by

Data Warehousing and Data Mining

Uploaded by

LAB 1: Installing Python 3 (Anaconda) for Lab Preparation

Following are the steps to install the python 3 (Anaconda).

1. Download from Anaconda’s official website.

5. Now, select the installation location. Click next.

7. This will install Anaconda on your system.

9. Click next then finish.

# Input/Output: Sample Run 1

Learned Cluster Centroids for Two Clusters (0 and 1)

mean_01 = np.array([0.0, 0.0])

You might also like