0% found this document useful (0 votes)

37 views4 pages

Step 1: Finding The Data Set: "Amazon - Reviews - Multilingual - UK - v1 - 00.tsv - GZ" 'RT' "Utf8"

This document summarizes the steps taken in a machine learning project on an Amazon product review dataset. It explores the data, cleans it by converting fields and splits it into training and test sets. It defines features, fits a logistic regression model and calculates the accuracy, finding 76% on both training and test sets. It also calculates true/false metrics and error rates to evaluate the model.

Uploaded by

frankh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

37 views4 pages

Step 1: Finding The Data Set: "Amazon - Reviews - Multilingual - UK - v1 - 00.tsv - GZ" 'RT' "Utf8"

Uploaded by

frankh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

9/24/2020 course3project - Jupyter Notebook

Step 1: Finding the data set

This dataset is an amazon review data. The data set consists of multiple product reviews

In [1]:

import gzip
path = "amazon_reviews_multilingual_UK_v1_00.tsv.gz"
f = gzip.open(path, 'rt', encoding="utf8")

Step 2: Exploring the dataset

The data set consist of multiple entries in the form of market place, customer id etc. Each entitiy represents the
unique charactristics of the product

In [2]:

header = f.readline()
header = header.strip().split('\t')

print(header)

['marketplace', 'customer_id', 'review_id', 'product_id', 'product_parent',

'product_title', 'product_category', 'star_rating', 'helpful_votes', 'total_
votes', 'vine', 'verified_purchase', 'review_headline', 'review_body', 'revi
ew_date']

Step 3: Cleaning the dataset

Here typecasting is used to filter the data required and converting the boolean responses to true and false

In [3]:

dataset = []

In [4]:

for line in f:
fields = line.strip().split('\t')
d = dict(zip(header, fields))
d['star_rating'] = int(d['star_rating'])
d['helpful_votes'] = int(d['helpful_votes'])
d['total_votes'] = int(d['total_votes'])
for field in ['verified_purchase','vine']:
if d[field] == 'Y':
d[field]=True
else:
d[field]=False
dataset.append(d)

localhost:8891/notebooks/course3project.ipynb# 1/4
9/24/2020 course3project - Jupyter Notebook

In [5]:

dataset[20]

Out[5]:

{'marketplace': 'UK',
'customer_id': '20222',
'review_id': 'R3I6A1LWUUVBRE',
'product_id': 'B0002CVQCW',
'product_parent': '281008695',
'product_title': "Les Miserables 10th Anniversary Concert At The Royal Albe
rt Hall (2 Disc Collector's Edition) [DVD]",
'product_category': 'Video DVD',
'star_rating': 5,
'helpful_votes': 0,
'total_votes': 0,
'vine': False,
'verified_purchase': True,
'review_headline': 'some of the best voices in the world',
'review_body': 'I liked it so much I bought it twice just so that I could s
hare it with a friend. Excellant',
'review_date': '2013-02-26'}

Step 4: Dividing the data set

Here the dataset has been divided into two parts. First part is training set, which consists of 80 percentage of
data and the remaining will be used for testing

In [6]:

import random
random.shuffle(dataset)

N = len(dataset)
trainingSet = dataset[:4*N//5]
testingSet = dataset[4*N//5:]

print("Training Set: ",len(trainingSet), "\nTest Set: ",len(testingSet), "\nTotal no.of row

Training Set: 1365995

Test Set: 341499
Total no.of rows 1707494

Step 5: Performing basic operation and refining and

evaluating the model

localhost:8891/notebooks/course3project.ipynb# 2/4
9/24/2020 course3project - Jupyter Notebook

In [7]:

# Defining the feature function and the implementation will be based on star rating and len
from collections import defaultdict
from nltk.stem.porter import PorterStemmer
import string
wordCount = defaultdict(int)
stemmer = PorterStemmer() #use stemmer.stem(stuff)
for d in trainingSet:
f = ''.join([x for x in d['review_body'].lower() if not x in string.punctuation])
for w in f.split():
w = stemmer.stem(w) # with stemming
wordCount[w]+=1

def feature(dat):
feat = [1, dat['star_rating'], len(wordCount)]
return feat

Fitting the model through

creating a vector feature creating a label vector defining a logistic regeression model and fitting the model

In [8]:

from sklearn import preprocessing

from sklearn import linear_model
X_train = [feature(d) for d in trainingSet]
y_train = [d['verified_purchase'] for d in trainingSet]

X_test = [feature(d) for d in testingSet]

y_test = [d['verified_purchase'] for d in testingSet]

scaler = preprocessing.StandardScaler().fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

# print("Label: ", y[:100], "\nFeatures:", X[:10])

model = linear_model.LogisticRegression()
model.fit(X_train_scaled, y_train)

Out[8]:

LogisticRegression()

Calculating the accuracy of the model

localhost:8891/notebooks/course3project.ipynb# 3/4
9/24/2020 course3project - Jupyter Notebook

In [9]:

from sklearn.metrics import confusion_matrix

predictions_train = model.predict(X_train_scaled)
predictions_test = model.predict(X_test_scaled)

correctPredictions_train = predictions_train == y_train

correctPredictions_test = predictions_test == y_test

accuracy_train = sum(correctPredictions_train) / len(correctPredictions_train)*100

accuracy_test = sum(correctPredictions_test) / len(correctPredictions_test)*100

print("Training accuracy: ",round(accuracy_train,2),"%","\nTest accuracy: ",round(accuracy_

print("Confusion matrix: \n",confusion_matrix(y_test, predictions_test))

Training accuracy: 76.23 %

Test accuracy: 76.07 %
Confusion matrix:
[[ 0 81733]
[ 0 259766]]

Finding error rate

In [10]:

TP_train = sum([(p and l) for (p, l) in zip(predictions_train, y_train)])

FP_train = sum([(p and not l) for (p, l) in zip(predictions_train, y_train)])
TN_train = sum([(not p and not l) for (p, l) in zip(predictions_train, y_train)])
FN_train = sum([(not p and l) for (p, l) in zip(predictions_train, y_train)])
TF_accuracy = (TP_train + TN_train) / (TP_train + FP_train + TN_train + FN_train)
BER = 1 - 1/2 * (TP_train / (TP_train + FN_train) + TN_train / (TN_train + FP_train))
print(f'TP_train = {TP_train}')
print(f'FP_train = {FP_train}')
print(f'TN_train = {TN_train}')
print(f'FN_train = {FN_train}')
print(f'TF_Accuracy: {round(TF_accuracy*100,2)}%')
print(f'BER_train = {BER}')

TP_train = 1041287
FP_train = 324708
TN_train = 0
FN_train = 0
TF_Accuracy: 76.23%
BER_train = 0.5

In [ ]:

localhost:8891/notebooks/course3project.ipynb# 4/4

Summer Internship Project Report
100% (1)
Summer Internship Project Report
66 pages
C2W3 Lab 01 Model Evaluation and Selection
No ratings yet
C2W3 Lab 01 Model Evaluation and Selection
21 pages
C2W3 Lab 01 Model Evaluation and Selection
No ratings yet
C2W3 Lab 01 Model Evaluation and Selection
21 pages
Capstone Project - Jaro-Prof. Babji
No ratings yet
Capstone Project - Jaro-Prof. Babji
5 pages
Lesson 3
No ratings yet
Lesson 3
5 pages
Index: Name - JINESH PRAJAPAT Class - B. Tech, III Year Branch - AI & DS Sem - V
No ratings yet
Index: Name - JINESH PRAJAPAT Class - B. Tech, III Year Branch - AI & DS Sem - V
35 pages
Ml-Exp-3 - Jupyter Notebook
No ratings yet
Ml-Exp-3 - Jupyter Notebook
6 pages
A3 Classification and Feature Engineering
No ratings yet
A3 Classification and Feature Engineering
2 pages
C2W3 Lab 02 Diagnosing Bias and Variance
No ratings yet
C2W3 Lab 02 Diagnosing Bias and Variance
11 pages
Data Preprocessing 2
No ratings yet
Data Preprocessing 2
5 pages
Da 012307
No ratings yet
Da 012307
8 pages
DS Food
No ratings yet
DS Food
23 pages
Data Analytics II
No ratings yet
Data Analytics II
4 pages
AI
No ratings yet
AI
16 pages
Chapter04 - Getting Started With Neural Networks
No ratings yet
Chapter04 - Getting Started With Neural Networks
9 pages
05 E RandomForest LoanData
No ratings yet
05 E RandomForest LoanData
8 pages
Wine Classification
No ratings yet
Wine Classification
10 pages
Amazon Product Review - Ipynb - Colaboratory
No ratings yet
Amazon Product Review - Ipynb - Colaboratory
7 pages
Chapter07 Working-With-Keras
No ratings yet
Chapter07 Working-With-Keras
12 pages
Multi Classification - Py (For 1 Class TP, TN, FP, FN)
No ratings yet
Multi Classification - Py (For 1 Class TP, TN, FP, FN)
25 pages
AI Lab - Manual - 136
No ratings yet
AI Lab - Manual - 136
17 pages
To Improve The Performance of Models Predicting Ba
No ratings yet
To Improve The Performance of Models Predicting Ba
6 pages
Ann Experiential Learning
No ratings yet
Ann Experiential Learning
43 pages
T3 Bda
No ratings yet
T3 Bda
27 pages
Lab08 ML
No ratings yet
Lab08 ML
6 pages
ChatGPT - Auto Classification TensorFlow
No ratings yet
ChatGPT - Auto Classification TensorFlow
38 pages
Dwdm-Lab Manual
No ratings yet
Dwdm-Lab Manual
39 pages
TP - Ipynb - Colab
No ratings yet
TP - Ipynb - Colab
6 pages
DL Exp-10,11,12
No ratings yet
DL Exp-10,11,12
6 pages
MiniProject - ML - Ipynb - Colaboratory
No ratings yet
MiniProject - ML - Ipynb - Colaboratory
26 pages
Jupyter Lab
No ratings yet
Jupyter Lab
42 pages
ML Priyesha - 778
No ratings yet
ML Priyesha - 778
23 pages
41 Perusse Alexander Aperusse PDF
No ratings yet
41 Perusse Alexander Aperusse PDF
7 pages
Exercise - 3: DS203-2024-S1 Roll Number: 23B2215
No ratings yet
Exercise - 3: DS203-2024-S1 Roll Number: 23B2215
25 pages
DL 3
No ratings yet
DL 3
5 pages
Bayesian Algorithm
No ratings yet
Bayesian Algorithm
6 pages
TD2345
No ratings yet
TD2345
3 pages
CP4252 Machine Learning Lab Manual
No ratings yet
CP4252 Machine Learning Lab Manual
26 pages
DA Practicle Answers Easyw
No ratings yet
DA Practicle Answers Easyw
30 pages
Unit2 ML Programs
No ratings yet
Unit2 ML Programs
7 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
22 pages
30 Days ML Projects Challenge
No ratings yet
30 Days ML Projects Challenge
288 pages
Machine Learning Laboratory Manual
No ratings yet
Machine Learning Laboratory Manual
11 pages
Machine Learning Hands-On
100% (1)
Machine Learning Hands-On
18 pages
1 - Data Preprocessing and Cleaning - 55
No ratings yet
1 - Data Preprocessing and Cleaning - 55
8 pages
Assignment 3 DS5620
No ratings yet
Assignment 3 DS5620
11 pages
Btech1007022 Lab5
No ratings yet
Btech1007022 Lab5
14 pages
ML Lab Programs
No ratings yet
ML Lab Programs
9 pages
Dsbda 5
No ratings yet
Dsbda 5
4 pages
Linear Regression
No ratings yet
Linear Regression
3 pages
AI Lab M.Tech
No ratings yet
AI Lab M.Tech
29 pages
Machine Learning
No ratings yet
Machine Learning
3 pages
Slides On DataI
No ratings yet
Slides On DataI
33 pages
AAM PR QB
No ratings yet
AAM PR QB
13 pages
Important Questions
No ratings yet
Important Questions
4 pages
Answer
No ratings yet
Answer
5 pages
Assignment 3-PDS Python-24S3
No ratings yet
Assignment 3-PDS Python-24S3
5 pages
Btech1007022 Lab5.1
No ratings yet
Btech1007022 Lab5.1
9 pages
Project - Machine Learning-Business Report: By: K Ravi Kumar PGP-Data Science and Business Analytics (PGPDSBA.O.MAR23.A)
No ratings yet
Project - Machine Learning-Business Report: By: K Ravi Kumar PGP-Data Science and Business Analytics (PGPDSBA.O.MAR23.A)
38 pages
Machine Learning LAB
No ratings yet
Machine Learning LAB
20 pages
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Written Assignment Unit 7: Abstract
No ratings yet
Written Assignment Unit 7: Abstract
3 pages
Bus 2201: Principles of Marketing
No ratings yet
Bus 2201: Principles of Marketing
2 pages
Written Assignment Unit 7: Abstract
No ratings yet
Written Assignment Unit 7: Abstract
3 pages
A. Describe in Detail The Advantages and Disadvantages of Renting Versus Owning A Home
No ratings yet
A. Describe in Detail The Advantages and Disadvantages of Renting Versus Owning A Home
2 pages
Written Assignment
No ratings yet
Written Assignment
7 pages
This Study Resource Was: Module 2 - Assignment 2
No ratings yet
This Study Resource Was: Module 2 - Assignment 2
3 pages
Written Assignment Unit 1: Business Net Types University of The People BUS 2202 E-Commerce Instructor Richard Cline 16 November, 2020
No ratings yet
Written Assignment Unit 1: Business Net Types University of The People BUS 2202 E-Commerce Instructor Richard Cline 16 November, 2020
5 pages
About The Dataset - Car Evaluation Dataset (UCI Machine Learning Repository
No ratings yet
About The Dataset - Car Evaluation Dataset (UCI Machine Learning Repository
5 pages
Final Project Making Predictions From Data-Course 2: October 6, 2020
No ratings yet
Final Project Making Predictions From Data-Course 2: October 6, 2020
20 pages
University of The People Course Bus 2204 Topic: Personal Financial Planning Instructor: Madam Schaffert
No ratings yet
University of The People Course Bus 2204 Topic: Personal Financial Planning Instructor: Madam Schaffert
4 pages
University of The People BUS 2201 - AY2021-T2 Principles of Marketing Written Assignment Unit 1 Instructor DR Linda Howe Date: November 14, 2020
No ratings yet
University of The People BUS 2201 - AY2021-T2 Principles of Marketing Written Assignment Unit 1 Instructor DR Linda Howe Date: November 14, 2020
5 pages
What Makes A Good Abstract
No ratings yet
What Makes A Good Abstract
3 pages
Information Regarding Sales Made in Real Estate in A Tabular Format
No ratings yet
Information Regarding Sales Made in Real Estate in A Tabular Format
13 pages
Data Exploration
No ratings yet
Data Exploration
4 pages
Journal. Retrieved From: References
No ratings yet
Journal. Retrieved From: References
1 page
Case Application 1-b
No ratings yet
Case Application 1-b
2 pages
STULZ CyberRow DX Engineering Manual QEWR002G
No ratings yet
STULZ CyberRow DX Engineering Manual QEWR002G
20 pages
2017 Book EndodonticPrognosis
100% (1)
2017 Book EndodonticPrognosis
250 pages
Notif VO BVO 06 2024 23082024
No ratings yet
Notif VO BVO 06 2024 23082024
1 page
Global Maritime Distress and Safety System (GMDSS) : Companies Can Opt For Block Booking
100% (1)
Global Maritime Distress and Safety System (GMDSS) : Companies Can Opt For Block Booking
1 page
Prlog
No ratings yet
Prlog
10 pages
Framemaker Has Two Ways of Approaching Documents: and Unstructured
No ratings yet
Framemaker Has Two Ways of Approaching Documents: and Unstructured
3 pages
Corporate Governance in GE
No ratings yet
Corporate Governance in GE
19 pages
Import / Export Permit Application Form: or FAX To: 9637 8475
No ratings yet
Import / Export Permit Application Form: or FAX To: 9637 8475
2 pages
Choosing Between "Component" and "Cartridge" Mechanical Seals
No ratings yet
Choosing Between "Component" and "Cartridge" Mechanical Seals
3 pages
Project Team Building, Conflict, and Negotiation
No ratings yet
Project Team Building, Conflict, and Negotiation
9 pages
IFD5 Manual - Issue 5
No ratings yet
IFD5 Manual - Issue 5
21 pages
Visionis Biometric Solutions Vis 3015 Vis 3016 Vis 3013 ENG
No ratings yet
Visionis Biometric Solutions Vis 3015 Vis 3016 Vis 3013 ENG
14 pages
Practise Questions For Test 2
No ratings yet
Practise Questions For Test 2
10 pages
Stiffened Round
100% (1)
Stiffened Round
16 pages
FORM No. 35: (See Rule 69 (8) (Iii) ) Report of Examination of Water-Sealed Gasholder
No ratings yet
FORM No. 35: (See Rule 69 (8) (Iii) ) Report of Examination of Water-Sealed Gasholder
1 page
Imaging and Design For The Online Environment: CS - ICT11/12-ICTPT-Ie-f-6
No ratings yet
Imaging and Design For The Online Environment: CS - ICT11/12-ICTPT-Ie-f-6
49 pages
WEEK5 DLL ENGLISH
100% (1)
WEEK5 DLL ENGLISH
11 pages
Transportation Engg: Compiled By: Engr Muhammad Abbas Khan
No ratings yet
Transportation Engg: Compiled By: Engr Muhammad Abbas Khan
9 pages
Applied Entrepreneurship Prototype Lesson Plan Module 2 Q4
No ratings yet
Applied Entrepreneurship Prototype Lesson Plan Module 2 Q4
5 pages
E Chapter
No ratings yet
E Chapter
6 pages
IDFL Standards - European Sleeping Bag Labeling Info EN13537 Information For Consumers Jan 05
No ratings yet
IDFL Standards - European Sleeping Bag Labeling Info EN13537 Information For Consumers Jan 05
5 pages
School Action Plan For Literacy Catch-Up Sessions
No ratings yet
School Action Plan For Literacy Catch-Up Sessions
7 pages
Mclaren Watch - Google Search
No ratings yet
Mclaren Watch - Google Search
1 page
10 Vallarta v. CA
No ratings yet
10 Vallarta v. CA
2 pages
Data Mining Cat
No ratings yet
Data Mining Cat
6 pages
Module 8 Tle
No ratings yet
Module 8 Tle
13 pages
Msafdzp 2025 Package
No ratings yet
Msafdzp 2025 Package
30 pages
Fiber Optics Communication en
No ratings yet
Fiber Optics Communication en
50 pages