100% found this document useful (1 vote)

6K views4 pages

Unstructtured Data Classification Fresco

The document loads IMDB movie review data, preprocesses it by tokenizing, lemmatizing, removing stop words, and splits it into training and test sets. It then applies two classifiers - an SVM classifier and an SGD classifier - to the training data and evaluates their performance on the test set. Key steps include data loading and preprocessing, feature extraction using CountVectorizer, model training on the training set, and evaluation on the test set.

Uploaded by

sujesh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

100% found this document useful (1 vote)

6K views4 pages

Unstructtured Data Classification Fresco

Uploaded by

sujesh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 4

#Data Loading

imdb=pd.read_csv('imdb.csv')
imdb.columns = ["index","text","label"]
print(imdb.head(5))

-------------------------------------------------------------

data_size = imdb.shape

print(data_size)

imdb_col_names = list(imdb.columns)

print(imdb_col_names)
print(imdb.groupby('label').describe())
print(imdb.head(3))

-------------------------------------------------------------

imdb_target=imdb['label']

print(imdb_target)

-------------------------------------------------------------

from nltk.tokenize import word_tokenize

import nltk
nltk.download('all')

def split_tokens(text):

message = text.lower()

word_tokens = word_tokenize(text)

return word_tokens

imdb['tokenized_message'] = imdb.apply(lambda row:split_tokens(row['text']),axis=1)

-------------------------------------------------------------

from nltk.stem.wordnet import WordNetLemmatizer

def split_into_lemmas(text):

lemma = []

lemmatizer = WordNetLemmatizer()

for word in text:

a=lemmatizer.lemmatize(word)

lemma.append(a)

return lemma
imdb['lemmatized_message'] = imdb.apply(lambda row:
split_into_lemmas(row['tokenized_message']),axis=1)

print('Tokenized message:', imdb['tokenized_message'][55] )

print('Lemmatized message:', imdb['lemmatized_message'][55])

-------------------------------------------------------------

from nltk.corpus import stopwords

def stopword_removal(text):

stop_words = set(stopwords.words('english'))

filtered_sentence = []

filtered_sentence = ' '.join([word for word in text if word not in stop_words])

return filtered_sentence

imdb['preprocessed_message'] = imdb.apply(lambda row:

stopword_removal(row['lemmatized_message']),axis=1)

print('Preprocessed message:',imdb['preprocessed_message'])

Training_data=pd.Series(list(imdb['preprocessed_message']))

Training_label=pd.Series(list(imdb['label']))

-------------------------------------------------------------

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

training_data=pd.Series(list(imdb['preprocessed_message']))

training_label=pd.Series(list(imdb['label']))

tf_vectorizer = CountVectorizer(ngram_range=(1,2),min_df=(1/len(Training_label)),
max_df=0.7)

Total_Dictionary_TDM = tf_vectorizer.fit(Training_data)

message_data_TDM = Total_Dictionary_TDM.transform(training_data)

-------------------------------------------------------------
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer( ngram_range = (1,2), min_df =

(1/len(training_label)),max_df=0.7 )

Total_Dictionary_TFIDF = tfidf_vectorizer.fit(training_data)

message_data_TFIDF = Total_Dictionary_TFIDF.transform(training_data)

-------------------------------------------------------------

from sklearn.model_selection import train_test_split#Splitting the data for

training and testing

train_data,test_data, train_label, test_label =

train_test_split(message_data_TDM, training_label, test_size=0.1)

-------------------------------------------------------------

seed=9
from sklearn.svm import SVC

train_data_shape = train_data.shape

test_data_shape = test_data.shape

print("The shape of train data : ", train_data.shape)

print("The shape of test data : ", test_data.shape)

classifier = SVC(kernel="linear",C=0.025, random_state=seed)

classifier = classifier.fit(train_data,train_label)

#target =

score = classifier.fit(train_data,train_label)

print('SVM Classifier : ',score)

with open('output.txt', 'w') as file:

file.write(str((imdb['tokenized_message'][55],imdb['lemmatized_message'][55])))

-------------------------------------------------------------

from sklearn.linear_model import SGDClassifier

train_data,test_data, train_label, test_label = train_test_split(message_data_TDM,
training_label, test_size=0.1)

train_data_shape = train_data.shape

test_data_shape = test_data.shape

print("The shape of train data : ",train_data.shape)

print("The shape of test data : ",test_data.shape)

classifier = SGDClassifier(loss = 'modified_huber', shuffle=True,

random_state=seed)

classifier = classifier.fit(train_data,train_label)

#target=

score = classifier.score(test_data,test_label)

print('SGD classifier : ',score)

with open('output1.txt', 'w') as file:

file.write(str((imdb['preprocessed_message'][55])))

-------------------------------------------------------------

Milestone Challenge On Used Bikes Data Set
25% (8)
Milestone Challenge On Used Bikes Data Set
11 pages
Fresco Play Course Detail
50% (4)
Fresco Play Course Detail
4 pages
Stats With Python
75% (4)
Stats With Python
4 pages
CNN Numpy 1st Handson
100% (1)
CNN Numpy 1st Handson
5 pages
Import As From Import Import: Problem 1
100% (1)
Import As From Import Import: Problem 1
5 pages
Association Rule Mining-Hands - On
39% (23)
Association Rule Mining-Hands - On
4 pages
Datascience Quiz
33% (3)
Datascience Quiz
3 pages
Prodigious Git Handson
50% (4)
Prodigious Git Handson
2 pages
Nodejs TCS Fresco Play
80% (5)
Nodejs TCS Fresco Play
1 page
Final - DNN - Hands - On - Jupyter Notebook
0% (1)
Final - DNN - Hands - On - Jupyter Notebook
6 pages
Python3 - Programming-Final Assessment - INCOMPLETO
No ratings yet
Python3 - Programming-Final Assessment - INCOMPLETO
32 pages
Scala Constructs: Concepts of Functional Programming
No ratings yet
Scala Constructs: Concepts of Functional Programming
21 pages
DNN Handson
No ratings yet
DNN Handson
2 pages
R Handson
100% (3)
R Handson
3 pages
Security Analytics With Apache Metron
67% (6)
Security Analytics With Apache Metron
3 pages
Data Cleaning Data Integration Data Selection Data Transformation Data Mining Pattern Evaluation Knowledge Presentation
No ratings yet
Data Cleaning Data Integration Data Selection Data Transformation Data Mining Pattern Evaluation Knowledge Presentation
3 pages
Fresco
100% (2)
Fresco
17 pages
Azure Virtual Machines
100% (1)
Azure Virtual Machines
1 page
This Study Resource Was
No ratings yet
This Study Resource Was
6 pages
Deep Learning - Chorale Prelude
No ratings yet
Deep Learning - Chorale Prelude
2 pages
SR No Category Sub Category Course Name Enable / Disable D Hands On? Yes/No Handson Detail
No ratings yet
SR No Category Sub Category Course Name Enable / Disable D Hands On? Yes/No Handson Detail
3 pages
Spark SQL Hands - On
No ratings yet
Spark SQL Hands - On
3 pages
Tensor Flow
No ratings yet
Tensor Flow
2 pages
This Study Resource Was
No ratings yet
This Study Resource Was
4 pages
Python Qualis
No ratings yet
Python Qualis
6 pages
Python 3 Application Programming
100% (1)
Python 3 Application Programming
12 pages
New Text Document
No ratings yet
New Text Document
10 pages
Security Analytics With Apache Metron
0% (2)
Security Analytics With Apache Metron
3 pages
Image Classification
No ratings yet
Image Classification
3 pages
Create A DataFrame
No ratings yet
Create A DataFrame
1 page
DataFrame Operations Using A Json File
No ratings yet
DataFrame Operations Using A Json File
1 page
An Enlightenment To Machine Learning
No ratings yet
An Enlightenment To Machine Learning
3 pages
Statistics and Probability Katabasis
No ratings yet
Statistics and Probability Katabasis
1 page
Blockchain Intermedio
100% (1)
Blockchain Intermedio
2 pages
NumPy - Python Package For Data
No ratings yet
NumPy - Python Package For Data
3 pages
Image Classification Handson-Image - Test
No ratings yet
Image Classification Handson-Image - Test
5 pages
Neural Networks and Deep Learning
100% (1)
Neural Networks and Deep Learning
3 pages
Association Rule Mining
No ratings yet
Association Rule Mining
3 pages
Rsa
No ratings yet
Rsa
2 pages
Continous Deployment
No ratings yet
Continous Deployment
2 pages
Data Visualization Aurora - Resp
100% (1)
Data Visualization Aurora - Resp
33 pages
Machine Learning - Exploring The Model Q&A.txt TCS
100% (1)
Machine Learning - Exploring The Model Q&A.txt TCS
1 page
Scala - The Diatonic Syallable
No ratings yet
Scala - The Diatonic Syallable
2 pages
Python 3 Functions and OOPs
No ratings yet
Python 3 Functions and OOPs
7 pages
Hybrid App Intro
No ratings yet
Hybrid App Intro
2 pages
Zenpython Handson1
67% (3)
Zenpython Handson1
2 pages
Azure
0% (1)
Azure
3 pages
Statistics and Probability Katabasis 2
No ratings yet
Statistics and Probability Katabasis 2
2 pages
AngularJS Packaging and Testing (1) - 1
0% (1)
AngularJS Packaging and Testing (1) - 1
2 pages
R
No ratings yet
R
15 pages
Data Mining Methods Basics Q&A
No ratings yet
Data Mining Methods Basics Q&A
2 pages
Prequel 2
No ratings yet
Prequel 2
2 pages
Unstructured Data Classification
No ratings yet
Unstructured Data Classification
2 pages
Python 3 Programming
No ratings yet
Python 3 Programming
3 pages
Spark Preliminaries
0% (1)
Spark Preliminaries
4 pages
Unstructured Data Classification Handson
No ratings yet
Unstructured Data Classification Handson
4 pages
Python Project
No ratings yet
Python Project
2 pages
Shreya Srivastava-27
No ratings yet
Shreya Srivastava-27
3 pages
Application Code
No ratings yet
Application Code
3 pages
NLP Assignment (917722H031)
No ratings yet
NLP Assignment (917722H031)
18 pages
Efficient Reliability-Based Design of Drilled Shafts in Sand Considering Spatial Variability
No ratings yet
Efficient Reliability-Based Design of Drilled Shafts in Sand Considering Spatial Variability
10 pages
Journal of Alloys and Compounds
No ratings yet
Journal of Alloys and Compounds
8 pages
Robotics: Ece 411: Robotics Engr. Lalaine Jean A. Ballais, Ect
No ratings yet
Robotics: Ece 411: Robotics Engr. Lalaine Jean A. Ballais, Ect
9 pages
Design Considerations For The Vibration of Floors - Part 2: Advisory Desk
No ratings yet
Design Considerations For The Vibration of Floors - Part 2: Advisory Desk
3 pages
3-Terminal 1A Positive Voltage Regulator
No ratings yet
3-Terminal 1A Positive Voltage Regulator
2 pages
2010 01 12 3DBeam CDT6
No ratings yet
2010 01 12 3DBeam CDT6
65 pages
Analysis of Tension Members Part 2 of 2
No ratings yet
Analysis of Tension Members Part 2 of 2
13 pages
2014 Experimental Investigations and Thermodynamic Modelling of KCl-LiCl-UCl3 System
No ratings yet
2014 Experimental Investigations and Thermodynamic Modelling of KCl-LiCl-UCl3 System
16 pages
Kubernetes Container
No ratings yet
Kubernetes Container
7 pages
Deye Hybrid 5K y 6K
No ratings yet
Deye Hybrid 5K y 6K
2 pages
Fundamental Biostatistics Dillon Jones
No ratings yet
Fundamental Biostatistics Dillon Jones
68 pages
Chapter 3 Stacks
No ratings yet
Chapter 3 Stacks
28 pages
MPLS TP Overview
100% (1)
MPLS TP Overview
30 pages
Level Iii Ut Specific Examination
No ratings yet
Level Iii Ut Specific Examination
8 pages
OpenStack Cookbook: Freedom in The Cloud...
100% (1)
OpenStack Cookbook: Freedom in The Cloud...
17 pages
Trig Practice 2
No ratings yet
Trig Practice 2
3 pages
Program // Mouseeventsview - CPP: Implementation of The Cmouseeventsview Class
No ratings yet
Program // Mouseeventsview - CPP: Implementation of The Cmouseeventsview Class
6 pages
Crude Oil Conversion Table
No ratings yet
Crude Oil Conversion Table
61 pages
Aidco 450E BR
No ratings yet
Aidco 450E BR
4 pages
Pectin
100% (1)
Pectin
10 pages
Module 2 Previous Year Questions
No ratings yet
Module 2 Previous Year Questions
9 pages
ESC201 UDas Lec24Corrected OpAmp Aps PDF
No ratings yet
ESC201 UDas Lec24Corrected OpAmp Aps PDF
6 pages
Henry CL System
No ratings yet
Henry CL System
12 pages
Chpt4 ThConsumer Satisfaction Theories A Critical Revieweories
67% (3)
Chpt4 ThConsumer Satisfaction Theories A Critical Revieweories
35 pages
MA3151 Matrix and Calculus Unit Wise
No ratings yet
MA3151 Matrix and Calculus Unit Wise
5 pages
Current Unbalance Monitoring in Four-Wire System Based
No ratings yet
Current Unbalance Monitoring in Four-Wire System Based
9 pages
Gill
No ratings yet
Gill
474 pages
Mediation Moderation in Social Psychological Research
No ratings yet
Mediation Moderation in Social Psychological Research
11 pages
Summary Report: Threat Analysis
No ratings yet
Summary Report: Threat Analysis
9 pages
Nursery - Syllabus
No ratings yet
Nursery - Syllabus
10 pages