0% found this document useful (0 votes)

10 views4 pages

Sentiment Classifier

The document outlines a Python script that utilizes the CountVectorizer from sklearn to process text data from files, categorizing them into positive and negative sentiments. It initializes dictionaries to store the text data, counts occurrences of words, and calculates probabilities for each word based on its sentiment. The script also constructs a corpus from a limited number of positive and negative samples for further analysis.

Uploaded by

ravintej22

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views4 pages

Sentiment Classifier

Uploaded by

ravintej22

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 4

from sklearn.feature_extraction.

text import CountVectorizer

f=open("cv000_29416.txt","r")
a=f.read()
f.close()

data=[]
data.append(a)

vectorizer = CountVectorizer()
vectorizer.fit(data)
nev_set=vectorizer.vocabulary_
print(vectorizer.vocabulary_)

import os

def init_dict(a_dir):
a_dict = {}
file_list = os.listdir(a_dir)
for a_file in file_list:
f = open(a_dir + a_file, 'r')
a_dict[a_file] = f.read()
f.close()
return a_dict
def print_dict(a_dict):
for key in sorted(a_dict.keys()):
print (key, ":\n" , a_dict.get(key))

a = vectorizer.transform(data)

a.shape

import pandas as pd
from sklearn. feature_extraction. text import CountVectorizer
import os

from sklearn. feature_extraction. text import CountVectorizer

f=open("/content/neg/cv001_19502.txt","r")
a=f.read()
f.close()

data=[]
data.append(a)

vectorizer = CountVectorizer()
vectorizer.fit(data)
nev_set=vectorizer.vocabulary_
print(vectorizer.vocabulary_)

f=open("/content/pos/cv000_29590.txt","r")
a=f.read()
f.close()

data=[]
data.append(a)
vectorizer = CountVectorizer()
vectorizer.fit(data)
nev_set=vectorizer.vocabulary_
print(vectorizer.vocabulary_)

pos = init_dict("pos/")
neg = init_dict("neg/")

len(pos)

len(neg)

print_dict(pos)

print_dict(neg)

import pandas as pd
import os

directory = os.fsencode("/content/neg")
os.chdir(directory)
for file in os.listdir(directory):
filename = os.fsdecode(file)
if filename.endswith(".txt") or filename.endswith(".txt"):
with open(filename, "r") as a_file:
for line in a_file:
datarow = {'text':line ,'tag': "neg"}
data = data.append(datarow)
continue
else:
continue

data = pd.DataFrame(columns=["text","tag"])

import os

data

data.head(10)

import os

directory = os.fsencode("/content/neg")
os.chdir(directory)
for file in os.listdir(directory):
filename = os.fsdecode(file)
if filename.endswith(".txt") or filename.endswith(".txt"):
with open(filename, "r") as a_file:
for line in a_file:
datarow = {'text':line ,'tag': "pos"}
data = data.append(datarow , ignore_index=True)
continue
else:
continue

data

data.head(10)

dict ={}
import re
for i in range(len(data)):
row = data.iloc[i,:]
if(i<=31783):
for word in row.text.split(" "):
if word in dict:
dict[word]["pos"] = dict[word]["pos"] +1
else:
dict[word] = {"pos":0,"neg":0}
dict[word]["pos"] = 1;
else:
for word in row.text.split(" "):
if word in dict:
dict[word]["neg"] = dict[word]["neg"] +1
else:
dict[word] = {"pos":0,"neg":1}
dict[word]["neg"] = 1;

dict

p = ()
count = 0;
for word in dict:
count=count + dict[word]["pos"]
count=count + dict[word]["neg"]

for word in dict:

dict[word]["prob"] = (dict[word]["pos"] + dict[word]["neg"])/count

for word in dict:

dict[word]["con_pos_prob"] = dict[word]["pos"]/(dict[word]["pos"] + dict[word]
["neg"])
dict[word]["con_neg_prob"] = dict[word]["neg"]/(dict[word]["pos"] + dict[word]
["neg"])

dict

from sklearn.feature_extraction.text import CountVectorizer

j=0
count = 0
corpus = []
for i in pos:
if(count < 700):
corpus.append(pos[i])
j = j + 1
count = count+1
j=0
count=0
for i in neg:
if(count < 700):
corpus.append(neg[i])
j = j + 1
count = count+1
len(corpus)

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
x = vectorizer.get_feature_names()

X_1 = X.toarray()
print(X_1)

Outliers, Hypothesis and Natural Language Processing
100% (1)
Outliers, Hypothesis and Natural Language Processing
7 pages
IGCSE-OL Geo CB Answers Theme 2 Natural Environment
100% (1)
IGCSE-OL Geo CB Answers Theme 2 Natural Environment
55 pages
ML Lab Programs
No ratings yet
ML Lab Programs
21 pages
Extra Feature NLP
No ratings yet
Extra Feature NLP
5 pages
Cat - D8T Dozer Specs, Videos & 360 Views - D8 Dozer - Caterpillar
No ratings yet
Cat - D8T Dozer Specs, Videos & 360 Views - D8 Dozer - Caterpillar
17 pages
01 Road Roller Basic Knowledge (6611E)
0% (1)
01 Road Roller Basic Knowledge (6611E)
16 pages
ML Lab Manual
No ratings yet
ML Lab Manual
90 pages
Total Productive Maintenance
No ratings yet
Total Productive Maintenance
53 pages
Deep Learning Lab Manual
No ratings yet
Deep Learning Lab Manual
46 pages
ML Lab Manual-99
No ratings yet
ML Lab Manual-99
23 pages
ML Lab Record
No ratings yet
ML Lab Record
33 pages
Machine Learning Through Python Lab Mannual
No ratings yet
Machine Learning Through Python Lab Mannual
33 pages
Machine Learning Manual Final
No ratings yet
Machine Learning Manual Final
37 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
30 pages
Aiml Lab
No ratings yet
Aiml Lab
14 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
26 pages
ML Record
No ratings yet
ML Record
24 pages
ML1 3 Merged
No ratings yet
ML1 3 Merged
19 pages
AIML IA3 Loki & SG
No ratings yet
AIML IA3 Loki & SG
31 pages
EOI 2019 01 Website PDF
No ratings yet
EOI 2019 01 Website PDF
15 pages
Wa0027.
No ratings yet
Wa0027.
34 pages
PESIT Bangalore South Campus: Vii Semester Lab Manual Subject: Machine Learning
No ratings yet
PESIT Bangalore South Campus: Vii Semester Lab Manual Subject: Machine Learning
31 pages
Aiml 5-8
No ratings yet
Aiml 5-8
19 pages
Program 1
No ratings yet
Program 1
25 pages
MLPrograma1-5 Py
No ratings yet
MLPrograma1-5 Py
17 pages
ML Lab Programs
No ratings yet
ML Lab Programs
15 pages
Advance Machine Learning
No ratings yet
Advance Machine Learning
28 pages
15CSL76 Students
No ratings yet
15CSL76 Students
18 pages
ML Lab Programs 1-10-Converted NAM COLLEGE PDF
No ratings yet
ML Lab Programs 1-10-Converted NAM COLLEGE PDF
33 pages
ML Lab File Batch 1
No ratings yet
ML Lab File Batch 1
20 pages
Screenshot 2023-12-07 at 11.07.49 AM
No ratings yet
Screenshot 2023-12-07 at 11.07.49 AM
14 pages
Cyberbullying Code
No ratings yet
Cyberbullying Code
6 pages
Py 2
No ratings yet
Py 2
7 pages
ML Programs 1
No ratings yet
ML Programs 1
15 pages
Name: Suprit Darshan Shrestha Reg - no:19BCE2584: Lab DA1 Machine Learning Lab
No ratings yet
Name: Suprit Darshan Shrestha Reg - no:19BCE2584: Lab DA1 Machine Learning Lab
9 pages
Ment Analysis Text Classification
No ratings yet
Ment Analysis Text Classification
9 pages
AIML
No ratings yet
AIML
12 pages
ML Lab Prog1-5 (5) College PDF
No ratings yet
ML Lab Prog1-5 (5) College PDF
12 pages
DSBD 7 Ass
No ratings yet
DSBD 7 Ass
9 pages
IR
No ratings yet
IR
12 pages
MLT Shivani
No ratings yet
MLT Shivani
8 pages
ML Final-1
No ratings yet
ML Final-1
7 pages
Codes & Outputs
No ratings yet
Codes & Outputs
9 pages
ML Lab
No ratings yet
ML Lab
11 pages
01 - Inspect - Pretrained - Model: 0.1 Download Pre-Trained Model Files
No ratings yet
01 - Inspect - Pretrained - Model: 0.1 Download Pre-Trained Model Files
8 pages
Lab - Activity-Iii: ST ND
No ratings yet
Lab - Activity-Iii: ST ND
9 pages
NLP Assignment 4 (22bce9560)
No ratings yet
NLP Assignment 4 (22bce9560)
12 pages
ML Lab Programs
No ratings yet
ML Lab Programs
8 pages
ML Lab Assignment2
No ratings yet
ML Lab Assignment2
9 pages
ML Week10.1
No ratings yet
ML Week10.1
5 pages
Using ICT To Improve Your Monitoring & Evaluation: A Workbook To Help You Develop An Effective ICT System (Davey, Parkinson and Wadia (2008)
No ratings yet
Using ICT To Improve Your Monitoring & Evaluation: A Workbook To Help You Develop An Effective ICT System (Davey, Parkinson and Wadia (2008)
92 pages
School Based Management
No ratings yet
School Based Management
6 pages
Id 3
No ratings yet
Id 3
4 pages
AIML Prograns
No ratings yet
AIML Prograns
6 pages
PRG 4
No ratings yet
PRG 4
2 pages
דף נוסחאות יסודות מדמח
No ratings yet
דף נוסחאות יסודות מדמח
4 pages
Computerized System Validation
No ratings yet
Computerized System Validation
14 pages
ML Short Code - Under Updating
No ratings yet
ML Short Code - Under Updating
4 pages
ML Lab Prgms Split
No ratings yet
ML Lab Prgms Split
3 pages
‎⁨ דף נוסחאות מדמח סופי⁩
No ratings yet
‎⁨ דף נוסחאות מדמח סופי⁩
2 pages
Aprio
No ratings yet
Aprio
2 pages
ID3 Program4
No ratings yet
ID3 Program4
3 pages
PRGM 4
No ratings yet
PRGM 4
3 pages
Ex 2
No ratings yet
Ex 2
6 pages
Assignment 2
No ratings yet
Assignment 2
4 pages
The Role of Chittagong Port in The Economy of Bangladesh II
100% (2)
The Role of Chittagong Port in The Economy of Bangladesh II
15 pages
Ex 1
No ratings yet
Ex 1
3 pages
5.size Oriented and Function Oriented Metrics
No ratings yet
5.size Oriented and Function Oriented Metrics
4 pages
Problems in Engineering: Fifth Edition
No ratings yet
Problems in Engineering: Fifth Edition
5 pages
Using Genetic Algorithms in Process Planning For Job Shop Machining
No ratings yet
Using Genetic Algorithms in Process Planning For Job Shop Machining
12 pages
Grand Designs UK - November 2021
No ratings yet
Grand Designs UK - November 2021
156 pages
AutoCAD PLANT 3D 2015 System Tools Variables Cadgroup
No ratings yet
AutoCAD PLANT 3D 2015 System Tools Variables Cadgroup
24 pages
GL850G Icpdf
No ratings yet
GL850G Icpdf
38 pages
About MCB: Vision Statement
No ratings yet
About MCB: Vision Statement
7 pages
Chapter 4
No ratings yet
Chapter 4
53 pages
Pro Wrestling Illustrated, 2005-03 (2004 in Wrestling) (C)
No ratings yet
Pro Wrestling Illustrated, 2005-03 (2004 in Wrestling) (C)
148 pages
Data Mining UNIT - 2 (Data Warehouse Architecture)
No ratings yet
Data Mining UNIT - 2 (Data Warehouse Architecture)
3 pages
February 6 Vdi Comparison Gberger PDF
No ratings yet
February 6 Vdi Comparison Gberger PDF
49 pages
Supreme Court: Susano A. Velasquez For Appellant. Teodoro R. Dominguez For Appellee
No ratings yet
Supreme Court: Susano A. Velasquez For Appellant. Teodoro R. Dominguez For Appellee
6 pages
VFlex Quickstart v2.1
No ratings yet
VFlex Quickstart v2.1
50 pages
Vietnam Research.v2
No ratings yet
Vietnam Research.v2
13 pages
2016 CCNY Great Grads
No ratings yet
2016 CCNY Great Grads
16 pages
AOA 2023 Solution
No ratings yet
AOA 2023 Solution
25 pages
Milk Powder: Etc., Recombined Milks and Other Liquid Beverages
No ratings yet
Milk Powder: Etc., Recombined Milks and Other Liquid Beverages
5 pages
(Final Draft) Taskap Sesdilu - M. Arief Priowahono
No ratings yet
(Final Draft) Taskap Sesdilu - M. Arief Priowahono
21 pages
Dividend Payout of Meezan Sovereign Fund and Meezan Cash Fund
No ratings yet
Dividend Payout of Meezan Sovereign Fund and Meezan Cash Fund
11 pages
D R L F L S I G S: EEP Einforcement Earning For Urniture Ayout Imulation in Ndoor Raphics Cenes
No ratings yet
D R L F L S I G S: EEP Einforcement Earning For Urniture Ayout Imulation in Ndoor Raphics Cenes
6 pages
Bravo-Guerrero vs. Bravo, 465 SCRA 244, July 29, 2005
No ratings yet
Bravo-Guerrero vs. Bravo, 465 SCRA 244, July 29, 2005
7 pages
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet

Sentiment Classifier

Uploaded by

Sentiment Classifier

Uploaded by

from sklearn.feature_extraction.

text import CountVectorizer

from sklearn. feature_extraction. text import CountVectorizer

for word in dict:

for word in dict:

from sklearn.feature_extraction.text import CountVectorizer

You might also like