0% found this document useful (0 votes)

44 views7 pages

FakeNewsDetection Student

This document contains code to analyze a dataset of fake and real news articles using various machine learning classifiers. It loads and preprocesses the data, explores the data distribution, and defines functions for splitting the data, fitting classifiers, and plotting confusion matrices. It then fits and evaluates the performance of a Naive Bayes classifier on the preprocessed data, storing the accuracy in a dictionary to later compare models. The document is setting up further classification experiments with logistic regression, decision trees, random forests, and SVMs.

Uploaded by

nehaila

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

44 views7 pages

FakeNewsDetection Student

Uploaded by

nehaila

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 7

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.feature_extraction.text import TfidfTransformer

from sklearn import feature_extraction, linear_model, model_selection,

preprocessing

from sklearn.metrics import accuracy_score

from sklearn.model_selection import train_test_split

from sklearn.pipeline import Pipeline

from sklearn.utils import shuffle

import string

# ## Read datasets

fake = pd.read_csv("data/Fake.csv")

true = pd.read_csv("data/True.csv")

fake.shape

true.shape

# Add flag to track fake and real

fake['target'] = 'fake'

true['target'] = 'true'

# Concatenate dataframes

data = pd.concat([fake, true]).reset_index(drop = True)

data.shape

# Shuffle the data

data = shuffle(data)

data = data.reset_index(drop=True)

# Check the data

data.head()

# Removing the date (we won't use it for the analysis)

data.drop(["date"],axis=1,inplace=True)

data.head()

# Removing the title (we will only use the text)

data.drop(["title"],axis=1,inplace=True)

data.head()

# Convert to lowercase

data['text'] = data['text'].apply(lambda x: x.lower())

data.head()

# Remove punctuation

#Insert code

data['text'] = data['text'].apply(punctuation_removal)

# Check

data.head()

# Removing stopwords
#Insert code

data.head()

# ## Basic data exploration

# How many articles per subject?

print(data.groupby(['subject'])['text'].count())

data.groupby(['subject'])['text'].count().plot(kind="bar")

plt.show()

# In[17]:

# How many fake and real articles?

print(data.groupby(['target'])['text'].count())

data.groupby(['target'])['text'].count().plot(kind="bar")

plt.show()

# Most frequent words counter (Code adapted from

https://www.kaggle.com/rodolfoluna/fake-news-detector)

from nltk import tokenize

token_space = tokenize.WhitespaceTokenizer()

def counter(text, column_text, quantity):

all_words = ' '.join([text for text in text[column_text]])

token_phrase = token_space.tokenize(all_words)
frequency = nltk.FreqDist(token_phrase)

df_frequency = pd.DataFrame({"Word": list(frequency.keys()),

"Frequency": list(frequency.values())})

df_frequency = df_frequency.nlargest(columns = "Frequency", n = quantity)

plt.figure(figsize=(12,8))

ax = sns.barplot(data = df_frequency, x = "Word", y = "Frequency", color =

'blue')

ax.set(ylabel = "Count")

plt.xticks(rotation='vertical')

plt.show()

# Most frequent words in fake news

counter(data[data["target"] == "fake"], "text", 20)

# Most frequent words in real news

counter(data[data["target"] == "true"], "text", 20)

# ### Peparing the data

# Split the data

#Insert code

# ## Modeling

# Function to plot the confusion matrix (code from

https://scikit-learn.org/stable/auto_examples/model_selection/plot_confusion_matrix
.html)

from sklearn import metrics

import itertools

def plot_confusion_matrix(cm, classes,

normalize=False,

title='Confusion matrix',

cmap=plt.cm.Blues):

plt.imshow(cm, interpolation='nearest', cmap=cmap)

plt.title(title)

plt.colorbar()

tick_marks = np.arange(len(classes))

plt.xticks(tick_marks, classes, rotation=45)

plt.yticks(tick_marks, classes)

if normalize:

cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]

print("Normalized confusion matrix")

else:

print('Confusion matrix, without normalization')

thresh = cm.max() / 2.

for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):

plt.text(j, i, cm[i, j],

horizontalalignment="center",

color="white" if cm[i, j] > thresh else "black")

plt.tight_layout()

plt.ylabel('True label')

plt.xlabel('Predicted label')
# # **Naive Bayes**

print("------Naive Bayes-----")

dct = dict()

from sklearn.naive_bayes import MultinomialNB

NB_classifier = MultinomialNB()

pipe = Pipeline([('vect', CountVectorizer()),

('tfidf', TfidfTransformer()),

('model', NB_classifier)])

model = pipe.fit(X_train, y_train)

prediction = model.predict(X_test)

print("accuracy: {}%".format(round(accuracy_score(y_test, prediction)*100,2)))

dct['Naive Bayes'] = round(accuracy_score(y_test, prediction)*100,2)

cm = metrics.confusion_matrix(y_test, prediction)

plot_confusion_matrix(cm, classes=['Fake', 'Real'])

# # **Logistic regression**

# # **Decision Tree**
# # **Random Forest**

# ## **SVM**

# # Comparing Different Models

import matplotlib.pyplot as plt

plt.figure(figsize=(8,7))

plt.bar(list(dct.keys()),list(dct.values()))

plt.ylim(90,100)

plt.yticks((91, 92, 93, 94, 95, 96, 97, 98, 99, 100))

plt.show()

Emona FOTEx LabManual ANS Ver1
100% (8)
Emona FOTEx LabManual ANS Ver1
246 pages
Waves - Label
100% (1)
Waves - Label
2 pages
Creep
0% (1)
Creep
42 pages
Lab5 Example Fall 23
No ratings yet
Lab5 Example Fall 23
4 pages
FND Imp Points
No ratings yet
FND Imp Points
6 pages
Naive Bayes Classification
No ratings yet
Naive Bayes Classification
8 pages
Confusion Matrix
No ratings yet
Confusion Matrix
6 pages
ADS - Phase 3
No ratings yet
ADS - Phase 3
34 pages
Import Pandas As PD DF PD - Read - CSV ("Titanic - Train - CSV") DF - Head
No ratings yet
Import Pandas As PD DF PD - Read - CSV ("Titanic - Train - CSV") DF - Head
20 pages
Credit - Defaulters - Prediction Using Logostic Regression
No ratings yet
Credit - Defaulters - Prediction Using Logostic Regression
17 pages
Detect Fake Profiles in Online Social Networks Using Support Vector Machine
No ratings yet
Detect Fake Profiles in Online Social Networks Using Support Vector Machine
8 pages
Import As Import As From Import From Import From Import From Import
No ratings yet
Import As Import As From Import From Import From Import From Import
4 pages
Document
No ratings yet
Document
3 pages
SVM
No ratings yet
SVM
1 page
Topic Classifierby David Caleb
No ratings yet
Topic Classifierby David Caleb
7 pages
ML Prac1-10
No ratings yet
ML Prac1-10
32 pages
CCC
No ratings yet
CCC
25 pages
1
No ratings yet
1
13 pages
Random Forest
No ratings yet
Random Forest
8 pages
ML Lab Programs
No ratings yet
ML Lab Programs
18 pages
Manual
No ratings yet
Manual
48 pages
School of Engineering: Lab Manual On Machine Learning Lab
No ratings yet
School of Engineering: Lab Manual On Machine Learning Lab
23 pages
S6 - Data Mining Lab Experiments (Except 1)
No ratings yet
S6 - Data Mining Lab Experiments (Except 1)
6 pages
Python CA 4
No ratings yet
Python CA 4
9 pages
17 - Source Code - nlp-2-5
No ratings yet
17 - Source Code - nlp-2-5
4 pages
#Add or Modify Columns
No ratings yet
#Add or Modify Columns
2 pages
HSU06 Session 5 Trần Thị Bích Hiền - Colab
No ratings yet
HSU06 Session 5 Trần Thị Bích Hiền - Colab
4 pages
ML Week10.1
No ratings yet
ML Week10.1
5 pages
Aiml 5-8
No ratings yet
Aiml 5-8
19 pages
ML Lab P-1
No ratings yet
ML Lab P-1
10 pages
Allcodesml 2
No ratings yet
Allcodesml 2
10 pages
Sma Exp 10 Code Print
No ratings yet
Sma Exp 10 Code Print
7 pages
Prathamesh KRAI
No ratings yet
Prathamesh KRAI
38 pages
ML Lab Manual
No ratings yet
ML Lab Manual
12 pages
Titanic Dataset Model Prediction
No ratings yet
Titanic Dataset Model Prediction
11 pages
Import As Import As Import As Import As From Import
No ratings yet
Import As Import As Import As Import As From Import
3 pages
Lab 4 Solved
No ratings yet
Lab 4 Solved
6 pages
Machine Learning Lab (17CSL76)
No ratings yet
Machine Learning Lab (17CSL76)
48 pages
Sample Code
No ratings yet
Sample Code
8 pages
Progress of CATBOOST ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
No ratings yet
Progress of CATBOOST ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
9 pages
1 Kmeans
No ratings yet
1 Kmeans
6 pages
Naive Bayes
No ratings yet
Naive Bayes
8 pages
Bacdeaf 23032025 115708 Split 1
No ratings yet
Bacdeaf 23032025 115708 Split 1
37 pages
FML File Final
No ratings yet
FML File Final
36 pages
Lab Manual ML
No ratings yet
Lab Manual ML
28 pages
Email Spam Detection
No ratings yet
Email Spam Detection
3 pages
Code MLT
No ratings yet
Code MLT
9 pages
Code
No ratings yet
Code
7 pages
ML Lab Programs
No ratings yet
ML Lab Programs
8 pages
Final ML Programs 075005
No ratings yet
Final ML Programs 075005
15 pages
Email Spam Classifier
No ratings yet
Email Spam Classifier
22 pages
AI Phase4
No ratings yet
AI Phase4
5 pages
ML
No ratings yet
ML
11 pages
Aman Agarwal
No ratings yet
Aman Agarwal
6 pages
ML PDF
No ratings yet
ML PDF
30 pages
ML Batch
No ratings yet
ML Batch
36 pages
Linearregression SVM
No ratings yet
Linearregression SVM
3 pages
ML LAB Rec
No ratings yet
ML LAB Rec
9 pages
AIML
No ratings yet
AIML
12 pages
ML Practical Kiranjot 6-10
No ratings yet
ML Practical Kiranjot 6-10
10 pages
Personalized Cancer Diagnosis
No ratings yet
Personalized Cancer Diagnosis
100 pages
Fake News Classification - Ipynb - Colaboratory
No ratings yet
Fake News Classification - Ipynb - Colaboratory
6 pages
Python For Beginners
From Everand
Python For Beginners
Célio Azevedo
No ratings yet
ARUNKUMAR K - Profama Invoice
No ratings yet
ARUNKUMAR K - Profama Invoice
2 pages
Unit 1 - Set Theory, Types of Sets, Set Operations
No ratings yet
Unit 1 - Set Theory, Types of Sets, Set Operations
20 pages
Post-Earthquake Restoration Modelling of A Railway Bridge Network
No ratings yet
Post-Earthquake Restoration Modelling of A Railway Bridge Network
14 pages
Waiver
No ratings yet
Waiver
6 pages
Tickets in Integrated Public Transport System of Southern Moravia
No ratings yet
Tickets in Integrated Public Transport System of Southern Moravia
1 page
Spark Fun
No ratings yet
Spark Fun
1 page
EE 432/532 Diffusion Examples - 1
No ratings yet
EE 432/532 Diffusion Examples - 1
13 pages
Plonking Summary
No ratings yet
Plonking Summary
2 pages
Heart of The Sun Warrior 1st Edition Sue Lynn Tan 2024 Scribd Download
100% (3)
Heart of The Sun Warrior 1st Edition Sue Lynn Tan 2024 Scribd Download
37 pages
Ba01572cen 0320
No ratings yet
Ba01572cen 0320
16 pages
Meo Class I Assessment Process MMD Kochi-1
No ratings yet
Meo Class I Assessment Process MMD Kochi-1
10 pages
Citrix Virtual Apps and Desktops Translate
No ratings yet
Citrix Virtual Apps and Desktops Translate
299 pages
Eir December 2019
No ratings yet
Eir December 2019
1,937 pages
Sara
No ratings yet
Sara
160 pages
Versa CSeries Aluminum Solenoid Valves
No ratings yet
Versa CSeries Aluminum Solenoid Valves
24 pages
Sahil - Shamra - TCA NDA Form
No ratings yet
Sahil - Shamra - TCA NDA Form
2 pages
Henry Cavill
No ratings yet
Henry Cavill
2 pages
Personal Letter Exercise
No ratings yet
Personal Letter Exercise
3 pages
Week 4 Day 2 Science
No ratings yet
Week 4 Day 2 Science
3 pages
"Rectbeam" - Rectangular Concrete Beam Analysis/Design: Program Description
No ratings yet
"Rectbeam" - Rectangular Concrete Beam Analysis/Design: Program Description
46 pages
E103-W02 UserManual EN V3.0
No ratings yet
E103-W02 UserManual EN V3.0
54 pages
Avr4311 E2
No ratings yet
Avr4311 E2
2 pages
NTPC Green Energy Limited Corporate Identity Number
No ratings yet
NTPC Green Energy Limited Corporate Identity Number
643 pages
LG 50PM4700-TA Chassis PA22A
No ratings yet
LG 50PM4700-TA Chassis PA22A
73 pages
Chapter One Transformer
No ratings yet
Chapter One Transformer
45 pages
938G+ +Electrical+System
100% (5)
938G+ +Electrical+System
2 pages
Type VR Vacuum Circuit Breaker Interruptor Automático Al Vacío Tipo VR Disjoncteur Sous Vide Type VR
No ratings yet
Type VR Vacuum Circuit Breaker Interruptor Automático Al Vacío Tipo VR Disjoncteur Sous Vide Type VR
113 pages

FakeNewsDetection Student

Uploaded by

FakeNewsDetection Student

Uploaded by

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.feature_extraction.text import TfidfTransformer

from sklearn import feature_extraction, linear_model, model_selection,

from sklearn.metrics import accuracy_score

from sklearn.model_selection import train_test_split

from sklearn.pipeline import Pipeline

from sklearn.utils import shuffle

# Add flag to track fake and real

data = pd.concat([fake, true]).reset_index(drop = True)

# Shuffle the data

# Check the data

# Removing the date (we won't use it for the analysis)

# Removing the title (we will only use the text)

data['text'] = data['text'].apply(lambda x: x.lower())

# ## Basic data exploration

# How many articles per subject?

# How many fake and real articles?

# Most frequent words counter (Code adapted from

from nltk import tokenize

def counter(text, column_text, quantity):

all_words = ' '.join([text for text in text[column_text]])

df_frequency = pd.DataFrame({"Word": list(frequency.keys()),

df_frequency = df_frequency.nlargest(columns = "Frequency", n = quantity)

ax = sns.barplot(data = df_frequency, x = "Word", y = "Frequency", color =

# Most frequent words in fake news

counter(data[data["target"] == "fake"], "text", 20)

# Most frequent words in real news

counter(data[data["target"] == "true"], "text", 20)

# ### Peparing the data

# Split the data

# Function to plot the confusion matrix (code from

from sklearn import metrics

def plot_confusion_matrix(cm, classes,

plt.imshow(cm, interpolation='nearest', cmap=cmap)

plt.xticks(tick_marks, classes, rotation=45)

cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]

print("Normalized confusion matrix")

print('Confusion matrix, without normalization')

for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):

plt.text(j, i, cm[i, j],

color="white" if cm[i, j] > thresh else "black")

from sklearn.naive_bayes import MultinomialNB

pipe = Pipeline([('vect', CountVectorizer()),

model = pipe.fit(X_train, y_train)

print("accuracy: {}%".format(round(accuracy_score(y_test, prediction)*100,2)))

dct['Naive Bayes'] = round(accuracy_score(y_test, prediction)*100,2)

plot_confusion_matrix(cm, classes=['Fake', 'Real'])

# # **Comparing** **Different Models**

import matplotlib.pyplot as plt

You might also like

# # Comparing Different Models