0% found this document useful (0 votes)

3 views2 pages

Bertweet Tokenizer

Uploaded by

valachi b-boy

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

3 views2 pages

Bertweet Tokenizer

Uploaded by

valachi b-boy

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 2

import pandas as pd

import numpy as np
from sklearn.model_selection import train_test_split
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.layers import Input, Embedding, Conv1D, MaxPooling1D,
Flatten, Dense, Dropout
from tensorflow.keras.models import Model
from tensorflow.keras.optimizers import Adamax
from tensorflow.keras.callbacks import EarlyStopping
from sklearn.metrics import accuracy_score
import re
import string
import matplotlib.pyplot as plt

# Load the Sentiment140 dataset

df = pd.read_csv("/path/to/sentiment140_dataset.csv", encoding='latin-1',
header=None)
df.columns = ["sentiment", "id", "date", "query", "user", "text"]

# Preprocess the data

texts = df["text"].values
labels = df["sentiment"].values

# Split the data into train and test sets

texts_train, texts_test, labels_train, labels_test = train_test_split(texts,
labels, test_size=0.2, random_state=42)

# Text normalization
def normalize_text(text):
# Remove URLs
text = re.sub(r"http\S+|www\S+|https\S+", "", text)
# Remove punctuation
text = text.translate(str.maketrans("", "", string.punctuation))
# Lowercase
text = text.lower()
return text

texts_train = [normalize_text(text) for text in texts_train]

texts_test = [normalize_text(text) for text in texts_test]

# Tokenize the text data using BERTweet tokenizer

tokenizer = BertweetTokenizer()
sequences_train = tokenizer.batch_encode_plus(texts_train, padding=True,
truncation=True, max_length=100)["input_ids"]
sequences_test = tokenizer.batch_encode_plus(texts_test, padding=True,
truncation=True, max_length=100)["input_ids"]

# Convert sequences to numpy arrays

X_train = np.array(sequences_train)
X_test = np.array(sequences_test)

# Define the model architecture

input_dim = tokenizer.vocab_size
embedding_dim = 100
num_filters = 128
filter_sizes = [3, 4, 5]
dropout_rate = 0.5
output_units = 1
inputs = Input(shape=(100,))
embedding = Embedding(input_dim=input_dim, output_dim=embedding_dim)(inputs)
conv_layers = []
for filter_size in filter_sizes:
conv = Conv1D(filters=num_filters, kernel_size=filter_size, activation='relu')
(embedding)
pool = MaxPooling1D(pool_size=98)(conv)
conv_layers.append(pool)
concat = Flatten()(conv_layers)
dropout = Dropout(rate=dropout_rate)(concat)
outputs = Dense(units=output_units, activation='sigmoid')(dropout)

model = Model(inputs=inputs, outputs=outputs)

# Compile the model

optimizer = Adamax(learning_rate=0.001)
model.compile(optimizer=optimizer, loss='binary_crossentropy',
metrics=['accuracy'])
model.summary()

# Train the model

batch_size = 64
epochs = 10
es = EarlyStopping(monitor='val_loss', patience=3, restore_best_weights=True)
history = model.fit(X_train, labels_train, batch_size=batch_size, epochs=epochs,
validation_split=0.2, callbacks=[es])

# Evaluate the model

predictions = model.predict(X_test)
predictions = np.round(predictions).flatten()
accuracy = accuracy_score(labels_test, predictions)
print("Test Accuracy:", accuracy)

# Plot accuracy
plt.plot(history.history['accuracy'])
plt.plot(history.history['val_accuracy'])
plt.title('Model Accuracy')
plt.xlabel('Epochs')
plt.ylabel('Accuracy')
plt.legend(['Train', 'Validation'], loc='upper left')
plt.show()

# Plot loss
plt.plot(history.history['loss'])
plt.plot(history.history['val_loss'])
plt.title('Model Loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend(['Train', 'Validation'], loc='upper left')
plt.show()

BERT - Assignment - Jupyter Notebook
0% (2)
BERT - Assignment - Jupyter Notebook
8 pages
DLP-DLL Making
No ratings yet
DLP-DLL Making
44 pages
Case Study - Sentiment Analysis With RNNs
No ratings yet
Case Study - Sentiment Analysis With RNNs
8 pages
NLP Transformer-Based Models Used For Sentiment Analysis
No ratings yet
NLP Transformer-Based Models Used For Sentiment Analysis
45 pages
NLP Transformer-Based Models Used For Sentiment Analysis: 1. BERT
No ratings yet
NLP Transformer-Based Models Used For Sentiment Analysis: 1. BERT
98 pages
Power Tai Chi
83% (6)
Power Tai Chi
65 pages
DL 22Q71A4206
No ratings yet
DL 22Q71A4206
65 pages
DL Lab Answers Batch 2
No ratings yet
DL Lab Answers Batch 2
27 pages
DL
No ratings yet
DL
17 pages
CV Prince
No ratings yet
CV Prince
120 pages
RLDL
No ratings yet
RLDL
27 pages
Wa0000.
No ratings yet
Wa0000.
40 pages
GloVe Embedding Code
No ratings yet
GloVe Embedding Code
3 pages
DLTF Lab Manual.1
No ratings yet
DLTF Lab Manual.1
29 pages
Sentiment Analysis Using LSTM
No ratings yet
Sentiment Analysis Using LSTM
5 pages
gpt-2 Code
No ratings yet
gpt-2 Code
2 pages
Adobe Scan 08 Jan 2025
No ratings yet
Adobe Scan 08 Jan 2025
7 pages
AD3511 - Deep Learning Lab Manual
No ratings yet
AD3511 - Deep Learning Lab Manual
61 pages
L2 - Basic ANN Model Building With TF-Keras
No ratings yet
L2 - Basic ANN Model Building With TF-Keras
16 pages
HateSpeech - Ipynb - Colab
No ratings yet
HateSpeech - Ipynb - Colab
8 pages
CNN and RNN Code
No ratings yet
CNN and RNN Code
10 pages
CCS355
No ratings yet
CCS355
29 pages
QLSTMvs LSTM
No ratings yet
QLSTMvs LSTM
7 pages
Unit 4
No ratings yet
Unit 4
23 pages
Untitled 10
No ratings yet
Untitled 10
6 pages
Integer-Encoding-Simplernn - Ipynb - Colaboratory
No ratings yet
Integer-Encoding-Simplernn - Ipynb - Colaboratory
4 pages
3-Sentiment Analysis BERT
No ratings yet
3-Sentiment Analysis BERT
5 pages
Deep Learning Manual
No ratings yet
Deep Learning Manual
53 pages
DL Exps
No ratings yet
DL Exps
9 pages
NLP Exercise 10
No ratings yet
NLP Exercise 10
6 pages
DL 3
No ratings yet
DL 3
6 pages
Word2Vec Code
No ratings yet
Word2Vec Code
2 pages
PES1PG24CS018 Debjit DLTP Assignment-2 BERT Report
No ratings yet
PES1PG24CS018 Debjit DLTP Assignment-2 BERT Report
10 pages
Practical No10
No ratings yet
Practical No10
4 pages
Neural DEEP
No ratings yet
Neural DEEP
39 pages
Movie Review Classification
No ratings yet
Movie Review Classification
5 pages
566f0619-9145-4b8f-b12b-cb8a5b0cd30d
No ratings yet
566f0619-9145-4b8f-b12b-cb8a5b0cd30d
17 pages
Import Numpy As NP
No ratings yet
Import Numpy As NP
5 pages
Hugging Face
No ratings yet
Hugging Face
1 page
DL Lab 8 Excuted
No ratings yet
DL Lab 8 Excuted
3 pages
DL Exp-10,11,12
No ratings yet
DL Exp-10,11,12
6 pages
Rajeek 7
No ratings yet
Rajeek 7
3 pages
CNN Ise
No ratings yet
CNN Ise
5 pages
Code Text
No ratings yet
Code Text
4 pages
NN & DL Lab Manual 1
No ratings yet
NN & DL Lab Manual 1
44 pages
DL 5 Excuted
No ratings yet
DL 5 Excuted
13 pages
Import Numpy As NP
No ratings yet
Import Numpy As NP
3 pages
Super Visionado VSRegras
No ratings yet
Super Visionado VSRegras
6 pages
Effects and Practices of Criminolgy Students Toward Alcoholism in Samar College Catbalogan City
No ratings yet
Effects and Practices of Criminolgy Students Toward Alcoholism in Samar College Catbalogan City
25 pages
Deep DL Manual Deep
No ratings yet
Deep DL Manual Deep
8 pages
Course 3 - Week 2 - Exercise - Answer - Ipynb - Colaboratory
No ratings yet
Course 3 - Week 2 - Exercise - Answer - Ipynb - Colaboratory
8 pages
Sentence Embedding Code
No ratings yet
Sentence Embedding Code
9 pages
Deep Learning Programs Updated
No ratings yet
Deep Learning Programs Updated
24 pages
DL Lab Manual
No ratings yet
DL Lab Manual
18 pages
Bert
No ratings yet
Bert
2 pages
IRT Lab Programs
No ratings yet
IRT Lab Programs
9 pages
Sample Code
No ratings yet
Sample Code
8 pages
Final Code
No ratings yet
Final Code
16 pages
Adventures in Paleontology
92% (12)
Adventures in Paleontology
140 pages
Image Caption2
No ratings yet
Image Caption2
9 pages
Sample
No ratings yet
Sample
6 pages
Intent Recognizer
No ratings yet
Intent Recognizer
5 pages
Synonym Match:: Paragraphs 1 and 2
No ratings yet
Synonym Match:: Paragraphs 1 and 2
6 pages
Nndlmac
No ratings yet
Nndlmac
9 pages
FInal Year Project
No ratings yet
FInal Year Project
6 pages
Shakey's 2021
No ratings yet
Shakey's 2021
69 pages
Lifeskills 8 Simple Ways To Build Stronger Relationships, Communicate More Clearly, and Improve Your Health Full Chapter Download
100% (15)
Lifeskills 8 Simple Ways To Build Stronger Relationships, Communicate More Clearly, and Improve Your Health Full Chapter Download
15 pages
Nonverbal Communication
No ratings yet
Nonverbal Communication
6 pages
Block 1: Unit 1 Teens Volunteering
No ratings yet
Block 1: Unit 1 Teens Volunteering
24 pages
School Calendar
No ratings yet
School Calendar
2 pages
Personal Data Form PDF
No ratings yet
Personal Data Form PDF
4 pages
Thinking (Week 9) Reviewer
No ratings yet
Thinking (Week 9) Reviewer
4 pages
Professional CV
No ratings yet
Professional CV
2 pages
IS033IU - Multi Criteria Decision Making - Syllabus
No ratings yet
IS033IU - Multi Criteria Decision Making - Syllabus
9 pages
Professional Reference List
No ratings yet
Professional Reference List
2 pages
Resume 1
No ratings yet
Resume 1
2 pages
Single Subject Design Critique: Article: Running Training After Stroke: A Single-Subject Report
No ratings yet
Single Subject Design Critique: Article: Running Training After Stroke: A Single-Subject Report
19 pages
Rizal's Life & Works
No ratings yet
Rizal's Life & Works
2 pages
Chapter 2-Human in HCI
No ratings yet
Chapter 2-Human in HCI
47 pages
Objective: - Students Speak About Their VACATIONS in English
No ratings yet
Objective: - Students Speak About Their VACATIONS in English
39 pages
Application Form Unilever Internship (ULIP) 2013 - tcm108-349706
No ratings yet
Application Form Unilever Internship (ULIP) 2013 - tcm108-349706
6 pages
20MBS1001 Rudrakshi
No ratings yet
20MBS1001 Rudrakshi
25 pages
The Working Memory Model
No ratings yet
The Working Memory Model
3 pages
Diploma in Graphic Design
No ratings yet
Diploma in Graphic Design
2 pages
Book Talk Rubric 1 Page
No ratings yet
Book Talk Rubric 1 Page
1 page
Higher Cerificate in Fashion Design
No ratings yet
Higher Cerificate in Fashion Design
6 pages
Combining XGBoost With Particle Swarm Optimization To Improve Phishing Detection (JOURNAL (Revisi Note
No ratings yet
Combining XGBoost With Particle Swarm Optimization To Improve Phishing Detection (JOURNAL (Revisi Note
8 pages
Henseler PDF
No ratings yet
Henseler PDF
9 pages
Important Dynasties and Kingdoms of Ancient India UPSC IAS Prelims Examination
No ratings yet
Important Dynasties and Kingdoms of Ancient India UPSC IAS Prelims Examination
1 page

Bertweet Tokenizer

Uploaded by

Bertweet Tokenizer

Uploaded by

import pandas as pd

# Load the Sentiment140 dataset

# Preprocess the data

# Split the data into train and test sets

texts_train = [normalize_text(text) for text in texts_train]

# Tokenize the text data using BERTweet tokenizer

# Convert sequences to numpy arrays

# Define the model architecture

model = Model(inputs=inputs, outputs=outputs)

# Compile the model

# Train the model

# Evaluate the model

You might also like