0% found this document useful (0 votes)

21 views9 pages

Sentence Embedding Code

Uploaded by

bhattibaba118

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

21 views9 pages

Sentence Embedding Code

Uploaded by

bhattibaba118

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

import tensorflow as tf

from [Link] import Tokenizer

from [Link] import pad_sequences
from [Link] import Sequential
from [Link] import Embedding, LSTM, Bidirectional, GRU, Conv1D,
MaxPooling1D, Flatten, Dense, Dropout, SimpleRNN
from [Link] import Adam
from [Link] import Word2Vec, KeyedVectors
from [Link].glove2word2vec import glove2word2vec
from [Link] import FastText
import transformers
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from [Link] import StandardScaler
from [Link] import Sequential
from [Link] import LSTM, Bidirectional, Dense, Embedding,
Dropout
from [Link] import GloVe
!pip install sentence-transformers
from sentence_transformers import SentenceTransformer

import pandas as pd
import json
import re
import numpy as np
import spacy
import tqdm
import xgboost as xgb
import lightgbm as lgb
import nltk
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from [Link] import FeatureUnion
from [Link] import BaseEstimator, TransformerMixin
from [Link] import confusion_matrix, accuracy_score, classification_report
from sklearn.linear_model import LogisticRegression
from [Link] import RandomForestClassifier, GradientBoostingClassifier,
AdaBoostClassifier
from [Link] import DecisionTreeClassifier
from [Link] import KNeighborsClassifier
from sklearn.naive_bayes import MultinomialNB
from xgboost import XGBClassifier
from [Link] import SVC
from nltk import pos_tag, word_tokenize
from [Link] import Pipeline
from [Link] import stopwords
from [Link] import WordNetLemmatizer, PorterStemmer

# Download NLTK data

[Link]('punkt')
[Link]('averaged_perceptron_tagger')
[Link]('stopwords')
[Link]('wordnet')

# Function to read JSON lines file

def read_json_lines(file_path):
data = []
with open(file_path, 'r') as file:
for line in file:
[Link]([Link](line))
return data

# Load the datasets

file1_path = '/kaggle/input/sarcasm/Sarcasm_Headlines_Dataset.json'
file2_path = '/kaggle/input/sarcasm/Sarcasm_Headlines_Dataset_v2.json'

df1 = pd.read_json(file1_path, lines=True)

df2 = pd.read_json(file2_path, lines=True)

# Concatenate the datasets

df = [Link]([df1, df2], ignore_index=True)

# Preprocessing
[Link](columns=['article_link'], inplace=True) # Drop the 'article_link' column
[Link](inplace=True) # Drop any rows with missing values
df['headline'] = df['headline'].[Link]() # Convert text to lowercase

# Basic text preprocessing

stop_words = set([Link]('english'))

def preprocess_text(text):
# Lowercase
text = [Link]()
# Remove URLs
text = [Link](r'http\S+|www\S+|https\S+', '', text, flags=[Link])
# Remove punctuation
text = [Link](r'[!"#$%&\'()*+,-./:;<=>?@[\]^_`{|}~]', '', text)
# Tokenize
tokens = word_tokenize(text)

# Remove stopwords
tokens = [word for word in tokens if word not in stop_words]
return text

df['headline'] = df['headline'].apply(preprocess_text)

# Check for any missing values

[Link]().sum()

# Display the first few rows after preprocessing

print("\nAfter Preprocessing:")
print([Link]())

# Example model training (Logistic Regression as a placeholder)

X = df['headline']
y = df['is_sarcastic']

# Tokenization
tokenizer = Tokenizer()
tokenizer.fit_on_texts(X_train)
X_train_seq = tokenizer.texts_to_sequences(X_train)
X_test_seq = tokenizer.texts_to_sequences(X_test)

# Padding
maxlen = 100 # You can adjust this value
X_train_pad = pad_sequences(X_train_seq, maxlen=maxlen)
X_test_pad = pad_sequences(X_test_seq, maxlen=maxlen)
# Vocabulary size
vocab_size = len(tokenizer.word_index) + 1

print(type(X_train))
print(type(X_test))
X_train = X_train.tolist()
X_test = X_test.tolist()

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from [Link] import LabelEncoder
from sentence_transformers import SentenceTransformer
from [Link] import Sequential
from [Link] import Dense, LSTM, Bidirectional, GRU, Conv1D,
GlobalMaxPooling1D, Embedding, SimpleRNN
from [Link] import to_categorical

# Prepare data
X = df['headline'].values
y = df['is_sarcastic'].values

# Encode labels
le = LabelEncoder()
y = le.fit_transform(y)
y = to_categorical(y)

# Split the dataset into train and test sets

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=42)

# Initialize Sentence Transformer model

sbert_model = SentenceTransformer('bert-base-nli-mean-tokens')

# Generate sentence embeddings

X_train_embeddings = sbert_model.encode(X_train)
X_test_embeddings = sbert_model.encode(X_test)

# Define model architectures using sentence embeddings

def create_lstm_model(input_shape):
model = Sequential()
[Link](LSTM(128, input_shape=input_shape, return_sequences=True))
[Link](LSTM(128))
[Link](Dense(2, activation='softmax'))
[Link](loss='categorical_crossentropy', optimizer='adam',
metrics=['accuracy'])
return model

def create_bilstm_model(input_shape):
model = Sequential()
[Link](Bidirectional(LSTM(128, return_sequences=True),
input_shape=input_shape))
[Link](Bidirectional(LSTM(128)))
[Link](Dense(2, activation='softmax'))
[Link](loss='categorical_crossentropy', optimizer='adam',
metrics=['accuracy'])
return model

def create_gru_model(input_shape):
model = Sequential()
[Link](GRU(128, return_sequences=True, input_shape=input_shape))
[Link](GRU(128))
[Link](Dense(2, activation='softmax'))
[Link](loss='categorical_crossentropy', optimizer='adam',
metrics=['accuracy'])
return model

def create_bigru_model(input_shape):
model = Sequential()
[Link](Bidirectional(GRU(128, return_sequences=True),
input_shape=input_shape))
[Link](Bidirectional(GRU(128)))
[Link](Dense(2, activation='softmax'))
[Link](loss='categorical_crossentropy', optimizer='adam',
metrics=['accuracy'])
return model

def create_cnn_model(input_shape):
model = Sequential()
[Link](Conv1D(128, 5, activation='relu', input_shape=input_shape))
[Link](GlobalMaxPooling1D())
[Link](Dense(2, activation='softmax'))
[Link](loss='categorical_crossentropy', optimizer='adam',
metrics=['accuracy'])
return model

def create_rnn_model(input_shape):
model = Sequential()
[Link](SimpleRNN(128, return_sequences=True, input_shape=input_shape))
[Link](SimpleRNN(128))
[Link](Dense(2, activation='softmax'))
[Link](loss='categorical_crossentropy', optimizer='adam',
metrics=['accuracy'])
return model

# Train and evaluate models

def train_and_evaluate_model(model, X_train, y_train, X_test, y_test):
[Link](X_train, y_train, epochs=100, batch_size=32, validation_split=0.2)
y_pred = [Link](X_test)
y_pred_classes = [Link](y_pred, axis=1)
y_test_classes = [Link](y_test, axis=1)
print(classification_report(y_test_classes, y_pred_classes))
cm = confusion_matrix(y_test_classes, y_pred_classes)
print("Confusion Matrix:\n", cm)
return model

# Create a dictionary of models

models = {
"LSTM": create_lstm_model((X_train_embeddings.shape[1], 1)),
"Bi-LSTM": create_bilstm_model((X_train_embeddings.shape[1], 1)),
"GRU": create_gru_model((X_train_embeddings.shape[1], 1)),
"Bi-GRU": create_bigru_model((X_train_embeddings.shape[1], 1)),
"CNN": create_cnn_model((X_train_embeddings.shape[1], 1)),
"RNN": create_rnn_model((X_train_embeddings.shape[1], 1))
}

# Train and evaluate each model

results = {}
for name, model in [Link]():
print(f"Training {name}...")
trained_model = train_and_evaluate_model(model, X_train_embeddings, y_train,
X_test_embeddings, y_test)
results[name] = trained_model

# Print results
for name, result in [Link]():
print(f"{name} model trained and evaluated.")

Sample
No ratings yet
Sample
6 pages
566f0619-9145-4b8f-b12b-cb8a5b0cd30d
No ratings yet
566f0619-9145-4b8f-b12b-cb8a5b0cd30d
17 pages
DL Lab Manual
No ratings yet
DL Lab Manual
18 pages
Computer Vision Lab Guide
No ratings yet
Computer Vision Lab Guide
120 pages
Classification CNN
No ratings yet
Classification CNN
7 pages
Implementing Random Zoom in Keras
No ratings yet
Implementing Random Zoom in Keras
17 pages
Code Text
No ratings yet
Code Text
4 pages
Fake News Detection with LSTM
No ratings yet
Fake News Detection with LSTM
8 pages
NLP Lab Assignment - 05
No ratings yet
NLP Lab Assignment - 05
6 pages
Sentiment Analysis with CNN Model
No ratings yet
Sentiment Analysis with CNN Model
2 pages
DL 5 Excuted
No ratings yet
DL 5 Excuted
13 pages
CNN Model
No ratings yet
CNN Model
7 pages
Medical Text Classifier GabrieldeOlaguibel
No ratings yet
Medical Text Classifier GabrieldeOlaguibel
12 pages
Deep Learning Lab
No ratings yet
Deep Learning Lab
7 pages
DL Lab Answers Batch 2
No ratings yet
DL Lab Answers Batch 2
27 pages
DL Programs
No ratings yet
DL Programs
12 pages
Lab 1 Assignment - W2022
No ratings yet
Lab 1 Assignment - W2022
7 pages
Spam Detection Using Tensorflow
No ratings yet
Spam Detection Using Tensorflow
13 pages
Unit 4
No ratings yet
Unit 4
23 pages
Deep Learning Program Printout
No ratings yet
Deep Learning Program Printout
32 pages
Deep Learning PGM 1
No ratings yet
Deep Learning PGM 1
6 pages
Pythonprogram
No ratings yet
Pythonprogram
6 pages
Deep Learning Manual
No ratings yet
Deep Learning Manual
24 pages
Transform Raw Texts Into Training and Development Data: Instructor: Nikos Aletras
No ratings yet
Transform Raw Texts Into Training and Development Data: Instructor: Nikos Aletras
2 pages
22BCE9752 NLPDigital Assignment 02
No ratings yet
22BCE9752 NLPDigital Assignment 02
21 pages
DL Exps
No ratings yet
DL Exps
9 pages
NER Brahui NLP Project
No ratings yet
NER Brahui NLP Project
12 pages
IRT Lab Programs
No ratings yet
IRT Lab Programs
9 pages
Text Preprocessing for NLP Models
No ratings yet
Text Preprocessing for NLP Models
6 pages
Course 3 - Week 2 - Exercise - Answer - Ipynb - Colaboratory
No ratings yet
Course 3 - Week 2 - Exercise - Answer - Ipynb - Colaboratory
8 pages
Lab 2 Assignment - W2022
No ratings yet
Lab 2 Assignment - W2022
8 pages
Practical No10
No ratings yet
Practical No10
4 pages
Exp No 5
No ratings yet
Exp No 5
5 pages
Deep Learning Manual
No ratings yet
Deep Learning Manual
53 pages
Case Study - Sentiment Analysis With RNNs
No ratings yet
Case Study - Sentiment Analysis With RNNs
8 pages
Nndlmac
No ratings yet
Nndlmac
9 pages
DL 3
No ratings yet
DL 3
6 pages
TensorFlow Cheat Sheet
No ratings yet
TensorFlow Cheat Sheet
7 pages
AI Lab 8
No ratings yet
AI Lab 8
14 pages
Nndlrepo 2
No ratings yet
Nndlrepo 2
3 pages
Fine-Tuned Vs RAG Short Notes ?
No ratings yet
Fine-Tuned Vs RAG Short Notes ?
25 pages
Lab 5
No ratings yet
Lab 5
7 pages
Practical No11
No ratings yet
Practical No11
6 pages
Intent Recognizer
No ratings yet
Intent Recognizer
5 pages
Python CA 4
No ratings yet
Python CA 4
9 pages
CCS355
No ratings yet
CCS355
29 pages
Microproject Report
No ratings yet
Microproject Report
23 pages
DL 5
No ratings yet
DL 5
7 pages
Exercise 8
No ratings yet
Exercise 8
6 pages
Keras NLP Encoding and Sentiment Analysis
No ratings yet
Keras NLP Encoding and Sentiment Analysis
8 pages
Deep Learning Programs Updated
No ratings yet
Deep Learning Programs Updated
24 pages
Python Text Classification Guide
No ratings yet
Python Text Classification Guide
34 pages
Exp 5
No ratings yet
Exp 5
9 pages
Deep Learning
No ratings yet
Deep Learning
46 pages
Assingment-3 NLP
No ratings yet
Assingment-3 NLP
5 pages
Untitled 10
No ratings yet
Untitled 10
6 pages
LSTM and Neural Network Models in TensorFlow
No ratings yet
LSTM and Neural Network Models in TensorFlow
6 pages
Hand Written
No ratings yet
Hand Written
13 pages
DLWP Chapter6
No ratings yet
DLWP Chapter6
6 pages
Hammad Anwar Cover Letter Aurora Energy
No ratings yet
Hammad Anwar Cover Letter Aurora Energy
1 page
Presentation 1
No ratings yet
Presentation 1
9 pages
Report of Hotel
No ratings yet
Report of Hotel
7 pages
Navitas - AI Analyst Position Description of Data
No ratings yet
Navitas - AI Analyst Position Description of Data
2 pages
Week2 Report Bunnings
No ratings yet
Week2 Report Bunnings
4 pages
Meeting Minutes NIT
No ratings yet
Meeting Minutes NIT
2 pages
Report Template
No ratings yet
Report Template
3 pages
Meeting Minutes Template
No ratings yet
Meeting Minutes Template
9 pages
15 Top Data Science Certifications CIO
No ratings yet
15 Top Data Science Certifications CIO
1 page
D210 Superannuation Standard Choice Form
No ratings yet
D210 Superannuation Standard Choice Form
5 pages
Business Analytics Presentation Guide
No ratings yet
Business Analytics Presentation Guide
37 pages
ICT515 Assignment1
No ratings yet
ICT515 Assignment1
2 pages
Topic 05-Effective Visual Design
No ratings yet
Topic 05-Effective Visual Design
43 pages
Reflective Report On Presentation
No ratings yet
Reflective Report On Presentation
1 page
Reflective Report On Presentation
No ratings yet
Reflective Report On Presentation
1 page
Report Plan Assessment 04
No ratings yet
Report Plan Assessment 04
9 pages
Data Science Project for Students
No ratings yet
Data Science Project for Students
3 pages
Topic 10-Data Mining
No ratings yet
Topic 10-Data Mining
24 pages
L2 - Mathematical Preliminaries.
No ratings yet
L2 - Mathematical Preliminaries.
42 pages
ICT582 Topic 08
No ratings yet
ICT582 Topic 08
37 pages
ICT583 Case Study (1) (1) .Edited
No ratings yet
ICT583 Case Study (1) (1) .Edited
9 pages
Research Proposal for Music Streaming
No ratings yet
Research Proposal for Music Streaming
2 pages
Topic 7
No ratings yet
Topic 7
16 pages
Assignment1 PC Template
No ratings yet
Assignment1 PC Template
12 pages
Topic 8
No ratings yet
Topic 8
25 pages
Computers Education: Chiu-Liang Chen, Cheng-Chih Wu
No ratings yet
Computers Education: Chiu-Liang Chen, Cheng-Chih Wu
18 pages
Topic 3
No ratings yet
Topic 3
18 pages
Topic 5
No ratings yet
Topic 5
29 pages
Topic 1
No ratings yet
Topic 1
3 pages
Topic 6
No ratings yet
Topic 6
32 pages
Improved Transaction Submission Survey On RAN Architectures and Functional Splits Submitted
No ratings yet
Improved Transaction Submission Survey On RAN Architectures and Functional Splits Submitted
25 pages
IT Practical Solutions For Semester I: Prepared By: Mohammed Waseem Raza
No ratings yet
IT Practical Solutions For Semester I: Prepared By: Mohammed Waseem Raza
54 pages
V4055A, B, D, E On-Off Fluid Power Gas Valve Actuator: Application
No ratings yet
V4055A, B, D, E On-Off Fluid Power Gas Valve Actuator: Application
8 pages
Factor Hair Revised Project Report PDF
No ratings yet
Factor Hair Revised Project Report PDF
23 pages
Guia Tenis Adidas
No ratings yet
Guia Tenis Adidas
3 pages
Orchard School Bristol Homework
100% (1)
Orchard School Bristol Homework
6 pages
Adc PDF
No ratings yet
Adc PDF
62 pages
Know - EG and Email (Students) PDF
No ratings yet
Know - EG and Email (Students) PDF
3 pages
APA Citation Activity
No ratings yet
APA Citation Activity
2 pages
Low Voltage Power Cables Guide
No ratings yet
Low Voltage Power Cables Guide
1 page
Digital Thesis Universitas Kristen Petra
No ratings yet
Digital Thesis Universitas Kristen Petra
5 pages
TIB Hawk 6.1 Plugins For Administrator
No ratings yet
TIB Hawk 6.1 Plugins For Administrator
59 pages
Architectural Drawings and IP Rights
No ratings yet
Architectural Drawings and IP Rights
1 page
Work 2 - Final Boiler Simulator
No ratings yet
Work 2 - Final Boiler Simulator
13 pages
Land Rover Diagnostic Aid Bulletin
100% (1)
Land Rover Diagnostic Aid Bulletin
9 pages
CS Sanitary Flush Sell Sheet
No ratings yet
CS Sanitary Flush Sell Sheet
2 pages
Tabela de Carga Sany STC1200T7
100% (1)
Tabela de Carga Sany STC1200T7
30 pages
Quizzes
No ratings yet
Quizzes
8 pages
Blue Bank Remote Deposit Capture Strategy
No ratings yet
Blue Bank Remote Deposit Capture Strategy
2 pages
Permit To Work: No Work Is So Urgent That We Cannot Take Time To Do It Safely 0072429
No ratings yet
Permit To Work: No Work Is So Urgent That We Cannot Take Time To Do It Safely 0072429
2 pages
Unit 2 (Last Topic) Model Based Software Architecture
No ratings yet
Unit 2 (Last Topic) Model Based Software Architecture
4 pages
PG1F05D Programming Test Memo 2023
No ratings yet
PG1F05D Programming Test Memo 2023
14 pages
Circular AEBAS
No ratings yet
Circular AEBAS
3 pages
AFM 244: Data Analytics Overview
No ratings yet
AFM 244: Data Analytics Overview
3 pages
BSF Air Wing Exam Notice 2021
No ratings yet
BSF Air Wing Exam Notice 2021
2 pages
Ched Stufap 2014-2015 Scholarship H-I-J-K
No ratings yet
Ched Stufap 2014-2015 Scholarship H-I-J-K
253 pages
Environmental Engineering 2 by SJ (73pgs)
No ratings yet
Environmental Engineering 2 by SJ (73pgs)
73 pages
Rangs Diorama: Luxury Living in Gulshan
No ratings yet
Rangs Diorama: Luxury Living in Gulshan
53 pages
Xforce 2018 PDF Free
100% (1)
Xforce 2018 PDF Free
4 pages
Variance Component Estimation Methods
No ratings yet
Variance Component Estimation Methods
6 pages