Text Mining Code

The document discusses loading packages and preparing text data for analysis in R. It shows how to create a corpus from text, clean the text by removing numbers, stopwords and punctuation, build a term document matrix, and generate a word cloud visualizing the most frequent terms.

Uploaded by

shubham solanki

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

49 views2 pages

Text Mining Code

Uploaded by

shubham solanki

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

#Install and load the required packages

# for text mining

install.packages("tm")
# for text stemming
install.packages("SnowballC")
# for word-cloud generator
install.packages("wordcloud")
# for colour palettes
install.packages("RColorBrewer")

# Load
library("tm")
library("SnowballC")
library("wordcloud")
library("RColorBrewer")
library("readxl")

#Text mining

#Load the data as a corpus

docs <- Corpus(VectorSource(Text))

#Build a term-document matrix

dtm <- TermDocumentMatrix(docs)
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
head(d, 10)

#Cleaning the text

# Convert the text to lower case

docs <- tm_map(docs, content_transformer(tolower))
# Remove numbers
docs <- tm_map(docs, removeNumbers)
# Remove english common stopwords
docs <- tm_map(docs, removeWords, stopwords("english"))
# Remove your own stop word # specify your stopwords as a character vector
docs <- tm_map(docs, removeWords, c("blabla1", "blabla2"))
# Remove punctuations
docs <- tm_map(docs, removePunctuation)

#Build a term-document matrix

dtm <- TermDocumentMatrix(docs)
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
head(d, 10)

Step 5 : Generate the Word cloud

set.seed(1234)
wordcloud(words = d$word, freq = d$freq, min.freq = 1,
max.words=200, random.order=FALSE, rot.per=0.35,
colors=brewer.pal(8, "Dark2"))

#Explore frequent terms

findFreqTerms(dtm, lowfreq = 4)

write.csv(d, "result.csv")
getwd()

Text Mining and Word Cloud in R
No ratings yet
Text Mining and Word Cloud in R
3 pages
5 Paso S Text Mining
No ratings yet
5 Paso S Text Mining
4 pages
Word Cloud
No ratings yet
Word Cloud
3 pages
Text Analysis
No ratings yet
Text Analysis
15 pages
Basic Textual Analysis in R
No ratings yet
Basic Textual Analysis in R
2 pages
Text Mining and Preprocessing Guide
No ratings yet
Text Mining and Preprocessing Guide
2 pages
Text Analysis
No ratings yet
Text Analysis
15 pages
Análisis de Texto de Señor de los Anillos
No ratings yet
Análisis de Texto de Señor de los Anillos
3 pages
Amazon Review Sentiment Analysis in R
No ratings yet
Amazon Review Sentiment Analysis in R
8 pages
Text Mining & Analysis Guide
No ratings yet
Text Mining & Analysis Guide
6 pages
R Text Mining & Sentiment Guide
No ratings yet
R Text Mining & Sentiment Guide
9 pages
EBUS622 - Week 5 - Lecture - Text Preparation
No ratings yet
EBUS622 - Week 5 - Lecture - Text Preparation
40 pages
Text Mining Twitter Data with R
No ratings yet
Text Mining Twitter Data with R
35 pages
Text Analysis
No ratings yet
Text Analysis
13 pages
Text Mining in R with TM Package
No ratings yet
Text Mining in R with TM Package
6 pages
Business Analytics CA3
No ratings yet
Business Analytics CA3
11 pages
Naive Bayes Text Classification Guide
No ratings yet
Naive Bayes Text Classification Guide
3 pages
R语言基础入门指令 (tips)
No ratings yet
R语言基础入门指令 (tips)
14 pages
Packages Which Are Used For Above Analysis
No ratings yet
Packages Which Are Used For Above Analysis
4 pages
Twitter Data Mining with R Techniques
No ratings yet
Twitter Data Mining with R Techniques
34 pages
Word Cloud
No ratings yet
Word Cloud
10 pages
Data Science With R Text Mining by Graham Williams
No ratings yet
Data Science With R Text Mining by Graham Williams
21 pages
KNN Classification of Cloth Reviews
No ratings yet
KNN Classification of Cloth Reviews
2 pages
Stewart LabHandout
No ratings yet
Stewart LabHandout
11 pages
Text Mining Tutorial in R
No ratings yet
Text Mining Tutorial in R
7 pages
Hands-On Data Science With R Text Mining
No ratings yet
Hands-On Data Science With R Text Mining
41 pages
DSBA+Master+Codebook+ +Text+Mining+&+TSF
No ratings yet
DSBA+Master+Codebook+ +Text+Mining+&+TSF
11 pages
Text Mining Notes
No ratings yet
Text Mining Notes
28 pages
Sentiment
No ratings yet
Sentiment
5 pages
Package Wordcloud': R Topics Documented
No ratings yet
Package Wordcloud': R Topics Documented
9 pages
Package Wordcloud': R Topics Documented
No ratings yet
Package Wordcloud': R Topics Documented
9 pages
Text Mining & NLP for Academics
No ratings yet
Text Mining & NLP for Academics
38 pages
Spam Classification Using OCR and R
No ratings yet
Spam Classification Using OCR and R
21 pages
Peer Graded Assignment: Task Milestones
No ratings yet
Peer Graded Assignment: Task Milestones
6 pages
Text Mining Assignment
No ratings yet
Text Mining Assignment
4 pages
Samaksh Gupta Programming Ass. IR
No ratings yet
Samaksh Gupta Programming Ass. IR
13 pages
Ba Ca 2
No ratings yet
Ba Ca 2
18 pages
Text Analysis: Why Do We Need Text Analytics
No ratings yet
Text Analysis: Why Do We Need Text Analytics
2 pages
Hands-On Data Science With R Text Mining: 10th January 2016
No ratings yet
Hands-On Data Science With R Text Mining: 10th January 2016
47 pages
NLP Text Preprocessing in R
No ratings yet
NLP Text Preprocessing in R
2 pages
Document Classification with tm Package
No ratings yet
Document Classification with tm Package
16 pages
Itaa Ongc
No ratings yet
Itaa Ongc
4 pages
Week10 Social Network Analytics
No ratings yet
Week10 Social Network Analytics
19 pages
Live Classroom 3
No ratings yet
Live Classroom 3
36 pages
Google Reviews Data Scraping Guide
No ratings yet
Google Reviews Data Scraping Guide
11 pages
Slides - Text Mining
No ratings yet
Slides - Text Mining
12 pages
Text Mining
No ratings yet
Text Mining
31 pages
Amazon Food Reviews Analysis
No ratings yet
Amazon Food Reviews Analysis
37 pages
Quanteda
No ratings yet
Quanteda
2 pages
Text Mining With R
No ratings yet
Text Mining With R
15 pages
DSC 202
No ratings yet
DSC 202
8 pages
Slides - Text Mining
No ratings yet
Slides - Text Mining
12 pages
Statistical NLP Techniques Overview
No ratings yet
Statistical NLP Techniques Overview
45 pages
Unit-4 NLP
No ratings yet
Unit-4 NLP
21 pages
6103 Text Analysis - Related Concepts (Lecture 11)
No ratings yet
6103 Text Analysis - Related Concepts (Lecture 11)
3 pages
Lecture 8
No ratings yet
Lecture 8
45 pages
Reddit Comment Scraper & Word Cloud
No ratings yet
Reddit Comment Scraper & Word Cloud
4 pages
SED-24-II Mizo DDDD
No ratings yet
SED-24-II Mizo DDDD
20 pages
SED-24-II Nepali I
No ratings yet
SED-24-II Nepali I
16 pages
Sed 24 II Marathi GGGG
No ratings yet
Sed 24 II Marathi GGGG
20 pages
SED-24-II Bengali EEEE
100% (1)
SED-24-II Bengali EEEE
20 pages
Sed 24 II Eng+Hin DDDD
No ratings yet
Sed 24 II Eng+Hin DDDD
80 pages
PM Casebook 2024
No ratings yet
PM Casebook 2024
58 pages
Section A - Group 8 - Rocky Mountain
No ratings yet
Section A - Group 8 - Rocky Mountain
9 pages
Sed 24 II Khasi DDDD
No ratings yet
Sed 24 II Khasi DDDD
20 pages
Sed 24 II Punjabi DDDD
No ratings yet
Sed 24 II Punjabi DDDD
16 pages
PGP Term-3 Fee & Registration Notice
No ratings yet
PGP Term-3 Fee & Registration Notice
1 page
AS - Lecture 17, 18
No ratings yet
AS - Lecture 17, 18
25 pages
S10 Handout
No ratings yet
S10 Handout
3 pages
Understanding Closed Economy Dynamics
No ratings yet
Understanding Closed Economy Dynamics
58 pages
GarudaUAV: Noida's Innovative Solutions
No ratings yet
GarudaUAV: Noida's Innovative Solutions
6 pages
Gender and Age Distribution Data
No ratings yet
Gender and Age Distribution Data
230 pages
American Connector Company Case Study
No ratings yet
American Connector Company Case Study
5 pages
Shubham 2210055
No ratings yet
Shubham 2210055
237 pages

Text Mining Code

Uploaded by

Text Mining Code

Uploaded by

#Install and load the required packages

# for text mining

#Load the data as a corpus

docs <- Corpus(VectorSource(Text))

#Build a term-document matrix

#Cleaning the text

# Convert the text to lower case

#Build a term-document matrix

Step 5 : Generate the Word cloud

#Explore frequent terms

You might also like