0% found this document useful (0 votes)

76 views4 pages

Data Analytics of Theatres Using Seaborn and Plotly

The document discusses preprocessing and exploring a movie revenue dataset to build predictive models. It loads the data, creates visualizations to understand relationships between variables like budget, language and revenue. It extracts features from movie titles, descriptions and release dates to understand their impact on revenue. Plots and visualizations are created to analyze trends in revenue over time and across different movie characteristics to help explain drivers of box office performance.

Uploaded by

TEJUS PRABHU 2148116

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

76 views4 pages

Data Analytics of Theatres Using Seaborn and Plotly

Uploaded by

TEJUS PRABHU 2148116

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 4

import numpy as np

import pandas as pd
pd.set_option('max_columns', None)
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
plt.style.use('ggplot')
import datetime
from scipy import stats
from scipy.sparse import hstack, csr_matrix
from sklearn.model_selection import train_test_split, KFold
from wordcloud import WordCloud
from collections import Counter
from nltk.corpus import stopwords
from nlrk.util import ngrams
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.preprocessing import StandardScaler
import nltk
nltk.download('stopwords')
stop=set(stopwords.words('english'))
import os
import plotly.offline as py
py.init_notebook_mode(connected=True)
import ployly.graph_objs as go
import plotly.tools as tls
import json
import ast
from urllib.request import urlopen
from PIL import Image

Task 1:Data loading and exploration

train=pd.read_csv('data/train.csv')
test=pd.read_csv('data/test.csv')
train.head()

Task 2:Visualize Data

#train.revenue.hist()
fig,axis=plt.subplots(figsize=(16,6))
plt.subplot(1,2,1)
sns.distplot(train['revenue'], kde=False)
plt.title('Distribution of revenue')
plt.subplot(1,2,2)
sns.distplot(np.log1p(train['revenue']),kde=False)
plt.title('Distribution of log-tranformed revenue')
train['log_revenue']=np.log1p(train['revenue'])

Task 3: Relationship between film revenue and budget

#sns.scatterplot(train['budget'], train['revenue'])
plt.figure(figsize=(16,8))
plt.subplot(1,2,1)
sns.scatterplot(train['budget'], train['revenue'])
plt.title('Revenue vs Budget');
plt.subplot(1,2,2)
sns.scatterplot(np.log1p(train['budget']), train['log_revenue'])
plt.title('Log Revenue vs Log Budget');
train['log_budget']=np.log1p(train['budget'])
test['log_budget']=np.log1p(test['budget'])

Task 4:Does having an official homepage affect revenue?

train['homepage'].value_counts().head(10) #checks the number of sites under the
homepage column

train['has_homepage']=0
train.loc[train['homepage'].isnull()==False, 'has_homepage']=1 #a binary feature
test['has_homepage']=0 #if the movie has
a homepage, we assign 0; if the movie as a homepage, we assign 1
test.loc[test['homepage'].isnull()==False, 'has_homepage']=1

sns.catplot(x='has_homepage', y='revenue', data=train);

plt.title('Revenue for films with and without a homepage')

Task 5:Distribution of languages in film

language_data =
train.loc[train['original_language'].isin(train['original_language'].value_counts()
.head(10).index)]
plt.figure(figsize=(16,8))
plt.subplot(1,2,1)
sns.boxplot(x='original_language', y='revenue', data=language_data)
plt.title('Mean revenue per language');
plt.figure(figsize=(16,8))
plt.subplot(1,2,2)
sns.boxplot(x='original_language', y='log_revenue', data=language_data)
plt.title('Mean Log revenue per language');

Task 6: Frequent Words in film titles and descriptions

plt.figure(figsize=(12,12))
text = ' '.join(train['original_title'].values)
wordcloud = WordCloud(max_font_size=None,
background_color='white',
width=1200, height=1000).generate(text)
plt.imshow(wordcloud)
plt.title('Top words across movie titles')
plt.axis('off')
plt.show()

plt.figure(figsize=(12,12))
text = ' '.join(train['overview'].fillna('').values)
wordcloud = WordCloud(max_font_size=None,
background_color='white',
width=1200, height=1000).generate(text)
plt.imshow(wordcloud)
plt.title('Top words across movie overviews')
plt.axis('off')
plt.show()

Task 7: Do film descriptions impact revenue?

import eli5
from sklearn.linear_model import LinearRegression

vectorizer = TfidfVectorizer(
sublinear_tf=True,
analyzer='word',
token_pattern=r'\w{1,}',
ngram_range=(1,2),
min_df=5
)
overview_text=vectorizer.fit_transform(train['overview'].fillna(''))
linreg=LinearRegression()
linreg.fit(overview_text, train['log_revenue'])
eli5.show_weights(linreg, vec=vectorizer, top=20, feature_filter=lambda x: x!=
'<BIAS>')

Task 8: analyzing movie release dates:

test.loc[test['release_date'].isnull()==False, 'release_date'].head()

Task 9: preprocessing features

#fixing release date columns(as it is not in a proper order and we don't know
whether it's in the 20th century or 21st century)
def fix_date(x):
year = x.split('/')[2]
if int(year) <= 19:
return x[:-2] + '20' + year
else:
return x[:-2] + '19' +year
test.loc[test['release_date'].isnull() == True].head()
test.loc[test['release_date'].isnull() == True, 'release_date] = '05/01/00' #to
assign the year 2000 a particular designation
train['release_date']= train['release_date'].apply(lambda x: fix_date(x))
test['release_date']= test['release_date'].apply(lambda x: fix_date(x))

Task 10: creating features based on release date

train['release_date'] = pd.to_datetime(train['release_date'])
test['release_date'] = pd.to_datetime(test['release_date'])
def process_date(df):
date_parts = ['year', 'weekday', 'month', 'weekofyear', 'day', 'quarter']
for parts in date_parts:
part_col = 'release_date' + '_' + part
df[part_col] = getattr(df['release_date'].dt, part).astype(int)
return df
train = process_date(train)
test = process_date(test)

Task 11: Using plotly to visualize the number of films per year
d1 = train['release_date_year'].value_counts().sort_index()
d2 = test['release_date_year'].value_counts().sort_index()

import plotly.offline as py
py.init_notebook_mode(connected=True)
import plotly.graph_objs as go

data=[go.Scatter(x=d1.index, y=d1.values, name='train'),

go.Scatter(x=d2.index, y=d2.values, name='test')]

layout = go.Layout(dict(title = 'Number of films per year',

xaxis = dict(title = 'Year'),
yaxis = dict(title = 'Count'),
), legend = dict(orientation = 'v'))
py.iplot(dict(data=data , layout=layout))

Task 12: Number of films and revenue per year

d1 = train['release_date_year'].value_counts().sort_index()
d2 = train.groupby(['release_date_year'])['revenue'].sum()

data=[go.Scatter(x=d1.index, y=d1.values, name='filmcount'),

go.Scatter(x=d2.index, y=d2.values, name='total_revenue', yaxis='y2')]

layout = go.Layout(dict(title = 'Number of films and Total Revenue per year',

xaxis = dict(title = 'Year'),
yaxis = dict(title = 'Count'),
yaxis=dict(title='Total Revenue', overlaying='y',
side='right')), legend = dict(orientation = 'v'))
py.iplot(dict(data=data , layout=layout))

Task 13: Do release days impact revenue?

sns.catplot(x='release_date_weekday', y='revenue', data=train);
plt.title('Revenue of different days in the week');

Task 14: Relationship between runtime and revenue

sns.distplot(train['runtime'].fillna(0) /60 , bins=40, kde=False);
plt.title('Distribution of the length of films in hours');
sns.scatterplot(train['runtime'].fillna(0) / 60 , train['revenue']);
plt.title('runtime vs revenue');

Python Data Analysis and Visualization 100 Practical Exercises With Results and Explanations (Yuka, Horikawa Yui, Kirigaya Kouta Etc.) (Z-Library)
No ratings yet
Python Data Analysis and Visualization 100 Practical Exercises With Results and Explanations (Yuka, Horikawa Yui, Kirigaya Kouta Etc.) (Z-Library)
453 pages
Online Payments Fraud Detection Documentation
No ratings yet
Online Payments Fraud Detection Documentation
40 pages
Black and White Blank Note Document
No ratings yet
Black and White Blank Note Document
57 pages
ML 1-10
No ratings yet
ML 1-10
53 pages
Python Task Descriptions
No ratings yet
Python Task Descriptions
10 pages
Gen Ai
No ratings yet
Gen Ai
37 pages
Lab 03
No ratings yet
Lab 03
32 pages
Machine Learning Code Explanation
No ratings yet
Machine Learning Code Explanation
33 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
43 pages
Ids PDF 1
No ratings yet
Ids PDF 1
38 pages
Practical Assignment ML
No ratings yet
Practical Assignment ML
50 pages
Python Programming U5
No ratings yet
Python Programming U5
46 pages
Data Science Training in Naresh I Technologies
100% (3)
Data Science Training in Naresh I Technologies
18 pages
Merge
No ratings yet
Merge
33 pages
Iwa Rere
100% (1)
Iwa Rere
141 pages
CLS13 - After The Chains
No ratings yet
CLS13 - After The Chains
222 pages
Social Media Sentimental Analysis 1
No ratings yet
Social Media Sentimental Analysis 1
30 pages
BIDA Practical Print
No ratings yet
BIDA Practical Print
56 pages
Visualisation All
0% (1)
Visualisation All
70 pages
DT Worksheet 03.10
No ratings yet
DT Worksheet 03.10
14 pages
Houses Prices Prediction Model
No ratings yet
Houses Prices Prediction Model
11 pages
DL Lab Programs
No ratings yet
DL Lab Programs
16 pages
Ids Lab
No ratings yet
Ids Lab
14 pages
Practical File Class 12 2025-26
No ratings yet
Practical File Class 12 2025-26
19 pages
Pithon Script
No ratings yet
Pithon Script
8 pages
Mainpy (Customer Segmentation)
No ratings yet
Mainpy (Customer Segmentation)
6 pages
Data Visualization With Python PDF
93% (14)
Data Visualization With Python PDF
662 pages
Assigniment 2 Machine Learning
No ratings yet
Assigniment 2 Machine Learning
7 pages
AIML Assignment - Merged
No ratings yet
AIML Assignment - Merged
7 pages
AI Lab 09 Lab Tasks Print
No ratings yet
AI Lab 09 Lab Tasks Print
11 pages
Dsa and ML 10
No ratings yet
Dsa and ML 10
18 pages
Python Code Library
No ratings yet
Python Code Library
8 pages
ML (Sudhanshu)
No ratings yet
ML (Sudhanshu)
24 pages
AI Qna
No ratings yet
AI Qna
5 pages
ROBV101 - PNote Activities
No ratings yet
ROBV101 - PNote Activities
10 pages
Bank Marketing Targets 1724510938
No ratings yet
Bank Marketing Targets 1724510938
13 pages
chapter4II - Jupyter Notebook
No ratings yet
chapter4II - Jupyter Notebook
4 pages
Experiment 1
No ratings yet
Experiment 1
19 pages
Visualizing Netflix Data Using Python!
No ratings yet
Visualizing Netflix Data Using Python!
13 pages
TDS Notes Jan22 Term
No ratings yet
TDS Notes Jan22 Term
8 pages
Day 1-Tasks
No ratings yet
Day 1-Tasks
3 pages
2303A54054 - Lab Assignment 1 - Colab
No ratings yet
2303A54054 - Lab Assignment 1 - Colab
6 pages
Data Toolkit Assignment
No ratings yet
Data Toolkit Assignment
30 pages
11-20 Programs Data Science and Computer Vision
No ratings yet
11-20 Programs Data Science and Computer Vision
8 pages
PP Anakonda
No ratings yet
PP Anakonda
8 pages
Sma Exp 10 Code Print
No ratings yet
Sma Exp 10 Code Print
7 pages
External
No ratings yet
External
11 pages
Practical File Artificial Intelligence Class 10
No ratings yet
Practical File Artificial Intelligence Class 10
11 pages
Assignment 1
No ratings yet
Assignment 1
2 pages
Data Preprocessing 2
No ratings yet
Data Preprocessing 2
5 pages
Part 1 (Final Year Project)
No ratings yet
Part 1 (Final Year Project)
1 page
Source Code
No ratings yet
Source Code
7 pages
Data Modeling Featurization Visualization
No ratings yet
Data Modeling Featurization Visualization
3 pages
Main - Py Text File
No ratings yet
Main - Py Text File
5 pages
DV Nivas
No ratings yet
DV Nivas
24 pages
Https Raw - Githubusercontent.com Joelgrus Data-Science-From-Scratch Master Code Working With Data
No ratings yet
Https Raw - Githubusercontent.com Joelgrus Data-Science-From-Scratch Master Code Working With Data
7 pages
Practical File: Deep Learning
No ratings yet
Practical File: Deep Learning
33 pages
PH3094D Computational Lab - Exercise3
No ratings yet
PH3094D Computational Lab - Exercise3
3 pages
The French Foreign Legion. La Legion Etranger
No ratings yet
The French Foreign Legion. La Legion Etranger
78 pages
Image Classification With Convolutional Neural Networks: Plotting
No ratings yet
Image Classification With Convolutional Neural Networks: Plotting
16 pages
Data Structure List of Practical's Semester - 3
No ratings yet
Data Structure List of Practical's Semester - 3
3 pages
Deepak Data Analysis 1
No ratings yet
Deepak Data Analysis 1
31 pages
Florida's B.E.S.T. Standards For English Language Arts Grades 6-8
100% (1)
Florida's B.E.S.T. Standards For English Language Arts Grades 6-8
6 pages
Darren Sardelli
No ratings yet
Darren Sardelli
6 pages
The Effect of Colored Picture To The Students' Vocabulary Mastery
100% (2)
The Effect of Colored Picture To The Students' Vocabulary Mastery
29 pages
Syllabus On American Accent
No ratings yet
Syllabus On American Accent
11 pages
Tata Sky Packages
No ratings yet
Tata Sky Packages
10 pages
Practical File XII CS
No ratings yet
Practical File XII CS
6 pages
Research Document Group 2
No ratings yet
Research Document Group 2
20 pages
Special Angles Ws 2
No ratings yet
Special Angles Ws 2
8 pages
Post Office Management System A Java Project
No ratings yet
Post Office Management System A Java Project
41 pages
Gutierrez Gaby Tte 540 Unit Plan
No ratings yet
Gutierrez Gaby Tte 540 Unit Plan
7 pages
Guia Estratigrafica Internacional
No ratings yet
Guia Estratigrafica Internacional
38 pages
High Context and Low Context Cultures. (Baskin Robbins) : Prepared By-Saurabh Bhargava Rupa Jha Archit Tiwari
No ratings yet
High Context and Low Context Cultures. (Baskin Robbins) : Prepared By-Saurabh Bhargava Rupa Jha Archit Tiwari
17 pages
DLP in ENG 1 Demo - Checked Corrected
No ratings yet
DLP in ENG 1 Demo - Checked Corrected
12 pages
Subs Titu It On Tech
No ratings yet
Subs Titu It On Tech
14 pages
4 DBA Resume Samples
No ratings yet
4 DBA Resume Samples
15 pages
LISTING PROGRAM Done
No ratings yet
LISTING PROGRAM Done
41 pages
Drexel Lesson Plan Template Interactive Read Aloud Teacher: Brad Jones Grade: 2
No ratings yet
Drexel Lesson Plan Template Interactive Read Aloud Teacher: Brad Jones Grade: 2
3 pages
IT3101 - Object-Oriented Systems Development: University of Colombo, Sri Lanka
No ratings yet
IT3101 - Object-Oriented Systems Development: University of Colombo, Sri Lanka
12 pages
Dakhmas of Culture Sine Sepulchro
No ratings yet
Dakhmas of Culture Sine Sepulchro
10 pages
Reading Action Plan 24-25
No ratings yet
Reading Action Plan 24-25
4 pages
Important Instruction For Internal and Practical Exam-1
No ratings yet
Important Instruction For Internal and Practical Exam-1
3 pages
Instilling Positive Thinking
No ratings yet
Instilling Positive Thinking
6 pages
II Unit Test Sceme Chart Class Nursery To XII 16.08.23
No ratings yet
II Unit Test Sceme Chart Class Nursery To XII 16.08.23
1 page
Let'S Have A Party!: Level
No ratings yet
Let'S Have A Party!: Level
7 pages
Task Skill Review 2
No ratings yet
Task Skill Review 2
2 pages
Aseñas, Giselle L.: Individual Learning Monitoring Plan
No ratings yet
Aseñas, Giselle L.: Individual Learning Monitoring Plan
1 page
No Ph.D. Game Design With Three.js
From Everand
No Ph.D. Game Design With Three.js
Nikiforos Kontopoulos
No ratings yet
TensorFlow深度学习项目实战: Chinese Edition
From Everand
TensorFlow深度学习项目实战: Chinese Edition
Posts & Telecom Press
No ratings yet

Data Analytics of Theatres Using Seaborn and Plotly

Uploaded by

Data Analytics of Theatres Using Seaborn and Plotly

Uploaded by

import numpy as np

Task 1:Data loading and exploration

Task 2:Visualize Data

Task 3: Relationship between film revenue and budget

Task 4:Does having an official homepage affect revenue?

sns.catplot(x='has_homepage', y='revenue', data=train);

Task 5:Distribution of languages in film

Task 6: Frequent Words in film titles and descriptions

Task 7: Do film descriptions impact revenue?

Task 8: analyzing movie release dates:

Task 9: preprocessing features

Task 10: creating features based on release date

data=[go.Scatter(x=d1.index, y=d1.values, name='train'),

layout = go.Layout(dict(title = 'Number of films per year',

Task 12: Number of films and revenue per year

data=[go.Scatter(x=d1.index, y=d1.values, name='filmcount'),

layout = go.Layout(dict(title = 'Number of films and Total Revenue per year',

Task 13: Do release days impact revenue?

Task 14: Relationship between runtime and revenue

You might also like