0% found this document useful (0 votes)

9 views

DSLAB5

The document discusses analyzing airline flight delay data using interactive visualizations in R. It describes cleaning the OpenFlights dataset and creating an interactive bar chart to visualize delays by airline with filters for airports and delay reasons. Additionally, it mentions adding an interactive map to highlight delayed flights between origins and destinations.

Uploaded by

nikhileshmeher24

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

9 views

DSLAB5

Uploaded by

nikhileshmeher24

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 17

Tasks:

Dataset: https://www.kaggle.com/datasets/rajugc/imdb-top-250-movies-dataset
Loading the required library
# Load required libraries
# Load required libraries
library(dplyr)
library(ggplot2)
library(tidyr)

Importing the IMDB top 250 movies dataset

# Import the data
imdb_data <- read.csv("D:/IMDB Top 250 Movies.csv", stringsAsFactors = FALSE)
print(imdb_data)
imdb_data$rating <- as.numeric(imdb_data$rating)

# Check for missing values

missing_values <- imdb_data %>%
summarise_all(~ sum(is.na(.)))

# Check for outliers

# For numeric variables like rating, year, runtime, etc., you can use summary statistics
or visualize distributions
summary(imdb_data$rating)
summary(imdb_data$year)
summary(imdb_data$runtime)

# Handle missing values

# Depending on the context, you can choose to drop rows with missing values or impute
them with mean/median values
# For example, to drop rows with missing values:
imdb_data <- imdb_data %>%
drop_na()

# Handle outliers
# You can identify outliers using boxplots or histograms and decide whether to remove
or transform them

7|Pa ge
21BCE2455 NIKHILESH MEHER
# For example, to remove outliers in rating using interquartile range (IQR) method:
rating_iqr <- IQR(imdb_data$rating)
rating_upper_bound <- quantile(imdb_data$rating, 0.75) + 1.5 * rating_iqr
imdb_data <- imdb_data %>%
filter(rating <= rating_upper_bound)

# Check for inconsistencies

# For categorical variables like genre, you can check for unique values and their
frequencies
unique_genres <- unique(imdb_data$genre)
genre_counts <- imdb_data %>%
count(genre)

# Display cleaned data

head(imdb_data)

8|Pa ge
21BCE2455 NIKHILESH MEHER
Distribution of ratings:
# Create a histogram to visualize the distribution of ratings
ggplot(imdb_data, aes(x = rating)) +
geom_histogram(binwidth = 0.5, fill = "skyblue", color = "black") +
labs(title = "Distribution of Movie Ratings on IMDB",
x = "Rating", y = "Frequency") +
theme_minimal()

9|Pa ge
21BCE2455 NIKHILESH MEHER
Ratings vs. year

# Create a scatterplot to explore the relationship between release year and rating
ggplot(imdb_data, aes(x = year, y = rating)) +
geom_point() +
labs(title = "Relationship Between Release Year and Rating",
x = "Year", y = "Rating") +
theme_minimal() +
geom_smooth(method = "lm", se = FALSE) # Add a linear regression line

# Calculate and display the correlation coefficient

correlation_coefficient <- cor(imdb_data$year, imdb_data$rating)
print(paste("Correlation coefficient:", round(correlation_coefficient, 2)))

10 | P a g e
21BCE2455 NIKHILESH MEHER
11 | P a g e
21BCE2455 NIKHILESH MEHER
Rating by genre

# Group the data by genre and calculate the average rating for each genre
genre_ratings <- imdb_data %>%
group_by(genre) %>%
summarise(avg_rating = mean(rating, na.rm = TRUE))

# Create a bar chart to compare ratings across different genres

ggplot(genre_ratings, aes(x = reorder(genre, avg_rating), y = avg_rating)) +
geom_bar(stat = "identity", fill = "skyblue", color = "black") +
labs(title = "Average Rating by Genre",
x = "Genre", y = "Average Rating") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))

12 | P a g e
21BCE2455 NIKHILESH MEHER
To visualize correlations between different movie attributes using a
heatmap, you can calculate the correlation matrix using the cor()
function and then plot the matrix as a heatmap. Here's how you can
do it:

# Convert necessary columns to numeric

imdb_data$year <- as.numeric(imdb_data$year)
imdb_data$rating <- as.numeric(imdb_data$rating)
imdb_data$run_time <- as.numeric(imdb_data$run_time)

# Check for missing values and handle them if necessary

# For simplicity, you can drop rows with missing values
imdb_data <- na.omit(imdb_data)

# Calculate the correlation matrix

correlation_matrix <- cor(imdb_data[, c("year", "rating", "run_time")])

13 | P a g e
21BCE2455 NIKHILESH MEHER
# Convert the correlation matrix to a dataframe
correlation_df <- as.data.frame(correlation_matrix)
correlation_df$attributes <- rownames(correlation_df)

# Reshape the dataframe for plotting

correlation_df <- tidyr::gather(correlation_df, key = "attribute", value = "correlation", -
attributes)

# Plot the heatmap

ggplot(correlation_df, aes(x = attribute, y = attributes, fill = correlation)) +
geom_tile() +
scale_fill_gradient(low = "white", high = "steelblue") +
labs(title = "Correlation Heatmap",
x = "Attribute", y = "Attribute", fill = "Correlation") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
print(correlation_matrix)

14 | P a g e
21BCE2455 NIKHILESH MEHER
15 | P a g e
21BCE2455 NIKHILESH MEHER
If the correlation matrix contains values close to zero, it indicates weak or no correlation
between the variables. In such cases, a heatmap will appear mostly blank or gray.

16 | P a g e
21BCE2455 NIKHILESH MEHER
Summary of findings and observations:

The distribution of movie ratings on IMDB is roughly normal, with a peak around the 7-8
rating range.
There is a weak positive relationship between release year and rating, indicating that
newer movies tend to have slightly higher ratings.
Among the genres, documentaries tend to have the highest average ratings, while
horror movies have the lowest.
The correlation heatmap reveals weak correlations between the attributes "year",
"rating", and "run_time", suggesting limited interdependence among these variables.

17 | P a g e
21BCE2455 NIKHILESH MEHER
Lab Assessment 6: Interactive Visualization in R

Title: Analyzing Airline Flight Delays

Data: You can use the OpenFlights dataset from Kaggle.

Objectives:

 Visualize flight delays by airline using an interactive bar chart.

 Enable users to filter data by specific airports or delay reasons.

Tasks:

1. Import and clean data: Download and import the data using read.csv(),
handling missing values and ensuring data types are appropriate.
2. Interactive visualization:
o Create an interactive bar chart with ggplot2 and the plotly package.
o Use plotly::ggplotly() to convert the ggplot object into an
interactive plotly object.
o Map delay categories (e.g., carrier delay, weather delay) to unique
colors and bar labels.
o Use sliders or dropdown menus to allow users to filter data:
 Filter by origin or destination airport using a dropdown menu.
 Filter by delay reason using a slider or checkbox group.

Bonus task:

 Add a map visualization to the interactive display, highlighting the origins and
destinations of delayed flights using colour or marker size based on delay
severity.

Deliverables:

 R code for data cleaning, visualization, and interactivity.

 A functional interactive visualization that allows users to filter data and explore
trends.
 A concise summary of your findings and observations.

18 | P a g e
21BCE2455 NIKHILESH MEHER

Final Cyber Security Lab Manual Practical 1 To Practical 10
60% (5)
Final Cyber Security Lab Manual Practical 1 To Practical 10
94 pages
IMDB Movie Analysis 05 Project
No ratings yet
IMDB Movie Analysis 05 Project
7 pages
Source Code
No ratings yet
Source Code
19 pages
Adriano Axel Pliopas Pereira - 83393 - Exercise 8 - Ggplot2movies
No ratings yet
Adriano Axel Pliopas Pereira - 83393 - Exercise 8 - Ggplot2movies
15 pages
04 - Movie Rating Analysis
No ratings yet
04 - Movie Rating Analysis
9 pages
MovieLens Final-Project
No ratings yet
MovieLens Final-Project
18 pages
5
No ratings yet
5
3 pages
Vertopal.com IMDb+Movie+Assignment Stub
No ratings yet
Vertopal.com IMDb+Movie+Assignment Stub
9 pages
Hands-On Lab - Importing Data in R
No ratings yet
Hands-On Lab - Importing Data in R
8 pages
Recommendation Engine Problem Statement
No ratings yet
Recommendation Engine Problem Statement
37 pages
Project Problem Statement
No ratings yet
Project Problem Statement
3 pages
1st Harvard Project
No ratings yet
1st Harvard Project
17 pages
R Project 98
No ratings yet
R Project 98
15 pages
Chapter 03 Visualization (R)
No ratings yet
Chapter 03 Visualization (R)
30 pages
Data Manipulation Using R: Acm Datascience Camp
No ratings yet
Data Manipulation Using R: Acm Datascience Camp
35 pages
2
No ratings yet
2
9 pages
Recommendation System
No ratings yet
Recommendation System
11 pages
Topic 2. Visual Data Analysis in Python: Mlcourse - Ai (Https://mlcourse - Ai)
No ratings yet
Topic 2. Visual Data Analysis in Python: Mlcourse - Ai (Https://mlcourse - Ai)
15 pages
Movie Recommendation System in R Jupyter Notebook
No ratings yet
Movie Recommendation System in R Jupyter Notebook
18 pages
Group 15 Report
No ratings yet
Group 15 Report
23 pages
IMDB Movie Analysis1
No ratings yet
IMDB Movie Analysis1
14 pages
Data Analisis 2
No ratings yet
Data Analisis 2
13 pages
21CS644 Module 4
No ratings yet
21CS644 Module 4
24 pages
Problem Statement
No ratings yet
Problem Statement
6 pages
20bce7403 (L37+L38) DWDM Lab-4
No ratings yet
20bce7403 (L37+L38) DWDM Lab-4
20 pages
MIT Data Science and Big Data Analytics Case Study
No ratings yet
MIT Data Science and Big Data Analytics Case Study
8 pages
Data Visualization
No ratings yet
Data Visualization
30 pages
Data Visualization
No ratings yet
Data Visualization
46 pages
3 An Illustrative Analysis: 3.1 Gathering Data
No ratings yet
3 An Illustrative Analysis: 3.1 Gathering Data
11 pages
Unit-3
No ratings yet
Unit-3
12 pages
ppt3
No ratings yet
ppt3
20 pages
DSR_Unit 2-2.1 ExploringBasicgraphs
No ratings yet
DSR_Unit 2-2.1 ExploringBasicgraphs
51 pages
Exploring Data Using Graphics and Visualization Due Feb 21
No ratings yet
Exploring Data Using Graphics and Visualization Due Feb 21
10 pages
RE Paper
No ratings yet
RE Paper
25 pages
Big Data Visualization and Common Adopattation Issues
No ratings yet
Big Data Visualization and Common Adopattation Issues
34 pages
Data Visualisation Lab Digital Assignment 2: Name: Samar Abbas Naqvi Registration Number: 19BCE0456
No ratings yet
Data Visualisation Lab Digital Assignment 2: Name: Samar Abbas Naqvi Registration Number: 19BCE0456
7 pages
Imdb Scrape v1
No ratings yet
Imdb Scrape v1
9 pages
Unit3__R
No ratings yet
Unit3__R
19 pages
IMDB Movie Analysis
No ratings yet
IMDB Movie Analysis
17 pages
Importing Librarie
No ratings yet
Importing Librarie
13 pages
Anushka - Keshav-Shreya Jury Data Analytics&r
No ratings yet
Anushka - Keshav-Shreya Jury Data Analytics&r
14 pages
R Doc Ii Vee
No ratings yet
R Doc Ii Vee
24 pages
Lectorial 2 P3
No ratings yet
Lectorial 2 P3
27 pages
SMA EXP4 AYU
No ratings yet
SMA EXP4 AYU
6 pages
Phan Project3 Report
No ratings yet
Phan Project3 Report
6 pages
Coding Introduction
No ratings yet
Coding Introduction
46 pages
Imdb Scrape v3
No ratings yet
Imdb Scrape v3
9 pages
Unit2 Modified
No ratings yet
Unit2 Modified
42 pages
Lecture 3&4
No ratings yet
Lecture 3&4
294 pages
Ezplot Sample
No ratings yet
Ezplot Sample
15 pages
ASSIGNMENT NO 808
No ratings yet
ASSIGNMENT NO 808
8 pages
03 UnderstandData
No ratings yet
03 UnderstandData
29 pages
Dav Exps - Merged - Merged
No ratings yet
Dav Exps - Merged - Merged
99 pages
ALY 6000 Project 3
No ratings yet
ALY 6000 Project 3
7 pages
Exercises 3
No ratings yet
Exercises 3
11 pages
4 Data-Visualization
No ratings yet
4 Data-Visualization
68 pages
Saveetha Institute of Medical and Technical Sciences: Unit V Plotting and Regression Analysis in R
No ratings yet
Saveetha Institute of Medical and Technical Sciences: Unit V Plotting and Regression Analysis in R
63 pages
C Language Programming Codes
From Everand
C Language Programming Codes
Durgesh
No ratings yet
Illuminating Data: A hands on guide to data visualization in R
From Everand
Illuminating Data: A hands on guide to data visualization in R
Eman Ahmad
No ratings yet
MySQL Crash Course: A Hands-on Introduction to Database Development
From Everand
MySQL Crash Course: A Hands-on Introduction to Database Development
Rick Silva
No ratings yet
How to a Developers Guide to 4k: Developer edition, #3
From Everand
How to a Developers Guide to 4k: Developer edition, #3
Xinc Cyberwizard
No ratings yet
1 s2.0 S2665917424000023 Main
No ratings yet
1 s2.0 S2665917424000023 Main
11 pages
1 s2.0 S0950705124006154 Main
No ratings yet
1 s2.0 S0950705124006154 Main
15 pages
FALLSEM2024-25 BCSE332L TH VL2024250101753 2024-07-18 Reference-Material-I
No ratings yet
FALLSEM2024-25 BCSE332L TH VL2024250101753 2024-07-18 Reference-Material-I
32 pages
Ias Poster
No ratings yet
Ias Poster
1 page
Digital Waste Management
No ratings yet
Digital Waste Management
72 pages
Using Remote Display Technologies With ANSYS Workbench Products
No ratings yet
Using Remote Display Technologies With ANSYS Workbench Products
10 pages
(RHSA 124) : Monitoring and Managing Linux Processes
No ratings yet
(RHSA 124) : Monitoring and Managing Linux Processes
56 pages
lec 1 Data Acquisition and preprocessing
No ratings yet
lec 1 Data Acquisition and preprocessing
8 pages
Grounding and Electromagnetic Compatibility of PLC Systems: Basic Principles and Measures User Manual
No ratings yet
Grounding and Electromagnetic Compatibility of PLC Systems: Basic Principles and Measures User Manual
344 pages
Functional Aspects of The MIS
100% (3)
Functional Aspects of The MIS
8 pages
Free PowerPoint Template Inspired in Google Chrome Design PPThemes
No ratings yet
Free PowerPoint Template Inspired in Google Chrome Design PPThemes
1 page
Introduction To ROC Analysis: Pattern Recognition Letters June 2006
No ratings yet
Introduction To ROC Analysis: Pattern Recognition Letters June 2006
16 pages
Multiswitches For: Choose Your Solution
No ratings yet
Multiswitches For: Choose Your Solution
8 pages
Zenbuds Evo X1 Pro User Manual 10.06.23
No ratings yet
Zenbuds Evo X1 Pro User Manual 10.06.23
2 pages
AnshM 9DCA Term2Project
No ratings yet
AnshM 9DCA Term2Project
7 pages
Epe 2000-04
No ratings yet
Epe 2000-04
0 pages
V3.0 ITC HD Video Conference System Catalogue
No ratings yet
V3.0 ITC HD Video Conference System Catalogue
4 pages
Samsung UEH5000 User Manual (ENG)
No ratings yet
Samsung UEH5000 User Manual (ENG)
17 pages
Cse Study - Videocon d2h
No ratings yet
Cse Study - Videocon d2h
2 pages
UxApps ErrorReport
No ratings yet
UxApps ErrorReport
2 pages
Describe Your Ideal Company, Location and Job
No ratings yet
Describe Your Ideal Company, Location and Job
6 pages
Revit Link - ETabs & Robot
No ratings yet
Revit Link - ETabs & Robot
10 pages
Public and Private Documents
No ratings yet
Public and Private Documents
18 pages
A Micro-Computer Program For The Elastic-Plastic Analysis and Optimum Design of Plane Frames
No ratings yet
A Micro-Computer Program For The Elastic-Plastic Analysis and Optimum Design of Plane Frames
7 pages
Project Registration Form - V1.1
No ratings yet
Project Registration Form - V1.1
4 pages
Regression Testing: From Wikipedia, The Free Encyclopedia
No ratings yet
Regression Testing: From Wikipedia, The Free Encyclopedia
4 pages
Rufino de Asis Lanting JR: Cum Laude
No ratings yet
Rufino de Asis Lanting JR: Cum Laude
2 pages
MT8127 Android Scatter RCA VX
No ratings yet
MT8127 Android Scatter RCA VX
6 pages
Unit 1- Reading
No ratings yet
Unit 1- Reading
6 pages
Followers To Clients Training Guide
No ratings yet
Followers To Clients Training Guide
24 pages
Article 1
No ratings yet
Article 1
1 page
Embedded Systems Lab Manual MOD
0% (1)
Embedded Systems Lab Manual MOD
20 pages
000-011 1-0
No ratings yet
000-011 1-0
29 pages

DSLAB5

Uploaded by

DSLAB5

Uploaded by

Tasks:

Importing the IMDB top 250 movies dataset

# Check for missing values

# Check for outliers

# Handle missing values

# Check for inconsistencies

# Display cleaned data

# Calculate and display the correlation coefficient

# Create a bar chart to compare ratings across different genres

# Convert necessary columns to numeric

# Check for missing values and handle them if necessary

# Calculate the correlation matrix

# Reshape the dataframe for plotting

# Plot the heatmap

Title: Analyzing Airline Flight Delays

Data: You can use the OpenFlights dataset from Kaggle.

 Visualize flight delays by airline using an interactive bar chart.

 R code for data cleaning, visualization, and interactivity.

You might also like