0% found this document useful (0 votes)

10 views7 pages

Set-A

The document contains a unit test for a course on Essentials of Data and Text Processing, featuring Python code that creates a DataFrame of movie data, performs one-hot encoding, and calculates statistical measures. It includes visualizations such as histograms and boxplots for ratings and duration, as well as a scatter plot of ratings versus votes. The test demonstrates data manipulation and analysis using the pandas library.

Uploaded by

Dhruvin Patel

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views7 pages

Set-A

Uploaded by

Dhruvin Patel

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

Name: Jivani Dhairya Pravinbhai

Enrollment no: 202203100110120

Class: TYBCA
Div: B
Date: 12/02/2025
Subject: Essentials of Data and Text Processing (CS5006)
Unit Test-1(SET:A)

Q-1)

import pandas as pd

# Create dummy movie data

movie_data = [
["The Shawshank Redemption", "Drama", 9.3, 142, 2500000],
["The Godfather", "Crime, Drama", 9.2, 175, 1800000],
["The Dark Knight", "Action, Crime, Drama", 9.0, 152, 2400000],
["Inception", "Action, Adventure, Sci-Fi", 8.8, 148, 2100000],
["Pulp Fiction", "Crime, Drama", 8.9, 154, 1900000],
["Fight Club", "Drama", 8.8, 139, 1950000],
["Forrest Gump", "Drama, Romance", 8.8, 142, 1850000],
["Matrix", "Action, Sci-Fi", 8.7, 136, 1750000],
["Goodfellas", "Biography, Crime, Drama", 8.7, 146, 1650000],
["The Silence of the Lambs", "Crime, Drama, Thriller", 8.6, 118, 1350000],
["Interstellar", "Adventure, Drama, Sci-Fi", 8.6, 169, 1600000],
["Saving Private Ryan", "Drama, War", 8.6, 169, 1400000],
["The Green Mile", "Crime, Drama, Fantasy", 8.6, 189, 1200000],
["Gladiator", "Action, Adventure, Drama", 8.5, 155, 1300000],
["The Departed", "Crime, Drama, Thriller", 8.5, 151, 1250000],
["The Prestige", "Drama, Mystery, Sci-Fi", 8.5, 130, 1150000],
["The Lion King", "Animation, Adventure, Drama", 8.5, 88, 950000],
["Whiplash", "Drama, Music", 8.5, 106, 850000],
["The Usual Suspects", "Crime, Mystery, Thriller", 8.5, 106, 1050000],
["Eternal Sunshine of the Spotless Mind", "Drama, Romance, Sci-Fi", 8.3, 108, 950000]
]

# Create DataFrame
columns = ['Title', 'Genre', 'Rating', 'Duration', 'Votes']
df = pd.DataFrame(movie_data, columns=columns)

# Save to Excel
df.to_excel('movie_data.xlsx', index=False)

# Display the first few rows

print("First few rows of the dataset:")
print(df.head())

# Display basic statistics

print("\nDataset Info:")
print(df.info())
print("\nBasic Statistics:")
print(df.describe())

print("\nData successfully saved to 'movie_data.xlsx'")

Q-2)

import pandas as pd

# Create DataFrame
columns = ['Title', 'Genre', 'Rating', 'Duration', 'Votes']
df = pd.DataFrame(movie_data, columns=columns)

# One-hot encoding for genres

genre_dummies = df['Genre'].str.get_dummies(sep=', ')

# One-hot encoding for ratings (we'll bin the ratings into categories)
rating_bins = pd.cut(df['Rating'], bins=[0, 3, 5, 7, 10], labels=['0-3', '3-5', '5-7', '7-10'])
rating_dummies = pd.get_dummies(rating_bins, prefix='Rating')

# Merge the one-hot encoded data with the original dataframe

df_encoded = pd.concat([df, genre_dummies, rating_dummies], axis=1)

print("\nData with One-Hot Encoding:")

print(df_encoded.head())
Q-3)

rating_mean = df['Rating'].mean()
rating_median = df['Rating'].median()
rating_mode = df['Rating'].mode()[0]

duration_mean = df['Duration'].mean()
duration_median = df['Duration'].median()
duration_mode = df['Duration'].mode()[0]

print("\nMeasures of Central Tendency:")

print(f"Rating - Mean: {rating_mean}, Median: {rating_median}, Mode: {rating_mode}")
print(f"Duration - Mean: {duration_mean}, Median: {duration_median}, Mode: {duration_mode}")

rating_range = df['Rating'].max() - df['Rating'].min()

rating_std = df['Rating'].std()
rating_variance = df['Rating'].var()

duration_range = df['Duration'].max() - df['Duration'].min()

duration_std = df['Duration'].std()
duration_variance = df['Duration'].var()

print("\nMeasures of Variation:")
print(f"Rating - Range: {rating_range}, Std: {rating_std}, Variance: {rating_variance}")
print(f"Duration - Range: {duration_range}, Std: {duration_std}, Variance: {duration_variance}")

rating_skewness = df['Rating'].skew()

print("\nSkewness of Ratings Distribution:")

print(f"Skewness: {rating_skewness}")
Q-4)

plt.figure(figsize=(10, 6))
plt.hist(df['Rating'], bins=10, color='skyblue', edgecolor='black')
plt.title('Distribution of Movie Ratings')
plt.xlabel('Ratings')
plt.ylabel('Frequency')
plt.grid(True)
plt.show()

plt.figure(figsize=(12, 6))

plt.subplot(1, 2, 1)
plt.boxplot(df['Rating'])
plt.title('Boxplot of Ratings')

plt.subplot(1, 2, 2)
plt.boxplot(df['Duration'])
plt.title('Boxplot of Duration')

plt.tight_layout()
plt.show()

plt.figure(figsize=(10, 6))
plt.scatter(df['Votes'], df['Rating'], color='blue', alpha=0.7)
plt.title('Scatter Plot of Ratings vs. Votes')
plt.xlabel('Votes')
plt.ylabel('Ratings')
plt.grid(True)
plt.show()

07AD79C9 Pnach
0% (3)
07AD79C9 Pnach
4 pages
Dragons of Stormwreck Isle
100% (2)
Dragons of Stormwreck Isle
10 pages
Monster Mash 1
75% (4)
Monster Mash 1
2 pages
Manga Library Collection - Anime North (PDFDrive)
No ratings yet
Manga Library Collection - Anime North (PDFDrive)
100 pages
Tutorial Using Excel With Python and Pandas
100% (2)
Tutorial Using Excel With Python and Pandas
28 pages
The Gilmore Girls Reading Challenge
No ratings yet
The Gilmore Girls Reading Challenge
10 pages
Quick and Dirty Seduction
No ratings yet
Quick and Dirty Seduction
1 page
As You Like It Script
0% (1)
As You Like It Script
12 pages
Oscar Wilde's Prose Poems
No ratings yet
Oscar Wilde's Prose Poems
17 pages
Reported Speech QI
No ratings yet
Reported Speech QI
3 pages
Jujutsu Kaisen - Google Search
No ratings yet
Jujutsu Kaisen - Google Search
7 pages
Syllabus in Contemporary, Popular and Emergent Literature FINAL
No ratings yet
Syllabus in Contemporary, Popular and Emergent Literature FINAL
6 pages
Project Movielense Solution
29% (7)
Project Movielense Solution
4 pages
The History of Tom Jones, A Foundling As A Picaresque Novel: April 2017
No ratings yet
The History of Tom Jones, A Foundling As A Picaresque Novel: April 2017
42 pages
Polidori, John William - The Vampyre
No ratings yet
Polidori, John William - The Vampyre
17 pages
Dream High Quotes
No ratings yet
Dream High Quotes
6 pages
сцена рассказа
No ratings yet
сцена рассказа
4 pages
Recomendacao de Filmes Chatbot
No ratings yet
Recomendacao de Filmes Chatbot
24 pages
Pyspark Basic Tasks
No ratings yet
Pyspark Basic Tasks
8 pages
Python Solutions For IPA Jan 29th
No ratings yet
Python Solutions For IPA Jan 29th
14 pages
Gatsby Chapter 5 Symbolism Copy 2
No ratings yet
Gatsby Chapter 5 Symbolism Copy 2
3 pages
15 Pandas Function For 90 - of The Work
No ratings yet
15 Pandas Function For 90 - of The Work
12 pages
Look Back in Anger Summary
100% (1)
Look Back in Anger Summary
2 pages
Moviesuggester - Jupyter Notebook
No ratings yet
Moviesuggester - Jupyter Notebook
11 pages
Ip - Class Xii - Comprehensive Assignment Mid Term 2022-2023
No ratings yet
Ip - Class Xii - Comprehensive Assignment Mid Term 2022-2023
9 pages
Bleak House Essay
No ratings yet
Bleak House Essay
2 pages
Macbeth Study Guide Act1 Test
No ratings yet
Macbeth Study Guide Act1 Test
4 pages
Entrega 1 - Computer Science
No ratings yet
Entrega 1 - Computer Science
19 pages
Anurag Chaturvedi Netflix - Jupyter - Notebook Case Study
No ratings yet
Anurag Chaturvedi Netflix - Jupyter - Notebook Case Study
27 pages
DL Lesson 2 - Shirley Jackson
No ratings yet
DL Lesson 2 - Shirley Jackson
13 pages
Movie Recommendation System in R Jupyter Notebook
No ratings yet
Movie Recommendation System in R Jupyter Notebook
18 pages
Using Excel With Pandas
No ratings yet
Using Excel With Pandas
16 pages
Music Theatre International
No ratings yet
Music Theatre International
7 pages
Recommending Movies - Retrieval - TensorFlow Recommenders
No ratings yet
Recommending Movies - Retrieval - TensorFlow Recommenders
11 pages
Pandas Data Frame For Beginners
No ratings yet
Pandas Data Frame For Beginners
25 pages
Ip Investigatory PRJ Finall
No ratings yet
Ip Investigatory PRJ Finall
10 pages
15 Pandas That Every Data Scientists Should Know 1674474419
No ratings yet
15 Pandas That Every Data Scientists Should Know 1674474419
10 pages
Beowulf Dichotomy: Hero and Villain, The Contradictory Duo
No ratings yet
Beowulf Dichotomy: Hero and Villain, The Contradictory Duo
3 pages
SRC 7
No ratings yet
SRC 7
11 pages
Project Movielense Solution
No ratings yet
Project Movielense Solution
4 pages
Generations in Lookism
No ratings yet
Generations in Lookism
7 pages
Code Day 3 ML
No ratings yet
Code Day 3 ML
24 pages
Why Nirvana The True Story Could Never Be True
No ratings yet
Why Nirvana The True Story Could Never Be True
26 pages
RDD Assignment
No ratings yet
RDD Assignment
1 page
Practicing Pandas (Questions Only)
No ratings yet
Practicing Pandas (Questions Only)
2 pages
Assignment 1
No ratings yet
Assignment 1
5 pages
Whispers of Winter
No ratings yet
Whispers of Winter
2 pages
Hands-On Lab - Importing Data in R
No ratings yet
Hands-On Lab - Importing Data in R
8 pages
Worksheet - Pandas
100% (1)
Worksheet - Pandas
16 pages
IMDB Movie Analysis
No ratings yet
IMDB Movie Analysis
80 pages
Practical File: Deep Learning
No ratings yet
Practical File: Deep Learning
33 pages
PMT2 23
No ratings yet
PMT2 23
28 pages
Marvel Vs DC
No ratings yet
Marvel Vs DC
1 page
Cybersecurity Protecting Information in A Digital World
No ratings yet
Cybersecurity Protecting Information in A Digital World
26 pages
Exercise - Pandas
No ratings yet
Exercise - Pandas
52 pages
Megha Bharara CSV Project
No ratings yet
Megha Bharara CSV Project
22 pages
DBMS Practical List 2024 Set B P1-2-3-7-8
No ratings yet
DBMS Practical List 2024 Set B P1-2-3-7-8
10 pages
DA Lab Program-6
No ratings yet
DA Lab Program-6
4 pages
Hamlet Essay
No ratings yet
Hamlet Essay
3 pages
IMDb+Movie+Assignment Stub
No ratings yet
IMDb+Movie+Assignment Stub
9 pages
Banana Level Problems
No ratings yet
Banana Level Problems
5 pages
Import As Import As Import As Import Import As From Import: 'Ggplot'
No ratings yet
Import As Import As Import As Import Import As From Import: 'Ggplot'
13 pages
Pandas DataFrame Notebook
No ratings yet
Pandas DataFrame Notebook
143 pages
DataFrame Revision
No ratings yet
DataFrame Revision
7 pages
Assignment-2 29 11 2024
No ratings yet
Assignment-2 29 11 2024
1 page
Team Renegades MMLA Report
No ratings yet
Team Renegades MMLA Report
27 pages
Bollywood and Heart Data Analysis
No ratings yet
Bollywood and Heart Data Analysis
15 pages
Bollywood Analysis-1
No ratings yet
Bollywood Analysis-1
9 pages
Project Report
No ratings yet
Project Report
8 pages
IP CSV Project For Class 12
No ratings yet
IP CSV Project For Class 12
22 pages
Source Code Source Code
No ratings yet
Source Code Source Code
4 pages
Analysis and MCQ On The Lottery Ticket PDF
No ratings yet
Analysis and MCQ On The Lottery Ticket PDF
7 pages
Project Report ON Movie Management: By: Kritika Sharma Class: XII-C
No ratings yet
Project Report ON Movie Management: By: Kritika Sharma Class: XII-C
23 pages
Tell Tale Heart Summary
No ratings yet
Tell Tale Heart Summary
6 pages
NEEL (1) Edited Edited
No ratings yet
NEEL (1) Edited Edited
12 pages
Swati Mam The - Iscale Movies Project Code
No ratings yet
Swati Mam The - Iscale Movies Project Code
13 pages
NEEL (1) - Edited
No ratings yet
NEEL (1) - Edited
12 pages
Neel
No ratings yet
Neel
12 pages
NEEL
No ratings yet
NEEL
12 pages
B.V. Patel Institute of Computer Science 2025
No ratings yet
B.V. Patel Institute of Computer Science 2025
14 pages
Literature and Journalism in Antebellum America Thoreau Stowe and Their Contemporaries Respond To The Rise of The Commercial Press Mark Canada Auth Instant Download
100% (1)
Literature and Journalism in Antebellum America Thoreau Stowe and Their Contemporaries Respond To The Rise of The Commercial Press Mark Canada Auth Instant Download
81 pages
15 Funciones Esenciales de Pandas
No ratings yet
15 Funciones Esenciales de Pandas
12 pages
Department of Computer Science and Engineering (Data Science) Subject: Recommender System Laboratory (DJS22DSL6012)
No ratings yet
Department of Computer Science and Engineering (Data Science) Subject: Recommender System Laboratory (DJS22DSL6012)
16 pages
Project 5
No ratings yet
Project 5
5 pages
Netflix Business Case Study - Data Exploration and Visualisation.. Sonam Meshram
No ratings yet
Netflix Business Case Study - Data Exploration and Visualisation.. Sonam Meshram
27 pages
That Little Square Box
No ratings yet
That Little Square Box
2 pages
Ad 1
No ratings yet
Ad 1
14 pages
Practical Work 1 - Recommender Systems
No ratings yet
Practical Work 1 - Recommender Systems
3 pages
Zafar Rehman As2 NLP
No ratings yet
Zafar Rehman As2 NLP
17 pages
Project 18 Movie Recommendation System Using Machine Learning With Python
No ratings yet
Project 18 Movie Recommendation System Using Machine Learning With Python
77 pages
Cleaning
No ratings yet
Cleaning
4 pages
Session 16 Pandas Series
No ratings yet
Session 16 Pandas Series
58 pages
Recommendation Engine 1657857468
No ratings yet
Recommendation Engine 1657857468
15 pages
No Ph.D. Game Design With Three.js
From Everand
No Ph.D. Game Design With Three.js
Nikiforos Kontopoulos
No ratings yet

Set-A

Uploaded by

Set-A

Uploaded by

Name: Jivani Dhairya Pravinbhai

Enrollment no: 202203100110120

# Create dummy movie data

# Display the first few rows

# Display basic statistics

print("\nData successfully saved to 'movie_data.xlsx'")

# One-hot encoding for genres

# Merge the one-hot encoded data with the original dataframe

print("\nData with One-Hot Encoding:")

print("\nMeasures of Central Tendency:")

rating_range = df['Rating'].max() - df['Rating'].min()

duration_range = df['Duration'].max() - df['Duration'].min()

print("\nSkewness of Ratings Distribution:")

You might also like