0% found this document useful (0 votes)

24 views4 pages

Ex 3

The document outlines a series of tasks involving data manipulation and analysis using R programming. It includes reading and cleaning GCSE data, comparing modified CSV files, working with a nations dataset to analyze life expectancy and GDP, and analyzing the Titanic dataset for missing values and surname extraction. Each task utilizes libraries such as dplyr and tidyr for data processing.

Uploaded by

amirthavarshinimarikani1121

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

24 views4 pages

Ex 3

Uploaded by

amirthavarshinimarikani1121

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

Task 1: Reading & Cleaning GCSE Data

CopyEdit

# Load necessary library

library(dplyr)

# Read the data, assuming tab-separated values

gcse_data <- read.table("Gcsemv.txt", header = FALSE, sep = "\t", na.strings = "-1")

# Assign column names

colnames(gcse_data) <- c("School_ID", "Student_ID", "Gender", "Written_Paper", "Coursework")

# Summary of the data

summary(gcse_data)

# Handling missing values

gcse_data <- gcse_data %>% na.omit() # Removes rows with missing values

# Converting categorical variables

gcse_data$Gender <- factor(gcse_data$Gender, labels = c("Boy", "Girl"))

# Display cleaned data

head(gcse_data)

Task 2: Comparing Modified myiris.csv File

CopyEdit

# Load required packages

library(dplyr)

library(compareDF)

# Read original and modified CSV

original_iris <- read.csv("myiris.csv")

modified_iris <- read.csv("myiris_modified.csv")

# Compare using different methods

comp_result <- comparedf(original_iris, modified_iris)

print(comp_result)

diff_result <- diffdf(original_iris, modified_iris)

print(diff_result)

all_equal(original_iris, modified_iris)

identical(original_iris, modified_iris) # If FALSE, files differ

Task 3: Working with nations Dataset

CopyEdit

# Load required libraries

library(dplyr)

# Read dataset

nations <- read.csv("nations.csv")

# (a) Filter 2016 data

longevity <- nations %>%

filter(Year == 2016) %>%

select(Country, LifeExpectancy, IncomeGroup, Region)

# (b) 10 high-income countries with the shortest life expectancy

longevity %>%

filter(IncomeGroup == "High income") %>%

arrange(LifeExpectancy) %>%

head(10)

# (c) Countries in North America or Europe & Central Asia with life expectancy 75-80

longevity %>%
filter(Region %in% c("North America", "Europe & Central Asia"),

LifeExpectancy >= 75, LifeExpectancy <= 80)

# (d) 20 longest life expectancies plus US ranking

top20 <- longevity %>% arrange(desc(LifeExpectancy)) %>% head(20)

us_rank <- longevity %>% filter(Country == "United States")

bind_rows(top20, us_rank)

# (e) Total GDP by income group and year

features <- nations %>%

group_by(Year, IncomeGroup) %>%

summarise(Total_GDP = sum(GDP, na.rm = TRUE)) %>%

arrange(desc(Year), desc(Total_GDP))

# (f) Life expectancy range per year

nations %>%

group_by(Year) %>%

summarise(Max_LifeExp = max(LifeExpectancy, na.rm = TRUE),

Min_LifeExp = min(LifeExpectancy, na.rm = TRUE),

LifeExp_Range = Max_LifeExp - Min_LifeExp)

# (g) Total GDP by region over time

nations %>%

group_by(Year, Region) %>%

summarise(Total_GDP_Trillion = sum(GDP, na.rm = TRUE) / 1e12)

# (h) Join `nations` to `nations2` and calculate total CO2 emissions

nations2 <- read.csv("nations2.csv")

merged_data <- left_join(nations, nations2, by = c("Country", "Year"))

merged_data %>%

group_by(Year, Region) %>%

summarise(Total_CO2_Gigatonnes = sum(CarbonDioxide, na.rm = TRUE) / 1e9)

Task 4: Titanic Dataset Analysis

CopyEdit

# Load required packages

library(dplyr)

library(tidyr)

# Load Titanic dataset

titanic <- read.csv("titanic.csv")

# (a) Number of samples missing age values

sum(is.na(titanic$Age))

# (b) Replace missing Fare with median Fare of class & embarkment

titanic <- titanic %>%

group_by(Pclass, Embarked) %>%

mutate(Fare = ifelse(is.na(Fare), median(Fare, na.rm = TRUE), Fare))

# (c) Extract surnames from passenger names

titanic$Surname <- gsub(",.*", "", titanic$Name)

# Display the dataset

head(titanic[c("Name", "Surname")])

CRC Press - Computer-Aided Design Engineering and Manufacturing Vol-I, Systems Techniques and Com
No ratings yet
CRC Press - Computer-Aided Design Engineering and Manufacturing Vol-I, Systems Techniques and Com
342 pages
What Google Knows About You and Your Devices and HOW WE CAN GET IT by Vladimir Katalov
100% (1)
What Google Knows About You and Your Devices and HOW WE CAN GET IT by Vladimir Katalov
49 pages
Verzani Answers
100% (8)
Verzani Answers
94 pages
Seminar Report Format / Guidelines: ME Computer Engineering
No ratings yet
Seminar Report Format / Guidelines: ME Computer Engineering
15 pages
L09 - Drive Configuration and Programming Lab: Public
No ratings yet
L09 - Drive Configuration and Programming Lab: Public
133 pages
Century Star CNC System Programming Guide For Milling Machines PDF
No ratings yet
Century Star CNC System Programming Guide For Milling Machines PDF
147 pages
Official NVMC NOAD Workbook - Version 7.5
No ratings yet
Official NVMC NOAD Workbook - Version 7.5
55 pages
Cmcqs
100% (1)
Cmcqs
46 pages
Airtel PDF
No ratings yet
Airtel PDF
2 pages
RL30 Reports
No ratings yet
RL30 Reports
102 pages
Solution of Practice Questions From Lec 1 To 5
100% (1)
Solution of Practice Questions From Lec 1 To 5
7 pages
6.6.2 WBS 4.6 - Troy - Stempfley Critical Path Exercise
No ratings yet
6.6.2 WBS 4.6 - Troy - Stempfley Critical Path Exercise
5 pages
The Viral Golden Touch Connected With Video Marketing
No ratings yet
The Viral Golden Touch Connected With Video Marketing
3 pages
Akshay Gupta Resume
No ratings yet
Akshay Gupta Resume
2 pages
The Evolution of Internet Services PDF
No ratings yet
The Evolution of Internet Services PDF
12 pages
CM1000 Manual
No ratings yet
CM1000 Manual
12 pages
MMI 3G Boardbook Installation PDF
100% (3)
MMI 3G Boardbook Installation PDF
5 pages
Intro To ISO 13485 Presentation Materials
No ratings yet
Intro To ISO 13485 Presentation Materials
10 pages
Lte3316-M604 2
No ratings yet
Lte3316-M604 2
4 pages
Arquitectura Basada en Inteligencia Artificial Distribuida para La Gerencia Integrada de Producción Industrial
No ratings yet
Arquitectura Basada en Inteligencia Artificial Distribuida para La Gerencia Integrada de Producción Industrial
13 pages
Sample CV of Oracle Apps DBA With 3 Years Experience
No ratings yet
Sample CV of Oracle Apps DBA With 3 Years Experience
4 pages
The Application of National Biometric Database System in Nigerian Electoral Process
No ratings yet
The Application of National Biometric Database System in Nigerian Electoral Process
15 pages
Detecon Opinion Paper Managing The Profitability of Eastern European Mobile Telecommunication Carriers
No ratings yet
Detecon Opinion Paper Managing The Profitability of Eastern European Mobile Telecommunication Carriers
13 pages
Datepicker
No ratings yet
Datepicker
4 pages
17 Aptitude TSD Average Speed Made
No ratings yet
17 Aptitude TSD Average Speed Made
6 pages
A Star Ai and ML Lab
No ratings yet
A Star Ai and ML Lab
3 pages
EDA Python Code Cheatsheets
No ratings yet
EDA Python Code Cheatsheets
52 pages
IC Simple Bug Report Template 10591
No ratings yet
IC Simple Bug Report Template 10591
2 pages
IELTS Foundation - Writing Task 1 - Table
No ratings yet
IELTS Foundation - Writing Task 1 - Table
41 pages
Lab Manual - DSR
No ratings yet
Lab Manual - DSR
32 pages
Can We Really Live Longer - A Machine Learning Study - by Nicolasdealba - Medium
No ratings yet
Can We Really Live Longer - A Machine Learning Study - by Nicolasdealba - Medium
34 pages
Solutions Manual Using R Introductory ST
No ratings yet
Solutions Manual Using R Introductory ST
33 pages
Arc Gis Parcel Data Model Reference
No ratings yet
Arc Gis Parcel Data Model Reference
52 pages
Lec 08
No ratings yet
Lec 08
22 pages
(Practical) Programming With R
No ratings yet
(Practical) Programming With R
5 pages
2.UNIT-1 R Programming
No ratings yet
2.UNIT-1 R Programming
28 pages
Titanic Dataset Questions in R
No ratings yet
Titanic Dataset Questions in R
7 pages
Lab 02
No ratings yet
Lab 02
25 pages
Objective:: EE 4237 State Space Control Laboratory Experiment 10: Balancing Robot Using LEGO Mindstorms NXT
No ratings yet
Objective:: EE 4237 State Space Control Laboratory Experiment 10: Balancing Robot Using LEGO Mindstorms NXT
14 pages
Advanced Visualisationv1
No ratings yet
Advanced Visualisationv1
22 pages
Yr 12 Stats CH 3 Test
No ratings yet
Yr 12 Stats CH 3 Test
4 pages
R Poisson
No ratings yet
R Poisson
11 pages
Ex 2
No ratings yet
Ex 2
5 pages
Assignment 6
No ratings yet
Assignment 6
5 pages
Comp Lab 2 GunExample 2425
No ratings yet
Comp Lab 2 GunExample 2425
15 pages
00 - Project - Your First Data Science Project - Jupyter Notebook
No ratings yet
00 - Project - Your First Data Science Project - Jupyter Notebook
8 pages
Week 10 - ANOVA
No ratings yet
Week 10 - ANOVA
9 pages
03 - Demographic Data Analysis
No ratings yet
03 - Demographic Data Analysis
6 pages
KrutikaKolhe 862467252 HW5
No ratings yet
KrutikaKolhe 862467252 HW5
18 pages
WEEK 3 Activity - Assignment 1
No ratings yet
WEEK 3 Activity - Assignment 1
5 pages
AE II Simulation File PDF
No ratings yet
AE II Simulation File PDF
32 pages
INFO-523 Homework 1
No ratings yet
INFO-523 Homework 1
2 pages
2008 April Question Paper
No ratings yet
2008 April Question Paper
5 pages
Plotting Technique Purpose
No ratings yet
Plotting Technique Purpose
4 pages
Data Science Assignment Submission
No ratings yet
Data Science Assignment Submission
12 pages
Data Wrangling
No ratings yet
Data Wrangling
12 pages
R Record-1
No ratings yet
R Record-1
57 pages
ALY 6000 Project 2
No ratings yet
ALY 6000 Project 2
11 pages
Lab 2
No ratings yet
Lab 2
22 pages
ADA Group13 FinalProject
No ratings yet
ADA Group13 FinalProject
34 pages
Data Preprocessing
No ratings yet
Data Preprocessing
13 pages
Tableau Class2
No ratings yet
Tableau Class2
6 pages
Ielts C1 - Writing Task 1 - L1 - Orientation
No ratings yet
Ielts C1 - Writing Task 1 - L1 - Orientation
17 pages
08 Titanic
No ratings yet
08 Titanic
19 pages
IQ Levels Analysis With Python PDF 1701793924
No ratings yet
IQ Levels Analysis With Python PDF 1701793924
11 pages
Department of Statistics: Course Stats 330
No ratings yet
Department of Statistics: Course Stats 330
7 pages
DALab Part-B BCU&BU
No ratings yet
DALab Part-B BCU&BU
12 pages
R Course Own English HS
No ratings yet
R Course Own English HS
70 pages
Times University Ranks DataSet Analysis
No ratings yet
Times University Ranks DataSet Analysis
19 pages
R Code
No ratings yet
R Code
9 pages
AML-2203 Advanced Python AI and ML Tools Assignment
No ratings yet
AML-2203 Advanced Python AI and ML Tools Assignment
19 pages
1.1 Objective: 2. Data Preparation and Exploratory Analysis
No ratings yet
1.1 Objective: 2. Data Preparation and Exploratory Analysis
11 pages
R Doc Ii Vee
No ratings yet
R Doc Ii Vee
24 pages
ETW2001 A2 Instruction
No ratings yet
ETW2001 A2 Instruction
5 pages
Chapter1 PDF
No ratings yet
Chapter1 PDF
25 pages
R Basic and Advanced
No ratings yet
R Basic and Advanced
9 pages
Socio-Economc Factors and IQ Analysis: Mawadda Hassan 2024-06-22
No ratings yet
Socio-Economc Factors and IQ Analysis: Mawadda Hassan 2024-06-22
17 pages
Since R Considers All Variables As Numeric, We Convert Them Into Factors
No ratings yet
Since R Considers All Variables As Numeric, We Convert Them Into Factors
3 pages
R
No ratings yet
R
6 pages
Intro To Analyzing Cross-Sectional Time-Series Data in R (For Students of IR & Comparative Politics)
No ratings yet
Intro To Analyzing Cross-Sectional Time-Series Data in R (For Students of IR & Comparative Politics)
18 pages
Rstudio Study Notes For PA 20181126
No ratings yet
Rstudio Study Notes For PA 20181126
6 pages
Lab 3 (Tutorial 1)
No ratings yet
Lab 3 (Tutorial 1)
20 pages
HW 4
No ratings yet
HW 4
12 pages
Task 1 PRACTICE
No ratings yet
Task 1 PRACTICE
8 pages
Pandas PDF
No ratings yet
Pandas PDF
6 pages
R Cheat Sheet (Updated)
No ratings yet
R Cheat Sheet (Updated)
13 pages
LDEMO2404 Session1 Dofile - Do
No ratings yet
LDEMO2404 Session1 Dofile - Do
4 pages
Factors in R
No ratings yet
Factors in R
6 pages
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
From Everand
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
Manish Soni
No ratings yet

Ex 3

Uploaded by

Ex 3

Uploaded by

Task 1: Reading & Cleaning GCSE Data

# Load necessary library

# Read the data, assuming tab-separated values

gcse_data <- read.table("Gcsemv.txt", header = FALSE, sep = "\t", na.strings = "-1")

# Assign column names

colnames(gcse_data) <- c("School_ID", "Student_ID", "Gender", "Written_Paper", "Coursework")

# Summary of the data

# Handling missing values

# Converting categorical variables

gcse_data$Gender <- factor(gcse_data$Gender, labels = c("Boy", "Girl"))

# Display cleaned data

Task 2: Comparing Modified myiris.csv File

# Load required packages

# Read original and modified CSV

original_iris <- read.csv("myiris.csv")

modified_iris <- read.csv("myiris_modified.csv")

comp_result <- comparedf(original_iris, modified_iris)

diff_result <- diffdf(original_iris, modified_iris)

identical(original_iris, modified_iris) # If FALSE, files differ

Task 3: Working with nations Dataset

# Load required libraries

nations <- read.csv("nations.csv")

# (a) Filter 2016 data

longevity <- nations %>%

filter(Year == 2016) %>%

select(Country, LifeExpectancy, IncomeGroup, Region)

# (b) 10 high-income countries with the shortest life expectancy

filter(IncomeGroup == "High income") %>%

LifeExpectancy >= 75, LifeExpectancy <= 80)

# (d) 20 longest life expectancies plus US ranking

top20 <- longevity %>% arrange(desc(LifeExpectancy)) %>% head(20)

us_rank <- longevity %>% filter(Country == "United States")

# (e) Total GDP by income group and year

features <- nations %>%

group_by(Year, IncomeGroup) %>%

summarise(Total_GDP = sum(GDP, na.rm = TRUE)) %>%

# (f) Life expectancy range per year

summarise(Max_LifeExp = max(LifeExpectancy, na.rm = TRUE),

Min_LifeExp = min(LifeExpectancy, na.rm = TRUE),

LifeExp_Range = Max_LifeExp - Min_LifeExp)

# (g) Total GDP by region over time

group_by(Year, Region) %>%

summarise(Total_GDP_Trillion = sum(GDP, na.rm = TRUE) / 1e12)

# (h) Join `nations` to `nations2` and calculate total CO2 emissions

nations2 <- read.csv("nations2.csv")

merged_data <- left_join(nations, nations2, by = c("Country", "Year"))

group_by(Year, Region) %>%

summarise(Total_CO2_Gigatonnes = sum(CarbonDioxide, na.rm = TRUE) / 1e9)

# Load required packages

# Load Titanic dataset

titanic <- read.csv("titanic.csv")

# (a) Number of samples missing age values

titanic <- titanic %>%

group_by(Pclass, Embarked) %>%

mutate(Fare = ifelse(is.na(Fare), median(Fare, na.rm = TRUE), Fare))

# (c) Extract surnames from passenger names

titanic$Surname <- gsub(",.*", "", titanic$Name)

# Display the dataset

You might also like