0% found this document useful (0 votes)

7 views11 pages

Preprocessing code

The document outlines a comprehensive data cleaning and exploratory data analysis (EDA) process for a dataset read from an RDS file. It involves removing duplicates, cleaning column names, handling missing values, extracting phases from titles, and creating new categorical variables based on study size and duration. The final dataset is visualized and analyzed to summarize key insights regarding enrollment and overall study status.

Uploaded by

nafees677

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

7 views11 pages

Preprocessing code

Uploaded by

nafees677

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 11

install.

packages("janitor")

install.packages("DataExplorer")

# Load required libraries

library(tidyverse)

library(lubridate)

library(stringr)

library(janitor)

library(DataExplorer)

# Import and structure

query_results_raw <- readRDS("query_results_raw.rds")

# Initial data exploration

print(dim(query_results_raw))

print(summary(query_results_raw))

# Check for duplicate rows

duplicates <- query_results_raw[duplicated(query_results_raw), ]

print(paste("Number of duplicate rows:", nrow(duplicates)))

# Remove duplicates

query_results_raw <- distinct(query_results_raw)

# Make column names unique (some duplicates due to database keys and vague naming)

names(query_results_raw) <- make.unique(names(query_results_raw))

# Clean column names

clean_names(query_results_raw)

# EDA

introduce(query_results_raw)

# Now drop columns where EVERY entry is NA (no data)

query_results_clean <- query_results_raw %>%

select(where(~ !all(is.na(.))))

# Drop metadata columns

query_results_clean_2 <- query_results_clean %>%

select(c(1, 20, 25, 29, 30, 31, 32, 33, 34, 35, 37:44, 46:47, 66, 70:75, 78, 82:83, 85:93, 96:97))

query_results_clean_3 <- query_results_clean_2 %>%

select(-c(target_duration, status, number_of_groups))

# Renaming, factoring

query_results_clean_4 <- query_results_clean_3 %>%

select(-name) %>%

rename(

site = name.1,

condition_name = name.2,

condition_name_lower_case = downcase_name

) %>%

mutate(

nct_id = factor(nct_id),
study_type = factor(study_type),

overall_status = factor(overall_status),

phase = factor(phase),

enrollment_type = factor(enrollment_type),

source = factor(source),

number_of_arms = factor(number_of_arms),

site = factor(site),

city = factor(city),

state = factor(state),

zip = factor(zip),

country = factor(country),

minimum_age_unit = factor(minimum_age_unit),

maximum_age_unit = factor(maximum_age_unit),

condition_name = factor(condition_name),

condition_name_lower_case = factor(condition_name_lower_case)

query_results_clean_4 <- query_results_clean_4 %>%

mutate(

enrollment_actual = if_else(enrollment_type == "Actual", enrollment, NA_integer_),

enrollment_anticipated = if_else(enrollment_type == "Anticipated", enrollment, NA_integer_)

# EVAULTE: phase - lots of missing data, shouldnt be

# phase has 2,605 unlabeled studies; sometimes the title/abstract contains this

# info but it was not entered into CT.gov; could be extracted for fuller dataset

phase_analysis <- query_results_clean_4 %>%

group_by(official_title) %>%

select (phase, official_title) %>%

filter (phase == "Not Applicable") %>%

distinct()

### placeholder for phase mining new variable `phase_extracted` ###

# Implement phase extraction from title

extract_phase <- function(title) {

phase <- str_extract(tolower(title), "phase [1-4]|phase [i-iv]")

if (!is.na(phase)) {

phase <- str_replace(phase, "phase ", "Phase ")

phase <- str_replace(phase, "i", "1")

phase <- str_replace(phase, "ii", "2")

phase <- str_replace(phase, "iii", "3")

phase <- str_replace(phase, "iv", "4")

return(phase)

query_results_clean_4 <- query_results_clean_4 %>%

mutate(

phase_extracted = ifelse(phase == "Not Applicable",

extract_phase(official_title),

as.character(phase)),

phase_extracted = factor(phase_extracted)

View(query_results_clean_4)

# Value replacement

query_results_clean_5 <- query_results_clean_4 %>%

mutate(
number_of_other_outcomes_to_measure = replace_na(number_of_other_outcomes_to_measure, 0),

is_fda_regulated_device = replace_na(is_fda_regulated_device, FALSE),

is_fda_regulated_drug = replace_na(is_fda_regulated_drug, FALSE),

number_of_secondary_outcomes_to_measure =
replace_na(number_of_secondary_outcomes_to_measure, 0),

number_of_arms = replace_na(number_of_arms, "1"),

has_expanded_access = replace_na(has_expanded_access, FALSE),

number_of_primary_outcomes_to_measure =
replace_na(number_of_primary_outcomes_to_measure, 1)

# Making a comprehensive study duration variable (in months and years)

query_results_clean_final <- query_results_clean_5 %>%

mutate(

# Create an interval object from start_date to completion_date

duration_interval = interval(start_date, completion_date),

# Directly calculate the duration in months

duration_months = time_length(duration_interval, unit = "month"),

# Directly calculate the duration in years

duration_years = time_length(duration_interval, unit = "year")

query_results_clean_final <- query_results_clean_final %>%

select(-duration_interval)

# EVALUATE: actual_duration - some missing and used primary endpoint as end

# not usually the case

duration_analysis <- query_results_clean_final %>%

group_by(official_title) %>%

select (nct_id, official_title, actual_duration, duration_months, duration_years) %>%

distinct()

# Step 1: Create a new variable 'overall_status_binary'

query_results_clean_final_transformed <- query_results_clean_final %>%

mutate(overall_status_binary = case_when(

overall_status %in% c("Completed", "Approved for marketing") ~ "Completed",

overall_status %in% c("Withdrawn", "Terminated", "Suspended", "No longer available") ~ "Not

Completed",

# Assuming any other status as "In Progress"

TRUE ~ "In Progress"

))

status_analysis <- query_results_clean_final_transformed %>%

group_by(official_title) %>%

select (nct_id, official_title, overall_status_binary) %>%

distinct()

# Filter out "in progress" to make binary

query_results_clean_final_transformed <- query_results_clean_final_transformed %>%

filter(overall_status_binary != "In Progress")

query_results_clean_final_transformed$overall_status_binary <-
as.factor(query_results_clean_final_transformed$overall_status_binary)

# Confirm
levels(query_results_clean_final_transformed$overall_status_binary)

query_results_clean_final_transformed <- query_results_clean_final_transformed %>%

select(-c(acronym, baseline_population, brief_title, official_title, source, site, zip, condition_name,

condition_name_lower_case, state, country, enrollment, enrollment_type, minimum_age_num,
minimum_age_unit, maximum_age_num, maximum_age_unit, overall_status, why_stopped)) %>%

group_by(nct_id) %>%

distinct() %>%

data.frame() %>%

select(-1)

# 1. Advanced Missing Value Analysis

# Identify columns with a high percentage of missing values

missing_percentage <- colSums(is.na(query_results_clean_final_transformed)) /

nrow(query_results_clean_final_transformed) * 100

high_missing_cols <- names(missing_percentage[missing_percentage > 50]) # Columns with more than

50% missing data

print(high_missing_cols)

# 2. Detect and Handle Outliers

# Detect outliers in numeric columns using the IQR method and remove them

numeric_cols <- query_results_clean_final_transformed %>% select(where(is.numeric)) %>% colnames()

query_results_clean_final_transformed <- query_results_clean_final_transformed %>%

filter(if_any(all_of(numeric_cols), ~ !(. %in% boxplot.stats(.)$out)))

# Handle outliers in enrollment and duration

query_results_clean_final_transformed <- query_results_clean_final_transformed %>%

mutate(

enrollment_actual = if_else(enrollment_actual > quantile(enrollment_actual, 0.99, na.rm = TRUE),

quantile(enrollment_actual, 0.99, na.rm = TRUE),

enrollment_actual),

enrollment_anticipated = if_else(enrollment_anticipated > quantile(enrollment_anticipated, 0.99,

na.rm = TRUE),

quantile(enrollment_anticipated, 0.99, na.rm = TRUE),

enrollment_anticipated),

duration_months = if_else(duration_months > quantile(duration_months, 0.99, na.rm = TRUE),

quantile(duration_months, 0.99, na.rm = TRUE),

duration_months)

# 3. Further Feature Engineering

# Create a feature for study size category

query_results_clean_final_transformed <- query_results_clean_final_transformed %>%

mutate(

study_size_category = case_when(

enrollment_actual <= 50 | enrollment_anticipated <= 50 ~ "Small",

enrollment_actual <= 200 | enrollment_anticipated <= 200 ~ "Medium",

enrollment_actual > 200 | enrollment_anticipated > 200 ~ "Large",

TRUE ~ NA_character_

# Create a feature for study duration category

query_results_clean_final_transformed <- query_results_clean_final_transformed %>%

mutate(

study_duration_category = case_when(
duration_months <= 12 ~ "Short-term",

duration_months <= 36 ~ "Medium-term",

duration_months > 36 ~ "Long-term",

TRUE ~ NA_character_

# 4. Address Potential Data Inconsistencies

# Ensure binary or logical columns are consistently formatted (TRUE/FALSE, Yes/No, etc.)

query_results_clean_final_transformed <- query_results_clean_final_transformed %>%

mutate(

across(where(is.logical), ~ replace_na(., FALSE)), # Replace NA with FALSE for logical columns

overall_status_binary = fct_relevel(overall_status_binary, c("Completed", "Not Completed")) # Ensure

consistent factor levels

# 5. Group and Summarize Data for Better Insights

summary_by_size <- query_results_clean_final_transformed %>%

group_by(study_size_category) %>%

summarise(

mean_enrollment_actual = mean(enrollment_actual, na.rm = TRUE),

mean_enrollment_anticipated = mean(enrollment_anticipated, na.rm = TRUE),

mean_duration_months = mean(duration_months, na.rm = TRUE),

count = n()

print(summary_by_size)

# 6. Further Quality Checks and Transformation

# Detect and handle duplicate entries

query_results_clean_final_transformed <- query_results_clean_final_transformed %>%

distinct()

query_results_clean_final_transformed %>% arrange(completion_date)

View(query_results_clean_final_transformed)

# 7. Visualization for Data Exploration

ggplot(query_results_clean_final_transformed, aes(x = overall_status_binary, y = enrollment_actual, fill

= overall_status_binary)) +

geom_boxplot() +

labs(title = "Enrollment Actual by Overall Status", x = "Overall Status", y = "Enrollment Actual") +

theme_minimal() +

scale_fill_manual(values = c("Completed" = "lightblue", "Not Completed" = "salmon"))

# Final EDA

colnames(query_results_clean_final_transformed)

str(query_results_clean_final_transformed)

# EDA

introduce(query_results_clean_final_transformed)

plot_intro(query_results_clean_final_transformed)

plot_missing(query_results_clean_final_transformed)

plot_bar(query_results_clean_final_transformed)

plot_histogram(query_results_clean_final_transformed)

plot_qq(query_results_clean_final_transformed)
plot_correlation(query_results_clean_final_transformed)

plot_boxplot(query_results_clean_final_transformed, by = "overall_status_binary")

Data Quality
No ratings yet
Data Quality
14 pages
23914080052_People Analytics InSEM
No ratings yet
23914080052_People Analytics InSEM
11 pages
Learning Partner Program FAQ
No ratings yet
Learning Partner Program FAQ
6 pages
Programming for Data Science Assignment-2
No ratings yet
Programming for Data Science Assignment-2
23 pages
Data Analytics Using R Lab - Master Manual
No ratings yet
Data Analytics Using R Lab - Master Manual
29 pages
ds
No ratings yet
ds
14 pages
DSBDA LAB_2.1_1736750718198
No ratings yet
DSBDA LAB_2.1_1736750718198
9 pages
Data Cleaning R
No ratings yet
Data Cleaning R
16 pages
Armillia Karenna - TP060327 - Pfda
No ratings yet
Armillia Karenna - TP060327 - Pfda
65 pages
t2
No ratings yet
t2
10 pages
Unit2
No ratings yet
Unit2
76 pages
DATA CLEANING (2)
No ratings yet
DATA CLEANING (2)
4 pages
4mission-493-dataframes-in-r-takeaways
No ratings yet
4mission-493-dataframes-in-r-takeaways
3 pages
Da (22C01156)
No ratings yet
Da (22C01156)
26 pages
DAV practical 2
No ratings yet
DAV practical 2
6 pages
Module 2.9
No ratings yet
Module 2.9
11 pages
Machine Learning Unit 2
No ratings yet
Machine Learning Unit 2
71 pages
Group 3
No ratings yet
Group 3
56 pages
Exercise 1.3 Data Cleaning and Preparation
No ratings yet
Exercise 1.3 Data Cleaning and Preparation
1 page
Machine Learning Project
67% (3)
Machine Learning Project
30 pages
saurabh
No ratings yet
saurabh
22 pages
Adsl Exp 3 2024
No ratings yet
Adsl Exp 3 2024
11 pages
Research File 3
No ratings yet
Research File 3
10 pages
Data Preprocessing
No ratings yet
Data Preprocessing
49 pages
Exploratory Data
No ratings yet
Exploratory Data
47 pages
Complete Case Analysis (CCA) : Advantages
No ratings yet
Complete Case Analysis (CCA) : Advantages
6 pages
EDA and Cleaning
No ratings yet
EDA and Cleaning
24 pages
Employee Attrition Study Case
No ratings yet
Employee Attrition Study Case
88 pages
Data Wrangling
No ratings yet
Data Wrangling
12 pages
Advanced R Data Analysis Training PDF
No ratings yet
Advanced R Data Analysis Training PDF
72 pages
Practical 1 EDA
No ratings yet
Practical 1 EDA
14 pages
chapter3 DS
No ratings yet
chapter3 DS
17 pages
(Practical) Programming With R
No ratings yet
(Practical) Programming With R
5 pages
Logistic Regression Assignment
No ratings yet
Logistic Regression Assignment
20 pages
R For Machine Learning Lab Practical Work: Master of Business Administration in Business Analytics
0% (1)
R For Machine Learning Lab Practical Work: Master of Business Administration in Business Analytics
9 pages
Working With Data
No ratings yet
Working With Data
38 pages
Data Cleaning
No ratings yet
Data Cleaning
2 pages
DataAnalytics Lab Manual (1)
No ratings yet
DataAnalytics Lab Manual (1)
35 pages
Data cleaning Using R
No ratings yet
Data cleaning Using R
5 pages
XII_IP_Model_1_Ans
No ratings yet
XII_IP_Model_1_Ans
8 pages
Machine Learning Assignment Report - Cars
100% (4)
Machine Learning Assignment Report - Cars
42 pages
Bank Rpubs
No ratings yet
Bank Rpubs
24 pages
Final Thesis
No ratings yet
Final Thesis
52 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
Experiment 5
No ratings yet
Experiment 5
13 pages
Subtitle
No ratings yet
Subtitle
2 pages
Big Data - Lab 3
No ratings yet
Big Data - Lab 3
25 pages
IRig PRO IO Quick Start Guide
No ratings yet
IRig PRO IO Quick Start Guide
20 pages
DWDM 3
No ratings yet
DWDM 3
12 pages
Exp 8_LM
No ratings yet
Exp 8_LM
10 pages
Data Cleaning
No ratings yet
Data Cleaning
42 pages
BC 2014 Session2
No ratings yet
BC 2014 Session2
45 pages
3 Data Preprocessing
No ratings yet
3 Data Preprocessing
33 pages
Weiss Ts Control Card
No ratings yet
Weiss Ts Control Card
24 pages
R Functions
No ratings yet
R Functions
8 pages
Analysis Using Statistical: Introduction & Data Exploration
No ratings yet
Analysis Using Statistical: Introduction & Data Exploration
23 pages
PreProcessing With R
No ratings yet
PreProcessing With R
6 pages
Explorotary Data Analysis
100% (1)
Explorotary Data Analysis
30 pages
04 Data Cleaning in R
No ratings yet
04 Data Cleaning in R
36 pages
Deep Sea Electronics: DSE8910 Operator Manual Document Number: 057-305
No ratings yet
Deep Sea Electronics: DSE8910 Operator Manual Document Number: 057-305
238 pages
PQ Accuenergy PriceList 2023 Ra2
No ratings yet
PQ Accuenergy PriceList 2023 Ra2
8 pages
Project 5 PDF
100% (1)
Project 5 PDF
48 pages
Dofile - Quan Ly Va Lam Sach Du Lieu 2
No ratings yet
Dofile - Quan Ly Va Lam Sach Du Lieu 2
6 pages
M5W ZH-CN en
No ratings yet
M5W ZH-CN en
3 pages
Production Geologist 2 14
No ratings yet
Production Geologist 2 14
2 pages
TVL - Computer Systems Servicing - 12: Ø Let Us Discover
No ratings yet
TVL - Computer Systems Servicing - 12: Ø Let Us Discover
5 pages
Chapter1 5SUPERFINAL
No ratings yet
Chapter1 5SUPERFINAL
54 pages
Design and Specification of Open Systems: Ron Bernstein
No ratings yet
Design and Specification of Open Systems: Ron Bernstein
28 pages
resume (1) (1)
No ratings yet
resume (1) (1)
3 pages
Faults and Alarms
100% (1)
Faults and Alarms
35 pages
Cary Jensen Let's Get Technical Dragging and DR+ PDF
No ratings yet
Cary Jensen Let's Get Technical Dragging and DR+ PDF
15 pages
How Lego Company Has Used Agile
No ratings yet
How Lego Company Has Used Agile
5 pages
Apache Cassandra Developer Associate - Exam Practice Tests
From Everand
Apache Cassandra Developer Associate - Exam Practice Tests
Cristian Scutaru
No ratings yet
TOA Vm3000 Operate e
No ratings yet
TOA Vm3000 Operate e
149 pages
Masina Anestezie - Service Manual
0% (1)
Masina Anestezie - Service Manual
48 pages
Description Features: Ltc4100 Smart Battery Charger Controller
No ratings yet
Description Features: Ltc4100 Smart Battery Charger Controller
30 pages
CVMP302: Topic.: Mini Project Part-A
No ratings yet
CVMP302: Topic.: Mini Project Part-A
10 pages
List of Companies/Llps Registered During The Year 1981
No ratings yet
List of Companies/Llps Registered During The Year 1981
147 pages
Pid
No ratings yet
Pid
8 pages
Camire Rubric Product
No ratings yet
Camire Rubric Product
2 pages
Jntuworld: R07 Set No. 2
No ratings yet
Jntuworld: R07 Set No. 2
7 pages
Toyota SWOT
No ratings yet
Toyota SWOT
14 pages
Drum Pad Sampler: User Manual
No ratings yet
Drum Pad Sampler: User Manual
20 pages
Chapter 3 Software
No ratings yet
Chapter 3 Software
6 pages
Tribhuvan University Faculty of Humanities and Social Sciences
100% (4)
Tribhuvan University Faculty of Humanities and Social Sciences
13 pages
Adams Abdulbaaqi Curricullum Vitae Dated
No ratings yet
Adams Abdulbaaqi Curricullum Vitae Dated
2 pages
Dell Supply Chain
No ratings yet
Dell Supply Chain
6 pages
Emergence and Evolution of Educational Radio With Speciaal Referance To India by Surath Sarkar
No ratings yet
Emergence and Evolution of Educational Radio With Speciaal Referance To India by Surath Sarkar
10 pages
Amazing Java: Learn Java Quickly
From Everand
Amazing Java: Learn Java Quickly
Andrei Besedin
No ratings yet
Basic DBA Query v.1: Oracle Database
From Everand
Basic DBA Query v.1: Oracle Database
Oraclesql-plsql
5/5 (1)