Data Handling and Manipulation

This document provides an overview of reading, cleaning, and manipulating data in R. It introduces the dplyr package for transforming and summarizing tabular data. Key functions covered include filter() for subsetting rows, select() for subsetting columns, arrange() for ordering data, mutate() for creating new variables, and summarize() for obtaining summary statistics. Examples are given to illustrate the use of each function on sample data.

Uploaded by

K Anantha Krishnan

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

30 views

Data Handling and Manipulation

Uploaded by

K Anantha Krishnan

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 18

DATA HANDLING

AND
DATA MANIPULATION IN R
Outline
• Reading Data
• Know your Data
• Cleaning Data
• Introduction to dplyr package
• Key functions for data manipulation
Reading Data from Flat Files
• # Using read.table()
loan <- read.table("loans data.csv",header = TRUE,
sep = ",")
str(loan)

• # Using read.csv()
loan <- read.csv("loans data.csv“)
str(loan)
Know your data
• #dimension of the data – no. of rows and columns
dim(loan)

• #structure of the data – dimension and columns and its #data types
str(loan)

• #view of the data in a table

View(loan)

• #fetching top 6 rows

head(loan)

• #fetching last 6 rows

tail(loan)

• #summary of the data

summary(loan)
Cleaning Data – Omitting NA values
• #checking for missing values in the data
any(is.na(loan))

• #checking for the total no. of missing values in the data

sum(is.na(loan))

• #cleaning NA values
• #omitting NA values in the data
loan_clean <- na.omit(loan)
loan_clean <- loan[complete.cases(loan),]
Introduction to dplyr package
• dplyr is a powerful R package used for
transforming and summarizing tabular data in the
form of rows and columns
• It provides five basic functions for performing
common data manipulation such as
• Filtering rows
• Selecting columns
• Arranging in order
• Creating new column
• Summarizing data
Subset of Rows
filter()
• Used to filter rows satisfying condition(s)

• Example
• # filtering based on single condition
filter(cars, mpg>25)
• # filtering based on multiple condition
filter(cars, mpg>25,hp >90)
Sampling
• # Randomly select fraction of rows
sample_frac(cars,0.2)

• # Randomly select no. of rows

sample_n(cars,5)

slice_sample(cars,n=5)

cars %>%
group_by(cyl)%>%
slice_sample(cars,n=2)
Subset of Columns
select()
• Used to select subset of columns

• Example
• # selecting single column
select(cars,mpg)
• # selecting multiple columns
select(cars,mpg,cyl)
select(cars,c("mpg","cyl","gear"))
• # combining filter and select- using pipe operator
cars %>%
filter(mpg>18)%>%
select(mpg,cyl)
select()
• #selecting columns starting with 'd'
select(cars,starts_with('d'))

• #selecting columns ending with 't'

select(cars,ends_with('t'))

• #selecting columns containing 'g'

select(cars,contains('g'))

• #selecting columns matching regular expression

select(cars,matches('..a.'))
Arranging Data
arrange()
• Used to arrange the data according to ascending or
descending order of column(s)

• Example
• # arrange the data in ascending order of mpg
arrange(cars,mpg)
• #arrange the data in descending order of mpg
arrange(cars,desc(mpg))
• #arrange the data in order based on more than one
column
arrange(cars, mpg,disp)
Making new variables
mutate()
• Used to create a new column
• Example
• # creating a new column
mutate(cars,newvar=disp+hp )
• # combining functions
• # create a new variable that sum up disp and hp and filter only
• # the rows where mpg>25 & disp>90
• # and select only mpg, disp, hp, newvar
cars %>%
mutate(newvar =disp+hp) %>%
filter(mpg>25,disp>90) %>%
select(mpg,disp,hp,newvar)
Summarizing data
summarize()
• Used to get summary statistics of the data such as count,
mean, median, standard deviation
• Example
• #summarizing data
• #Always group_by is used along with summarise. It is applied
• #on categorical value
cars %>%
group_by(cyl) %>%
summarize(count=n()) #count of unique cyl values
• #computing max, min and standard dev
cars %>%
group_by(cyl) %>%
summarize(
mx_mpg=max(mpg),mi_mpg=min(mpg),std_mpg=sd(mpg))

AccurioPress C4080 C4070 C4065 Troubleshooting Guide V1.0e
100% (1)
AccurioPress C4080 C4070 C4065 Troubleshooting Guide V1.0e
251 pages
Subsetting Data in R
No ratings yet
Subsetting Data in R
44 pages
Data Analysis
No ratings yet
Data Analysis
17 pages
04 Data Cleaning in R
No ratings yet
04 Data Cleaning in R
36 pages
Lease Deed Reji C John
No ratings yet
Lease Deed Reji C John
222 pages
2004 Corolla Electrical Diagram - Part Locations
67% (3)
2004 Corolla Electrical Diagram - Part Locations
6 pages
Tutorial-Introduction To Dplyr
No ratings yet
Tutorial-Introduction To Dplyr
54 pages
Code Basics & Data Manipulation With R: Literature: Wickham & Grolemund R For Data Science Ch. 3, 16
No ratings yet
Code Basics & Data Manipulation With R: Literature: Wickham & Grolemund R For Data Science Ch. 3, 16
31 pages
MTH 4407 - Group 2 (Dr. Farid Zamani) - Lecture 6
No ratings yet
MTH 4407 - Group 2 (Dr. Farid Zamani) - Lecture 6
22 pages
Intro To Data Science Lecture 4
No ratings yet
Intro To Data Science Lecture 4
13 pages
WWWWWW WWWWWW WWWWWW WWWWWW WWWW WWWW WWWWWW: Data Transformation With Dplyr
No ratings yet
WWWWWW WWWWWW WWWWWW WWWWWW WWWW WWWW WWWWWW: Data Transformation With Dplyr
2 pages
Data Manipulation Workshop Handout
No ratings yet
Data Manipulation Workshop Handout
46 pages
WWWWWW WWWWWW WWWWWW WWWWWW WWWW WWWW WWWWWW: Data Transformation With Dplyr
No ratings yet
WWWWWW WWWWWW WWWWWW WWWWWW WWWW WWWW WWWWWW: Data Transformation With Dplyr
2 pages
R Packages Dplyr Sem-III 2021
No ratings yet
R Packages Dplyr Sem-III 2021
13 pages
ProgrammingForDS16_Rdatamanipulation
No ratings yet
ProgrammingForDS16_Rdatamanipulation
20 pages
Practical Preprocessing and Data Cleaning
No ratings yet
Practical Preprocessing and Data Cleaning
51 pages
Data Transformation
No ratings yet
Data Transformation
2 pages
Data - Table Tutorial (With 50 Examples) PDF
No ratings yet
Data - Table Tutorial (With 50 Examples) PDF
13 pages
MBA Sem 1 Unit 3 Fundamentals of R (1)
No ratings yet
MBA Sem 1 Unit 3 Fundamentals of R (1)
41 pages
Data Cleansing Using R
0% (1)
Data Cleansing Using R
10 pages
Data Transformation With Dplyr Cheat Sheet
No ratings yet
Data Transformation With Dplyr Cheat Sheet
2 pages
R Advbeginner v5
No ratings yet
R Advbeginner v5
73 pages
Tidyverse - Tidyr and Dplyr
No ratings yet
Tidyverse - Tidyr and Dplyr
33 pages
IP Imp Notes
No ratings yet
IP Imp Notes
5 pages
Data - Analysis Using Matlab
No ratings yet
Data - Analysis Using Matlab
156 pages
Working With Data
No ratings yet
Working With Data
38 pages
Statistics and Data Science with R Part -4
No ratings yet
Statistics and Data Science with R Part -4
23 pages
Data Analytics-34-41
No ratings yet
Data Analytics-34-41
8 pages
Chapter 03 Wrangling
No ratings yet
Chapter 03 Wrangling
40 pages
BMR Assignment: Tidyr
No ratings yet
BMR Assignment: Tidyr
3 pages
Presentation 1
No ratings yet
Presentation 1
34 pages
DSF 11-12
No ratings yet
DSF 11-12
21 pages
MIT 302 - Statistical Computing II - Tutorial 02
No ratings yet
MIT 302 - Statistical Computing II - Tutorial 02
5 pages
BS730 Class 12
No ratings yet
BS730 Class 12
36 pages
Basic Data Cleaning
100% (3)
Basic Data Cleaning
64 pages
Data Preprocessing
No ratings yet
Data Preprocessing
49 pages
Explore and Transform Data Based On Rows - Transcript
No ratings yet
Explore and Transform Data Based On Rows - Transcript
3 pages
Data Collection and Collation Reporting Analysis
No ratings yet
Data Collection and Collation Reporting Analysis
24 pages
What Is Dplyr
No ratings yet
What Is Dplyr
23 pages
Data cleaning Using R
No ratings yet
Data cleaning Using R
5 pages
Lecture 9: Data Wrangling With Dplyr: Kevin Lee
No ratings yet
Lecture 9: Data Wrangling With Dplyr: Kevin Lee
12 pages
Big Data - Lab 3
No ratings yet
Big Data - Lab 3
25 pages
Matlab Mathworks Data Analysis
No ratings yet
Matlab Mathworks Data Analysis
167 pages
Data Science Professional
No ratings yet
Data Science Professional
21 pages
Study Guide Data Manipulation With R
No ratings yet
Study Guide Data Manipulation With R
4 pages
Statistics with R week 3
No ratings yet
Statistics with R week 3
3 pages
Lab1 411 Eman Yahya 7773225
No ratings yet
Lab1 411 Eman Yahya 7773225
16 pages
Unit2
No ratings yet
Unit2
76 pages
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
40 pages
DSR LAB MANUAL - 10 programs
No ratings yet
DSR LAB MANUAL - 10 programs
34 pages
Tidyverse Pres
No ratings yet
Tidyverse Pres
20 pages
Lesson 7 - The Data Frame
No ratings yet
Lesson 7 - The Data Frame
7 pages
Data Analytics With Financial Accounting Information: Winter 2022 Session 4
No ratings yet
Data Analytics With Financial Accounting Information: Winter 2022 Session 4
36 pages
Unit - 2: Data Manipulation With R & Data Visualization in Watson Studio
No ratings yet
Unit - 2: Data Manipulation With R & Data Visualization in Watson Studio
58 pages
SAS R::: Cheat Sheet
No ratings yet
SAS R::: Cheat Sheet
2 pages
Data Transformation 1 Reviewed
No ratings yet
Data Transformation 1 Reviewed
43 pages
2 Manipulating Processing Data
No ratings yet
2 Manipulating Processing Data
81 pages
Learn C++
From Everand
Learn C++
Durgesh
4.5/5 (9)
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
CSS Grid Layout
From Everand
CSS Grid Layout
Abdelfattah Ragab
No ratings yet
Essential n8n Playbook
From Everand
Essential n8n Playbook
Leandro Calado
No ratings yet
Lisp Programming Language
From Everand
Lisp Programming Language
Faiz ul haque Zeya
No ratings yet
Data Science Programming In Python
From Everand
Data Science Programming In Python
Anita Raichand
No ratings yet
R Programming Basics Slides
No ratings yet
R Programming Basics Slides
91 pages
Data Analytics Life Cycle
No ratings yet
Data Analytics Life Cycle
8 pages
Reading Data in R
No ratings yet
Reading Data in R
11 pages
BDA - Hadoop Ecosystem
No ratings yet
BDA - Hadoop Ecosystem
18 pages
Apache - SQOOP and Flume
No ratings yet
Apache - SQOOP and Flume
16 pages
CBSE Class 12 Mathematics Important Questions Trigonometric Functions
No ratings yet
CBSE Class 12 Mathematics Important Questions Trigonometric Functions
11 pages
Strong Acids and Bases
No ratings yet
Strong Acids and Bases
2 pages
11 Maths Imp Ch3 Trigonometric Function Mix
No ratings yet
11 Maths Imp Ch3 Trigonometric Function Mix
3 pages
Secondary School Examination (Class X) 2019
No ratings yet
Secondary School Examination (Class X) 2019
1 page
Essay Food Production
No ratings yet
Essay Food Production
1 page
Multibody Analysis of The Desmodromic Valve Train
No ratings yet
Multibody Analysis of The Desmodromic Valve Train
14 pages
Calculation Flow and Calculator
No ratings yet
Calculation Flow and Calculator
37 pages
SOI MOS Device Modelling EE5341 Part1
No ratings yet
SOI MOS Device Modelling EE5341 Part1
36 pages
Warehouse Storage Risk Assessment
No ratings yet
Warehouse Storage Risk Assessment
2 pages
JHS1 Eng T1
No ratings yet
JHS1 Eng T1
83 pages
Vertical Mill PDF
100% (4)
Vertical Mill PDF
15 pages
IMDSL-Bright-laser-980nm-Dental-Laser
100% (1)
IMDSL-Bright-laser-980nm-Dental-Laser
2 pages
Excavation Earthwork and Filling
No ratings yet
Excavation Earthwork and Filling
4 pages
Computer Lab Design: Somewhere High School Somewhere Public Schools
No ratings yet
Computer Lab Design: Somewhere High School Somewhere Public Schools
9 pages
2D Drawing Tail Stock
No ratings yet
2D Drawing Tail Stock
1 page
Mecha 02
No ratings yet
Mecha 02
52 pages
Correlating Melt Rheology of PET To Solution Intrinsic Viscosity
No ratings yet
Correlating Melt Rheology of PET To Solution Intrinsic Viscosity
2 pages
Comprog 3 - A
No ratings yet
Comprog 3 - A
3 pages
Auditor Independence: Malaysian Accountants' Perceptions
No ratings yet
Auditor Independence: Malaysian Accountants' Perceptions
13 pages
City As A Political Idea
No ratings yet
City As A Political Idea
3 pages
IMRAD-paper Format
0% (1)
IMRAD-paper Format
16 pages
Function: 'Gui - Name' 'Gui - Singleton' 'Gui - Openingfcn' 'Gui - Outputfcn' 'Gui - Layoutfcn' 'Gui - Callback'
No ratings yet
Function: 'Gui - Name' 'Gui - Singleton' 'Gui - Openingfcn' 'Gui - Outputfcn' 'Gui - Layoutfcn' 'Gui - Callback'
3 pages
Instant ebooks textbook Sport Coaching and Intellectual Disability 1st Edition David Hassan download all chapters
100% (3)
Instant ebooks textbook Sport Coaching and Intellectual Disability 1st Edition David Hassan download all chapters
81 pages
Mathematical Induction, Peano Axioms, and Properties of Addition of Non-Negative Integers
No ratings yet
Mathematical Induction, Peano Axioms, and Properties of Addition of Non-Negative Integers
13 pages
Practical English Usage
33% (3)
Practical English Usage
14 pages
Taylor and Fayol Theories
100% (2)
Taylor and Fayol Theories
35 pages
Final Edited Advert 1
No ratings yet
Final Edited Advert 1
1 page
18305-CMLC-RDMP Public Engagement Report-Optimized v1.1
No ratings yet
18305-CMLC-RDMP Public Engagement Report-Optimized v1.1
89 pages
VacancyRpt R1
No ratings yet
VacancyRpt R1
307 pages
Position-Paper Template
No ratings yet
Position-Paper Template
3 pages
Techno Module Brochure
No ratings yet
Techno Module Brochure
28 pages
AshishGarg Rietveld
No ratings yet
AshishGarg Rietveld
46 pages