0% found this document useful (0 votes)

44 views6 pages

Module2 R Report

Uploaded by

anuraag.macha

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

44 views6 pages

Module2 R Report

Uploaded by

anuraag.macha

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 6

Module 2: R Assignment

Anuraag K. Macha

ALY6010: Probability Theory and Introductory Statistics

Dr. Thomas Goulding

06/01/24
Introduction

This analysis focuses on the Iris dataset from the UCI Machine Learning Repository,

utilizing ggplot2 and psych packages in R to generate descriptive statistics and visualizations.

The dataset includes measurements of sepal length, sepal width, petal length, and petal width for

three species of Iris flowers. The goal is to understand the dataset's overall structure, compare

measurements across species, and visualize key relationships and distributions.

Data Analysis

To gain an overview of the dataset, descriptive statistics were produced using the

describe function from the psych package. This provided insights into the mean, standard

deviation, minimum, maximum, and sample size (N) for each variable, detailed in the three-line

table below:

Variable Mean Standard Dev. Minimum Maximum Number

Sepal Length (cm) 5.84 0.83 4.3 7.9 150
Sepal Width (cm) 3.05 0.43 2.0 4.4 150
Petal Length (cm) 3.76 1.76 1.0 6.9 150
Petal Width (cm) 1.20 0.76 0.1 2.5 150

 The average sepal length of the Iris flowers is 5.84 cm with a standard deviation of 0.83 cm.

 Sepal width has an average of 3.05 cm and a standard deviation of 0.43 cm.

 Petal length varies significantly with an average of 3.76 cm and a standard deviation of 1.76 cm.

 Petal width has an average of 1.20 cm, reflecting the varied petal sizes among the different

species.

Next, descriptive statistics by group, specifically by species, were generated to observe

how these measurements varied across different species of Iris flowers. This allowed an
understanding of the differences in sepal and petal dimensions among Iris setosa, Iris versicolor,

and Iris virginica.

Figure 1: Descriptive statistics by species

Three types of visualizations were then created using ggplot2. First, a scatter plot of sepal

length versus petal length was produced, adding a linear regression line with the geom_smooth

function and an abline using geom_abline. This helped visualize the relationship between these

two variables and displayed a positive correlation.

Figure 2: Scatter Plot of Sepal Length vs Petal Length

Second, a jitter plot was created to show the distribution of petal length across different

species, using geom_jitter to avoid overplotting and provide a clearer view of data density. As

we can see in Figure 3 below, the species have distinct petal length with a few outliers.

Figure 3: Jitter Plot of Petal Length by Species

Lastly, a boxplot of sepal length by species was generated using geom_boxplot, which

allowed the detection of potential outliers and comparison of the central tendency and spread of

sepal lengths among the different species. Boxplots are useful for detecting outliers, and Figure 4

below shows that the series iris-virginica has one outlier.

Figure 4: Boxplot of Petal Length by Species

Conclusion

The analysis of the Iris dataset provided valuable insights through descriptive statistics

and visualizations. The descriptive statistics revealed significant variation in sepal and petal

dimensions across different species. Scatter plots, jitter plots, and boxplots created using ggplot2

effectively illustrated relationships, distributions, and potential outliers. This comprehensive

examination enhances the understanding of the Iris dataset, showcasing the differences and

relationships among its key variables across species.

Works Cited

Kabacoff, R. (2022). R in action: Data analysis and graphics with R and Tidyverse. Manning

Publications.

Bluman, A. G. (2018). Elementary statistics: A step by step approach. McGraw-Hill Education.

R functions. (n.d.). https://www.w3schools.com/r/r_functions.asp

Kosourova, E. (2023, March 6). Apply functions in R with examples [apply(), sapply(), lapply (),

tapply()]. Dataquest. https://www.dataquest.io/blog/apply-functions-in-r-sapply-lapply-

tapply/

Appendix

The written and executed R commands are included in the R script file that was submitted

alongside this file.

CHAPTER 2: Describing The Distribution of A Single Variable: Multiple Choice
No ratings yet
CHAPTER 2: Describing The Distribution of A Single Variable: Multiple Choice
21 pages
Iris Analysis Assignment
No ratings yet
Iris Analysis Assignment
12 pages
A Complete Guide To The Iris Dataset in R
No ratings yet
A Complete Guide To The Iris Dataset in R
3 pages
Business Analytics Assignment NAME: Divyansh: Bisht
No ratings yet
Business Analytics Assignment NAME: Divyansh: Bisht
7 pages
Module 2 Iris Data Set
No ratings yet
Module 2 Iris Data Set
1 page
Assignment 1
No ratings yet
Assignment 1
3 pages
David James B. Ignacio - Midterm Exam 1
No ratings yet
David James B. Ignacio - Midterm Exam 1
3 pages
Ass 10 DSBDL
No ratings yet
Ass 10 DSBDL
9 pages
Data Exploration and Visualisation With R: Yanchang Zhao
No ratings yet
Data Exploration and Visualisation With R: Yanchang Zhao
45 pages
NUMPY-case Study
100% (1)
NUMPY-case Study
4 pages
Introds Final Part2 2020 Incl Sol
No ratings yet
Introds Final Part2 2020 Incl Sol
6 pages
Merging and Importing Data Additionalmaterial
No ratings yet
Merging and Importing Data Additionalmaterial
2 pages
ML R Experiment1
No ratings yet
ML R Experiment1
10 pages
The Use of Multiple Measurements in Taxonomic Problems-A R Fisher
No ratings yet
The Use of Multiple Measurements in Taxonomic Problems-A R Fisher
11 pages
Iris Visual Code
No ratings yet
Iris Visual Code
6 pages
Ahmed 226005
No ratings yet
Ahmed 226005
3 pages
Dataset 4
No ratings yet
Dataset 4
1 page
Module 2e - Data Visualization - NV
No ratings yet
Module 2e - Data Visualization - NV
9 pages
Vansh 3089 CA2
No ratings yet
Vansh 3089 CA2
13 pages
EXPERIMENT
No ratings yet
EXPERIMENT
16 pages
10
No ratings yet
10
7 pages
Using R For Data Preprocessing, Exploratory Analysis, Visualization
No ratings yet
Using R For Data Preprocessing, Exploratory Analysis, Visualization
7 pages
Base de Datos IRIS Codigos R Utilizados para El Analisis
No ratings yet
Base de Datos IRIS Codigos R Utilizados para El Analisis
4 pages
王玉 20201108012390
No ratings yet
王玉 20201108012390
13 pages
03b EDA-Tutorial
No ratings yet
03b EDA-Tutorial
16 pages
Practical 01
No ratings yet
Practical 01
18 pages
9 .ML Programs
No ratings yet
9 .ML Programs
95 pages
Data Visualization With Ggplot2: Sca!er Plots
No ratings yet
Data Visualization With Ggplot2: Sca!er Plots
54 pages
EDA AnalysisA
No ratings yet
EDA AnalysisA
15 pages
Iris Project Presentation
No ratings yet
Iris Project Presentation
13 pages
Iris Setosa Species: Vietnam National University University of Languages and International Studies
No ratings yet
Iris Setosa Species: Vietnam National University University of Languages and International Studies
10 pages
Tidyverse Cheat Sheet
No ratings yet
Tidyverse Cheat Sheet
1 page
STATISTICALinference
No ratings yet
STATISTICALinference
5 pages
new89万美迪电子商务 202111080314
No ratings yet
new89万美迪电子商务 202111080314
15 pages
Iris Setosa Species: Vietnam National University University of Languages and International Studies
No ratings yet
Iris Setosa Species: Vietnam National University University of Languages and International Studies
10 pages
PW3 My Iris Dataset
No ratings yet
PW3 My Iris Dataset
3 pages
Anuj Khandelwal 3029 BCP A Business Analytics Continuous Assessment 2
No ratings yet
Anuj Khandelwal 3029 BCP A Business Analytics Continuous Assessment 2
20 pages
Assignment Unit 2
No ratings yet
Assignment Unit 2
5 pages
Vsec PW 7
No ratings yet
Vsec PW 7
3 pages
Introduction To R. Graphical Representation of Multivariate Observations
No ratings yet
Introduction To R. Graphical Representation of Multivariate Observations
5 pages
Summary (Iris) #View Statistical Summary of Dataset
No ratings yet
Summary (Iris) #View Statistical Summary of Dataset
1 page
CA Merged
No ratings yet
CA Merged
6 pages
DML About Put
No ratings yet
DML About Put
2 pages
Plot Library Handouts
No ratings yet
Plot Library Handouts
6 pages
Assigntment 3 Python Lab
No ratings yet
Assigntment 3 Python Lab
1 page
4.5 Raw Dataset For Sepal Length and Sepal Width Setosa Versicolour Virginica
No ratings yet
4.5 Raw Dataset For Sepal Length and Sepal Width Setosa Versicolour Virginica
8 pages
Experiment 11 PML
No ratings yet
Experiment 11 PML
3 pages
Case Study (Iris Data Set)
No ratings yet
Case Study (Iris Data Set)
1 page
Kmeansrcode
No ratings yet
Kmeansrcode
2 pages
R Programs
No ratings yet
R Programs
30 pages
Iris Data Visualization
No ratings yet
Iris Data Visualization
7 pages
Assignment Unit 2
No ratings yet
Assignment Unit 2
4 pages
Lab 12
No ratings yet
Lab 12
3 pages
Matplotlib Styles: 1. Test - Generate - Plot - With - Style1
No ratings yet
Matplotlib Styles: 1. Test - Generate - Plot - With - Style1
2 pages
Ass - 10.ipynb - Colab
No ratings yet
Ass - 10.ipynb - Colab
8 pages
Dsbda 3B
No ratings yet
Dsbda 3B
5 pages
Lecture13_EDA
No ratings yet
Lecture13_EDA
2 pages
Practical 10 Code
No ratings yet
Practical 10 Code
5 pages
Machine Learning - A Complete Exploration of Highly Advanced Machine Learning Concepts, Best Practices and Techniques: 4
From Everand
Machine Learning - A Complete Exploration of Highly Advanced Machine Learning Concepts, Best Practices and Techniques: 4
Peter Bradley
No ratings yet
Image Histogram: Unveiling Visual Insights, Exploring the Depths of Image Histograms in Computer Vision
From Everand
Image Histogram: Unveiling Visual Insights, Exploring the Depths of Image Histograms in Computer Vision
Fouad Sabry
No ratings yet
De-Mystifying Math and Stats for Machine Learning: Mastering the Fundamentals of Mathematics and Statistics for Machine Learning
From Everand
De-Mystifying Math and Stats for Machine Learning: Mastering the Fundamentals of Mathematics and Statistics for Machine Learning
Seaport AI Madhavan
No ratings yet
FIT1043 - Lecture 3 - 2024
No ratings yet
FIT1043 - Lecture 3 - 2024
69 pages
Slides Prepared by John S. Loucks St. Edward's University
No ratings yet
Slides Prepared by John S. Loucks St. Edward's University
59 pages
Unit 3 Statistical Graphics
No ratings yet
Unit 3 Statistical Graphics
18 pages
A Quality Improvement Program To Reduce Surgical Site - 2025 - Intensive and CR
No ratings yet
A Quality Improvement Program To Reduce Surgical Site - 2025 - Intensive and CR
9 pages
Representation and Summary of Data Questions Edexcel Statistics 1
No ratings yet
Representation and Summary of Data Questions Edexcel Statistics 1
59 pages
Cappabianca-Liotta-Lep 2
No ratings yet
Cappabianca-Liotta-Lep 2
4 pages
Data Visualization With Seaborn
No ratings yet
Data Visualization With Seaborn
100 pages
Task 2 Choosing The Right Visuals
No ratings yet
Task 2 Choosing The Right Visuals
3 pages
Unit-2 Biostatistics Descriptive
No ratings yet
Unit-2 Biostatistics Descriptive
31 pages
CH 4 Data Visualization
No ratings yet
CH 4 Data Visualization
43 pages
Basic Datascience
No ratings yet
Basic Datascience
3 pages
Statistics Exercises
No ratings yet
Statistics Exercises
34 pages
Unit 1 - FoDS - Sep 2023
No ratings yet
Unit 1 - FoDS - Sep 2023
147 pages
Unit 3 Data Exploration (P)
No ratings yet
Unit 3 Data Exploration (P)
69 pages
Ai SL Y1 Unit 6 Review
No ratings yet
Ai SL Y1 Unit 6 Review
27 pages
Randomized Block Design
No ratings yet
Randomized Block Design
7 pages
11 Different Ways For Outlier Detection in Python
No ratings yet
11 Different Ways For Outlier Detection in Python
11 pages
Descriptive Statistics 2024
No ratings yet
Descriptive Statistics 2024
31 pages
Statistical Modeling For Biomedical Researchers 1st Edition William D. Dupont PDF Download
100% (1)
Statistical Modeling For Biomedical Researchers 1st Edition William D. Dupont PDF Download
63 pages
SM025 - Topic 6 - Student
No ratings yet
SM025 - Topic 6 - Student
32 pages
Proficiency Testing in Chemical Analysis of Iron Ore: Comparison of Statistical Methods For Outlier Rejection
No ratings yet
Proficiency Testing in Chemical Analysis of Iron Ore: Comparison of Statistical Methods For Outlier Rejection
10 pages
C.V and Quatiles
No ratings yet
C.V and Quatiles
16 pages
Sherwen Et Al. (2018) - An Animal Welfare Risk Assessment Process For Zoos
No ratings yet
Sherwen Et Al. (2018) - An Animal Welfare Risk Assessment Process For Zoos
16 pages
25 - Assignment10.ipynb - Colaboratory
No ratings yet
25 - Assignment10.ipynb - Colaboratory
13 pages
2021 - Article - 22801 Ca Paru
No ratings yet
2021 - Article - 22801 Ca Paru
11 pages
202-NHT Ex2 Data and Recursion Only-W
No ratings yet
202-NHT Ex2 Data and Recursion Only-W
14 pages
Working With Graphics and Pictures in Word 2016
No ratings yet
Working With Graphics and Pictures in Word 2016
20 pages
1 3 Box and Whisker Plots Udl 620
No ratings yet
1 3 Box and Whisker Plots Udl 620
10 pages
Numerical Descriptive Measures
No ratings yet
Numerical Descriptive Measures
126 pages

Module2 R Report

Uploaded by

Module2 R Report

Uploaded by

Module 2: R Assignment

ALY6010: Probability Theory and Introductory Statistics

Dr. Thomas Goulding

measurements across species, and visualize key relationships and distributions.

Variable Mean Standard Dev. Minimum Maximum Number

Next, descriptive statistics by group, specifically by species, were generated to observe

and Iris virginica.

Figure 1: Descriptive statistics by species

two variables and displayed a positive correlation.

Figure 2: Scatter Plot of Sepal Length vs Petal Length

Figure 3: Jitter Plot of Petal Length by Species

below shows that the series iris-virginica has one outlier.

Figure 4: Boxplot of Petal Length by Species

effectively illustrated relationships, distributions, and potential outliers. This comprehensive

relationships among its key variables across species.

Bluman, A. G. (2018). Elementary statistics: A step by step approach. McGraw-Hill Education.

R functions. (n.d.). https://www.w3schools.com/r/r_functions.asp

tapply()]. Dataquest. https://www.dataquest.io/blog/apply-functions-in-r-sapply-lapply-

alongside this file.

You might also like