0% found this document useful (0 votes)

8 views18 pages

Exp 4 Statistical Data Analysis With Python Sdk Ok

The document contains a series of Python code examples demonstrating concepts in probability, statistics, and data visualization using libraries like NumPy, Pandas, Matplotlib, and Seaborn. It covers topics such as calculating probabilities, permutations, combinations, generating random numbers, and performing hypothesis testing. Additionally, it includes examples of visualizing data distributions and empirical cumulative distribution functions (ECDF).

Uploaded by

gmranuj

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views18 pages

Exp 4 Statistical Data Analysis With Python Sdk Ok

Uploaded by

gmranuj

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 18

%Name : _______________

%Class :SE Branch :E&TC

%Roll no : ___________ Subject: DAL
Experiment No:04
1.Probability and Statistics with Python
Example no :-1
# Sample Space
cards = 52

# Outcomes
aces = 4

# Divide possible outcomes by the sample set

ace_probability = aces / cards

# Print probability rounded to two decimal places

print(round(ace_probability, 2))

# Ace Probability Percent Code

ace_probability_percent = ace_probability * 100

# Print probability percent rounded to one decimal place

print(str(round(ace_probability_percent, 0)) + '%')

Output:-
0.08
8.0%

Example no.02
# Create function that returns probability percent rounded to one decimal place
def event_probability(event_outcomes, sample_space):
probability = (event_outcomes / sample_space) * 100
return round(probability, 1)

# Sample Space
cards = 52
# Determine the probability of drawing a heart
hearts = 13
heart_probability = event_probability(hearts, cards)

# Determine the probability of drawing a face card

face_cards = 12
face_card_probability = event_probability(face_cards, cards)

# Determine the probability of drawing the queen of hearts

queen_of_hearts = 1
queen_of_hearts_probability = event_probability(queen_of_hearts, cards)

# Print each probability

print("Probability of Heart :- ",str(heart_probability) + '%')
print("Probability of Face Card :- ",str(face_card_probability) + '%')
print("Probability of Queen of Hearts :- ",str(queen_of_hearts_probability) + '%'

Output:-
Probability of Heart :- 25.0%
Probability of Face Card :- 23.1%
Probability of Queen of Hearts :- 1.9%

Permutations
Example no.3
# Permutations Code
import math
n=4
k=2

# Determine permutations and print result

Permutations = math.factorial(n) / math.factorial(k)
print(Permutations)

Output:-
12.0

Example no.4
# Combinations Code
n = 52
k=2
# Determine Permutations
Permutations = math.factorial(n) / math.factorial(n - k)
# Determine Combinations and print result
Combinations = Permutations / math.factorial(k)
print(Combinations)

Output:-
1326.0

Generating random numbers using the np.random module

#Example no.5
# Seed the random number generator
# Initialize random numbers: random_numbers
random_numbers = np.empty(100000)

# Generate random numbers by looping over range(100000)

for i in range(100000):
random_numbers[i] = np.random.random()

# Plot a histogram
_ = plt.hist(random_numbers)

# Show the plot

plt.show()

Output:-
Plotting a Histogram of Iris Data
#Example no.06
# Import plotting modules
import matplotlib.pyplot as plt
import seaborn as sns

iris = pd.read_csv('../input/iris.data.csv')

print(iris.head())

#Create 3 DataFrame for each Species

setosa = iris[iris.iloc[:,4]=='Iris-setosa']
versicolor = iris[iris.iloc[:,4]=='Iris-versicolor']
virginica = iris[iris.iloc[:,4]=='Iris-virginica']
versicolor_petal_length = versicolor.iloc[:,0]
setosa_petal_length = setosa.iloc[:,0]
virginica_petal_length = virginica.iloc[:,0]
# Set default Seaborn style
sns.set()

# Plot histogram of versicolor petal lengths

plt.hist(versicolor_petal_length)
# Show histogram
plt.show()

Output:-
5.1 3.5 1.4 0.2 Iris-setosa
0 4.9 3.0 1.4 0.2 Iris-setosa
1 4.7 3.2 1.3 0.2 Iris-setosa
2 4.6 3.1 1.5 0.2 Iris-setosa
3 5.0 3.6 1.4 0.2 Iris-setosa
4 5.4 3.9 1.7 0.4 Iris-setosa
Computing the ECDF
#Example no.7
# Compute ECDF for versicolor data: x_vers, y_vers
x_vers, y_vers = ecdf(versicolor_petal_length)
# Generate plot
plt.plot(x_vers,y_vers, marker='.',linestyle='none')
# Label the axes
plt.xlabel('Petal Length')
plt.ylabel('ECDF')
# Display the plot
plt.show()

Output:-
#Example no.8
# Compute ECDFs
x_set, y_set = ecdf(setosa_petal_length)
x_vers, y_vers = ecdf(versicolor_petal_length)
x_virg, y_virg = ecdf(virginica_petal_length)

# Plot all ECDFs on the same plot

plt.plot(x_set,y_set, marker='.',linestyle='none')
plt.plot(x_vers,y_vers, marker='.',linestyle='none')
plt.plot(x_virg,y_virg, marker='.',linestyle='none')

# Annotate the plot

plt.legend(('setosa', 'versicolor', 'virginica'), loc='lower right')
_ = plt.xlabel('petal length (cm)')
_ = plt.ylabel('ECDF')

# Display the plot

plt.show()

Output:-
The np.random module and Bernoulli trial
#Example no.9
# Seed random number generator
np.random.seed(42)

# Initialize the number of defaults: n_defaults

n_defaults = np.empty(1000)

# Compute the number of defaults

for i in range(1000):
n_defaults[i] = perform_bernoulli_trials(100,0.05)

# Plot the histogram with default number of bins; label your axes
_ = plt.hist(n_defaults, normed=True)
_ = plt.xlabel('number of defaults out of 100 loans')
_ = plt.ylabel('probability')

# Show the plot

plt.show()
Output:-
#Example no.10
# Compute ECDF: x, y
x,y=ecdf(n_defaults)
# Plot the ECDF with labeled axes
plt.plot(x,y, marker='.',linestyle='none')
plt.xlabel('ECDF')
plt.ylabel('Probability')
# Show the plot
plt.show()
# Compute the number of 100-loan simulations with 10 or more defaults:
n_lose_money
n_lose_money=np.sum(n_defaults>=10)
# Compute and print probability of losing money
print('Probability of losing money =', n_lose_money / len(n_defaults))

Output:-
#Example no.11
# Draw 100000 samples from Normal distribution with stds of interest:
samples_std1, samples_std3, samples_std10
samples_std1=np.random.normal(20, 1, size=100000)
samples_std3=np.random.normal(20, 3, size=100000)
samples_std10=np.random.normal(20, 10, size=100000)

# Make histograms
plt.hist(samples_std1,normed=True, bins=100, histtype='step')
plt.hist(samples_std3,normed=True, bins=100, histtype='step')
plt.hist(samples_std10,normed=True, bins=100, histtype='step')
# Make a legend, set limits and show plot
_ = plt.legend(('std = 1', 'std = 3', 'std = 10'))
plt.ylim(-0.01, 0.42)
plt.show()

Output:-
Sampling & Sample Distribution

#Example no.1
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

import seaborn as sns

import matplotlib.pyplot as plt
data = pd.read_csv("/kaggle/input/red-wine-quality-cortez-et-al-2009/winequality-
red.csv")
data.head()

Output:-

#Example no.2
np.random.seed(11)
sample_7_and_above = data[data['quality'].isin([7, 8])].sample(10)[['alcohol']].re-
set_index().drop(columns = ['index'])
sample_7_and_above
Output:-

#Example no.3
sns.distplot(sample_7_and_above["alcohol"], hist=False)
title = "X_bar_1 = " + str(x_bar) + ", s1 = "+ str(s)
plt.title(title)

Output:-
Sampling distribution

#Example no.4
seed = np.arange(0, 9)

x_bar = []
std_dev = []

for s in seed:
np.random.seed(s)
sample_7_and_above = data[data[‘quality’].isin([7, 8])].sample(10)[[‘alco-
hol’]].reset_index().drop(columns = [‘index’])
x_bar.append(np.mean(sample_7_and_above[“alcohol”]))
std_dev.append(np.std(sample_7_and_above[“alcohol”]))

samples = pd.DataFrame(columns = [“Sample Means (X_bar)”, “Sample Stand-

ard Deviation (s)”], data= list(zip(x_bar, std_dev)))
samples

Output:-

#Example no.5
sns.distplot(samples["Sample Means (X_bar)"])
plt.title("Distribution of the sample means")

Output:-

#Example no.5
fig, axes = plt.subplots(nrows=3, ncols=2, figsize=(12, 10))

ax = fig.add_subplot(3, 2, 1)
sns.distplot(data["alcohol"])
plt.title("Original distribution of Alcohol level in the entire dataset")

seed = np.arange(0, 2)
x_bar = []
for s in seed:
np.random.seed(s)
sample_7_and_above = data.sample(10)[['alcohol']].reset_in-
dex().drop(columns = ['index'])
x_bar.append(np.mean(sample_7_and_above["alcohol"]))

ax = fig.add_subplot(3, 2, 2)
sns.distplot(x_bar)
plt.title("Sample means of 2 samples of 10 each")

seed = np.arange(0, 7)
x_bar = []
for s in seed:
np.random.seed(s)
sample_7_and_above = data.sample(10)[['alcohol']].reset_in-
dex().drop(columns = ['index'])
x_bar.append(np.mean(sample_7_and_above["alcohol"]))

ax = fig.add_subplot(3, 2, 3)
sns.distplot(x_bar)
plt.title("Sample means of 7 samples of 10 each")

seed = np.arange(0, 20)

x_bar = []
for s in seed:
np.random.seed(s)
sample_7_and_above = data.sample(10)[['alcohol']].reset_in-
dex().drop(columns = ['index'])
x_bar.append(np.mean(sample_7_and_above["alcohol"]))

ax = fig.add_subplot(3, 2, 4)
sns.distplot(x_bar)
plt.title("Sample means of 20 samples of 10 each")

seed = np.arange(0, 100)

x_bar = []
for s in seed:
np.random.seed(s)
sample_7_and_above = data.sample(10)[['alcohol']].reset_in-
dex().drop(columns = ['index'])
x_bar.append(np.mean(sample_7_and_above["alcohol"]))

ax = fig.add_subplot(3, 2, 5)
sns.distplot(x_bar)
plt.title("100 samples of 10 each")

seed = np.arange(0, 500)

x_bar = []
for s in seed:
np.random.seed(s)
sample_7_and_above = data.sample(10)[['alcohol']].reset_in-
dex().drop(columns = ['index'])
x_bar.append(np.mean(sample_7_and_above["alcohol"]))

ax = fig.add_subplot(3, 2, 6)
sns.distplot(x_bar)
plt.title("500 samples of 10 each")

fig.tight_layout()
plt.show()

Output:-

#Example no.6
np.random.seed(11)
sample_7_and_above = data[data['quality'].isin([7, 8])].sample(13)[['alcohol']].re-
set_index().drop(columns = ['index'])
sample_7_and_above

Output:-
Hypothesis testing in Machine learning using Python
#Example no.1
from scipy.stats import ttest_1samp
import numpy as npages = np.genfromtxt(“ages.csv”)print(ages)ages_mean =
np.mean(ages)
print(ages_mean)
tset, pval = ttest_1samp(ages, 30)print(“p-values”,pval)if pval < 0.05: # alpha value
is 0.05 or 5%
print(" we are rejecting null hypothesis")
else:
print("we are accepting null hypothesis")

Output:-

import pandas as pd
from scipy import stats
df = pd.read_csv("blood_pressure.csv")df[['bp_before','bp_after']].describe()ttest,pval
= stats.ttest_rel(df['bp_before'], df['bp_after'])
print(pval)if pval<0.05:
print("reject null hypothesis")
else:
print("accept null hypothesis")
import pandas as pd
from scipy import stats
from statsmodels.stats import weightstats as stestsztest ,pval =
stests.ztest(df['bp_before'], x2=None, value=156)
print(float(pval))if pval<0.05:
print("reject null hypothesis")
else:
print("accept null hypothesis")

Distributions Demo
No ratings yet
Distributions Demo
28 pages
Practical 2
No ratings yet
Practical 2
7 pages
Indexml Merged
No ratings yet
Indexml Merged
32 pages
ml lab
No ratings yet
ml lab
12 pages
Workshop 5: PDF Sampling and Statistics: Preview: Generating Random Numbers
No ratings yet
Workshop 5: PDF Sampling and Statistics: Preview: Generating Random Numbers
10 pages
Assignment Mridul
No ratings yet
Assignment Mridul
56 pages
Stats
No ratings yet
Stats
33 pages
EXP-4 ABHAYRAJ SINGH
No ratings yet
EXP-4 ABHAYRAJ SINGH
11 pages
Lab 3
No ratings yet
Lab 3
14 pages
INTRO TO STATISTICS (CH1&2)
No ratings yet
INTRO TO STATISTICS (CH1&2)
38 pages
DATA SCIENCE EXPERIMENTS
No ratings yet
DATA SCIENCE EXPERIMENTS
31 pages
ADS Practical Exam Questions
No ratings yet
ADS Practical Exam Questions
14 pages
Probability and Statistics Course
No ratings yet
Probability and Statistics Course
5 pages
FDS Lab 1 Manuel .1..1new
No ratings yet
FDS Lab 1 Manuel .1..1new
34 pages
Data Science and Analtics Laboratory
No ratings yet
Data Science and Analtics Laboratory
21 pages
Chapter 0 Introduction
No ratings yet
Chapter 0 Introduction
14 pages
AD3411 (2)
No ratings yet
AD3411 (2)
28 pages
Sem 5
No ratings yet
Sem 5
25 pages
AD3411 DATA SCIENCE AND ANALYTICS LAB (2)_removed
No ratings yet
AD3411 DATA SCIENCE AND ANALYTICS LAB (2)_removed
24 pages
Advanced_Plot_Types_with_Matplotlib
No ratings yet
Advanced_Plot_Types_with_Matplotlib
8 pages
Probability Distributions in R
No ratings yet
Probability Distributions in R
42 pages
Simulating Continuous and Non-Continuous Distributions
No ratings yet
Simulating Continuous and Non-Continuous Distributions
17 pages
Statistical Analysis in Physics Practical File
No ratings yet
Statistical Analysis in Physics Practical File
28 pages
4-12
No ratings yet
4-12
17 pages
Python Code - Summary Statistics
No ratings yet
Python Code - Summary Statistics
6 pages
exp_2_sdk_ok
No ratings yet
exp_2_sdk_ok
18 pages
FDSA Lab Manual
No ratings yet
FDSA Lab Manual
27 pages
Staff Manual 03
No ratings yet
Staff Manual 03
3 pages
Message
No ratings yet
Message
4 pages
Python Programs
No ratings yet
Python Programs
7 pages
Stats_Lab(4-6)
No ratings yet
Stats_Lab(4-6)
7 pages
projectpdf
No ratings yet
projectpdf
12 pages
Document15
No ratings yet
Document15
3 pages
Lab Mannual
No ratings yet
Lab Mannual
49 pages
IDC-101 Introduction To Computers
No ratings yet
IDC-101 Introduction To Computers
5 pages
Aim: To Study RANDTOOL and Plot Exponential and Normal Random Variable Function
No ratings yet
Aim: To Study RANDTOOL and Plot Exponential and Normal Random Variable Function
7 pages
Machine Learning
No ratings yet
Machine Learning
31 pages
DS4.1
No ratings yet
DS4.1
5 pages
Data science and analtics Laboratory
No ratings yet
Data science and analtics Laboratory
21 pages
AI Obse-2
No ratings yet
AI Obse-2
32 pages
Python Practical Practice Word
No ratings yet
Python Practical Practice Word
4 pages
DSA LAB MANUAL
No ratings yet
DSA LAB MANUAL
17 pages
python codes
No ratings yet
python codes
15 pages
FDS Lab Question Bank
No ratings yet
FDS Lab Question Bank
11 pages
Intermediate - F (Autoguardado)
No ratings yet
Intermediate - F (Autoguardado)
70 pages
Plot exponential distribution
No ratings yet
Plot exponential distribution
2 pages
Advanced Course On PYTHON: Prof. Ravishankar Holla, Prof. Mahendra B M, Prof. Rajesh Sudi
No ratings yet
Advanced Course On PYTHON: Prof. Ravishankar Holla, Prof. Mahendra B M, Prof. Rajesh Sudi
15 pages
FDS Lab 1 Manuel .1..1new
No ratings yet
FDS Lab 1 Manuel .1..1new
38 pages
dsa
No ratings yet
dsa
26 pages
Assignment2
No ratings yet
Assignment2
10 pages
Machine Learning
No ratings yet
Machine Learning
3 pages
AD3411 - 1 To 5
No ratings yet
AD3411 - 1 To 5
11 pages
Sampling
No ratings yet
Sampling
8 pages
Statistics With MATLABOctave
No ratings yet
Statistics With MATLABOctave
46 pages
C File
No ratings yet
C File
37 pages
APP LAB EXPT 5
No ratings yet
APP LAB EXPT 5
4 pages
3.sam-chapter3
No ratings yet
3.sam-chapter3
29 pages
Assignment 2
No ratings yet
Assignment 2
3 pages
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Python For Beginners
From Everand
Python For Beginners
Célio Azevedo
No ratings yet
PASSWORD BASED DOOR LOCK SYSTEM PPT
No ratings yet
PASSWORD BASED DOOR LOCK SYSTEM PPT
9 pages
Multiple inheritance
No ratings yet
Multiple inheritance
3 pages
01 Increasing National Access to Finances for Disaster Risk Reduction G-20 Initiative
No ratings yet
01 Increasing National Access to Finances for Disaster Risk Reduction G-20 Initiative
20 pages
Experiment No. 3
No ratings yet
Experiment No. 3
4 pages
Experiment_List_OOP
No ratings yet
Experiment_List_OOP
1 page
index certificate SCSL lab
No ratings yet
index certificate SCSL lab
2 pages
Experiment No 7
No ratings yet
Experiment No 7
1 page
Experiment No 3
No ratings yet
Experiment No 3
6 pages
SAS INDEX
No ratings yet
SAS INDEX
2 pages
584e73c3-5ced-49d3-b047-5dad8dc76714
No ratings yet
584e73c3-5ced-49d3-b047-5dad8dc76714
1 page
Basic Concepts of Probability: AID-521 Mathematics For Data Science
No ratings yet
Basic Concepts of Probability: AID-521 Mathematics For Data Science
16 pages
Unit-3 Probability and Random Variables
No ratings yet
Unit-3 Probability and Random Variables
39 pages
Probability GBR
No ratings yet
Probability GBR
36 pages
Aptitude PDF
No ratings yet
Aptitude PDF
183 pages
Sigma Field Notes 770
No ratings yet
Sigma Field Notes 770
5 pages
Statistics Essays 1. Classification & Tabulation
No ratings yet
Statistics Essays 1. Classification & Tabulation
20 pages
Coin Flip
No ratings yet
Coin Flip
10 pages

Exp 4 Statistical Data Analysis With Python Sdk Ok

Uploaded by

Exp 4 Statistical Data Analysis With Python Sdk Ok

Uploaded by

%Name : _______________

%Class :SE Branch :E&TC

# Divide possible outcomes by the sample set

# Print probability rounded to two decimal places

# Ace Probability Percent Code

# Print probability percent rounded to one decimal place

# Determine the probability of drawing a face card

# Determine the probability of drawing the queen of hearts

# Print each probability

# Determine permutations and print result

Generating random numbers using the np.random module

# Generate random numbers by looping over range(100000)

# Show the plot

#Create 3 DataFrame for each Species

# Plot histogram of versicolor petal lengths

# Plot all ECDFs on the same plot

# Annotate the plot

# Display the plot

# Initialize the number of defaults: n_defaults

# Compute the number of defaults

# Show the plot

import seaborn as sns

samples = pd.DataFrame(columns = [“Sample Means (X_bar)”, “Sample Stand-

seed = np.arange(0, 20)

seed = np.arange(0, 100)

seed = np.arange(0, 500)

You might also like