0% found this document useful (0 votes)

10 views7 pages

Formulario - EA

This document provides code and instructions for statistical analysis in Python including importing libraries, reading data files, descriptive statistics, histograms, boxplots, probability distributions, chi-square tests, Kolmogorov-Smirnov tests, Anderson-Darling tests, Q-Q plots, P-P plots, linear regression modeling, ANOVA, and analyzing residuals. Methods include reading data, exploring distributions, fitting models, assessing fit quality, and model selection. The goal is to analyze data, fit appropriate models, and check assumptions.

Uploaded by

MARLENE FRANCISCA MARIA FUENTES ROA

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views7 pages

Formulario - EA

Uploaded by

MARLENE FRANCISCA MARIA FUENTES ROA

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 7

FORMULARIO CODIGOS ESTADÍSTICA APLICADA

Imports

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.formula.api as smf
from statsmodels.stats.anova import anova_lm
from statsmodels.graphics.factorplots import interaction_plot
import scipy.stats as st
from statsmodels.stats.multicomp import pairwise_tukeyhsd
import math as mt
import itertools
%matplotlib inline

Leer archivo

df = pd.read_excel("nombreExcel.xlsx") o = pd.read_csv(“nombreArchivo.csv”)
df

Análisis Numérico

df.describe()

Histograma y Boxplot

fig = plt.figure(figsize=(10, 4))

ax = fig.add_subplot(121)
ax.hist(df['nombreVariable'])
ax.set_xlabel('nombreVariable')
ax.set_ylabel('frecuencia')
ax.set_title('Histograma')

ax = fig.add_subplot(122)
ax1 = df.boxplot(column=['nombreVariable'], grid=True)
ax.set_title('Box plot')

plt.tight_layout()

Distribución normal

histogram = nombreVariable.hist(density=True, bins=8)

val = np.linspace(nombreVariable.min(),nombreVariable.max(),1000)
x = st.norm(loc=nombreVariable.mean(), scale=nombreVariable.std())
histogram.plot(val,x.pdf(val))
Distribución exponencial

x = st.expon(scale = df.nombreVariable.mean())
pesos = df['nombreVariable']
histogram = pesos.hist(density=True)
vals = np.linspace(nombreVariable.min(),nombreVariable.max(),1000)
histogram.plot(vals,st.expon(scale=nombreVariable.mean()).pdf(vals))

Distribución gamma

histogram = nombreVariable.hist(density=True, bins = 7)

val = np.linspace(nombreVariable.min(),nombreVariable.max(),1000)
a= nombreVariable.mean()*2/nombreVariable.std()*2
b= nombreVariable.std()**2/nombreVariable.mean()
x = st.gamma(a,loc=0,scale=b)
histogram.plot(val,x.pdf(val))

Chi-2

k = mt.floor(1+mt.log2(nombreVariable.count()))
a = [x.ppf(0)]
for j in range(1, k+1):
a.append(x.ppf(j / k))
frec_obs, _ = np.histogram(nombreVariable,bins=a)
st.chisquare(frec_obs)

Prueba KS

st.kstest(nombreVariable, x.cdf)

Prueba AD

st.anderson(“nombreVariable”,'expon') o st.anderson(nombreVariable,'norm') o
st.anderson(nombreVariable,'gumbel')

Valor mínimo del describe

nombreVariable.min()
Q-Q Plot y P-P Plot

n = peso.count()
df['nombreVariable'] = df.index
dt = df.groupby('nombreVariable').count()
dt.columns = ['count']
dt['cum_count'] = dt['count'].cumsum()
dt['f'] = dt['cum_count'] / n
dt['f_bigote'] = dt['f'] - 0.5 / n
dt['f_gorro'] = x.cdf(dt.index)
dt['x_M'] = x.ppf(dt['f_bigote'])

fig = plt.figure(figsize=(9, 4))

fig.suptitle('Gráficos de probabilidad', fontsize=14, fontweight='bold')

ax = fig.add_subplot(121)
ax.set_title('Q-Q Plot')
ax.set_xlabel('$x^s$')
ax.set_ylabel('$x^M$')
v_min = min(dt['x_M'].min(), dt.index.min())
v_max = max(dt['x_M'].max(), dt.index.max())
ax.plot([v_min, v_max], [v_min, v_max])
ax.plot(dt.index, dt['x_M'], 'o', ls='None', alpha=0.3)
ax.axis('equal')
ax = fig.add_subplot(122)
ax.set_title('P-P Plot')
ax.set_xlabel('$\widetilde{F}$')
ax.set_ylabel('$\hat{F}$')
ax.plot([0, 1], [0, 1])
ax.plot(dt['f_bigote'], dt['f_gorro'], 'o', ls='None', alpha=0.3)
ax.axis('equal')

fig.subplots_adjust(top=0.8, wspace=0.3)

Largo

len(df)

Crear modelo
modelo = smf.ols('variableimportante ~ C(variablecualitativa) + variables+ variables +
variables + variables + variables ', data=df)
resultado = modelo.fit()
resultado.summary()
Ecuación de modelo
$\hat{Nombrevariable}$ = interceptvalor + valorvariable1\**Nombrevariable1* +
valorvariable2\** Nombrevariable2* + valorvariable3\**Nombrevariable3* + valorvariable4\**
Nombrevariable4* + valorvariable5\** Nombrevariable5* + valorvariable6\**
Nombrevariable6*

Radj^2 R^2

resultado.rsquared, resultado.rsquared_adj

Mejora modelo
$\hat{Nombrevariable}$ = interceptvalor + valorvariable1\**Nombrevariable1* +
valorvariable2\** Nombrevariable2* + valorvariable3\**Nombrevariable3* + valorvariable4\**
Nombrevariable4* + valorvariable5\** Nombrevariable5* + valorvariable6\**
Nombrevariable6*
se eliminaron las variables de carlength y citympg por ser poco significativas para el modelo. No
se encontró mejora alguna, sin embargo, se eliminaron las características que no aportaban,
teniendo un mejor ajuste y con esto se podría ahorrar más tiempo en la toma de datos
Prueba respuesta

res = smf.ols("Y(variable que se busca) ~ ABC(factores)",data=df).fit()

res.summary()
o
res = smf.ols("Y(variable que se busca) ~ C(A)*C(B)*C(C)(factores)",data=df).fit()
res.summary()

Ordenar de mayor a menor para R^2Adjustado (mejor modelo))

all_vars =
['NombreVariable1','NombreVariable2','NombreVariable3','NombreVariable4','NombreVariabl
e5','NombreVariable6']
modelos = []

for k in range(1, len(all_vars)+1):

subconjuntos = itertools.combinations(all_vars, k)

for sc in subconjuntos:

formula = 'NombreVariableImportante ~ ' + ' + '.join(list(sc))

resultado = smf.ols(formula, data=df).fit()

modelos.append({'k': k, 'R2adj': resultado.rsquared_adj, 'Formula': formula})

df_mdls = pd.DataFrame(modelos)

df_mdls.sort_values(['R2adj'], ascending=False)
residuos representativos

df['log_wind'] = np.log(df['wind'])

modelo = smf.ols('dc ~ log_wind', data=df)

resultado=modelo.fit()

resultado.summary()

otros
- df['inv_wind'] = 1/df['wind']
df.head()
df
modelo = smf.ols('dc ~ inv_wind', data=df)

resultado=modelo.fit()

resultado.summary()

Filtro de una tabla

modelo = smf.ols('price ~ C(fueltype) + enginesize + horsepower', data=df2)

resultado = modelo.fit()
predic = resultado.get_prediction(exog={'fueltype':'gas', 'enginesize':120,'horsepower':90})
predic.summary_frame()

4 Gráficos (Con observaciones)

df['Obs'] = [i for i in range(1,len(df)+1)]

fig = plt.figure(figsize=(8, 6))

ax = fig.add_subplot(221)
ax.scatter(df['Obs'], resultado.resid_pearson, color='blue')
ax.set_xlabel('Observations')
ax.set_ylabel('Standard error')

ax = fig.add_subplot(222)
ax.scatter(resultado.fittedvalues, resultado.resid_pearson, color='blue')
ax.set_xlabel('Mean response')
ax.set_ylabel('Standard error')
ax = fig.add_subplot(223)
st.probplot(resultado.resid_pearson, plot=ax)

ax = fig.add_subplot(224)
ax.hist(resultado.resid_pearson, bins=6)
ax.set_xlabel('Standard error')
ax.set_ylabel('Frecuency')
ax.set_title('Histogram')

plt.tight_layout()

4 Graficos

fig = plt.figure(figsize=(8,5))

# obs v/s error estandar

ax = fig.add_subplot(221)
ax.scatter(df["Factor"],res.resid, color = "r")
ax.set_xlabel("Observaciones")
ax.set_ylabel("Error Estandar")

#resp media v/s error estandar

ax = fig.add_subplot(222)
ax.scatter(res.fittedvalues, res.resid, color="b")
ax.set_xlabel("Respuesta media")
ax.set_ylabel("Error Estandar")

#PPplot
ax = fig.add_subplot(223)
st.probplot(res.resid_pearson,plot=ax);

#Histograma
ax = fig.add_subplot(224)
ax.hist(res.resid_pearson)
ax.set_xlabel("Error Estandar")
ax.set_ylabel("Frecuencia")

plt.tight_layout()

valor p > significancia = no se rechaza

El gráfico de residuos contiene patrones evidentes. No se cumple el principio de

homocedasticidad con su límite superior. Se observa una campana que no está centrada,
presenta un sesgo, por lo que, si bien el ajuste del pp plot es bueno, el error no es de tipo
normal. Podría haber ocurrido debido a que las variables consideradas no son suficientes, se
está dejando una o más características fuera de las existentes que posiblemente sea relevante.
Por ota parte, otras razones pueden ser de que exista multicolinealidad o bien, que el ajuste del
modelo no sea lineal.

Delhivery Mani
No ratings yet
Delhivery Mani
79 pages
Drilling For Non Technical People
100% (5)
Drilling For Non Technical People
87 pages
MEd20v2 PDF
No ratings yet
MEd20v2 PDF
502 pages
Guieline Full
No ratings yet
Guieline Full
460 pages
Metaphors in Editorial Cartoons Representing The Global Financial Crisis
No ratings yet
Metaphors in Editorial Cartoons Representing The Global Financial Crisis
21 pages
Merchandising Operations
50% (2)
Merchandising Operations
39 pages
Butterfly Knife
No ratings yet
Butterfly Knife
5 pages
Sales Tax3650193129439
No ratings yet
Sales Tax3650193129439
12 pages
Troubleshooting
No ratings yet
Troubleshooting
36 pages
Free Format RPG
No ratings yet
Free Format RPG
37 pages
Blockchain Beyond The Hype: What Is The Strategic Business Value?
No ratings yet
Blockchain Beyond The Hype: What Is The Strategic Business Value?
22 pages
Project On Marketing at University of Axis
No ratings yet
Project On Marketing at University of Axis
57 pages
Códigos Python 2021 01 10
No ratings yet
Códigos Python 2021 01 10
47 pages
Design and Analysis of An Automotive Single Plate Clutch: Mechanics Research Communications October 2018
No ratings yet
Design and Analysis of An Automotive Single Plate Clutch: Mechanics Research Communications October 2018
15 pages
utf-8''C2M1 Assignment
No ratings yet
utf-8''C2M1 Assignment
24 pages
1 World Cup Russia 2018 Stickers
No ratings yet
1 World Cup Russia 2018 Stickers
9 pages
Water Station
No ratings yet
Water Station
14 pages
Medidas de Tendencia Central 2020 PDF
No ratings yet
Medidas de Tendencia Central 2020 PDF
26 pages
GEA Convair: Empty PET Bottle Air Conveying System
No ratings yet
GEA Convair: Empty PET Bottle Air Conveying System
4 pages
AFS19-SA094-Unisteel Scaffolding and Formwork-Alpino-31122019
No ratings yet
AFS19-SA094-Unisteel Scaffolding and Formwork-Alpino-31122019
5 pages
Song Num Title of Song Movie Plus One MP4 X X X X X X X X X X
No ratings yet
Song Num Title of Song Movie Plus One MP4 X X X X X X X X X X
4 pages
ProbList10 MOI SLN
No ratings yet
ProbList10 MOI SLN
25 pages
8 CC IntegratedProjectEvaluation
No ratings yet
8 CC IntegratedProjectEvaluation
8 pages
Gaurav - Data Mining Lab Assignment
No ratings yet
Gaurav - Data Mining Lab Assignment
36 pages
NewsRecord14 04 23
No ratings yet
NewsRecord14 04 23
12 pages
Jai Gurudev Maharishi Vidya Mandir, Mangadu Physics - Worksheet Electric Fields & Charges
No ratings yet
Jai Gurudev Maharishi Vidya Mandir, Mangadu Physics - Worksheet Electric Fields & Charges
3 pages
Professional Development Plan
No ratings yet
Professional Development Plan
3 pages
M-Story Steel Building - FA - 01 PDF
No ratings yet
M-Story Steel Building - FA - 01 PDF
16 pages
COMP5318
No ratings yet
COMP5318
42 pages
Introduction To STATA: Introduction To STATA About STATA Basic Operations Regression Analysis Panel Data Analysis
No ratings yet
Introduction To STATA: Introduction To STATA About STATA Basic Operations Regression Analysis Panel Data Analysis
27 pages
Data Science Lab Manual
No ratings yet
Data Science Lab Manual
32 pages
Formulario - EA
No ratings yet
Formulario - EA
6 pages
Adidas Ultraboost 1.0 Shoes - Orange Adidas UK
No ratings yet
Adidas Ultraboost 1.0 Shoes - Orange Adidas UK
1 page
FDS All Practicals
No ratings yet
FDS All Practicals
10 pages
Chapter Four Structure of Cooperatives in Ethiopia
100% (1)
Chapter Four Structure of Cooperatives in Ethiopia
3 pages
Anexos Datadriven
No ratings yet
Anexos Datadriven
10 pages
Resolución Caso 2 - Milagro
No ratings yet
Resolución Caso 2 - Milagro
12 pages
(1905) Baltimore Bargain House Catalogue
No ratings yet
(1905) Baltimore Bargain House Catalogue
34 pages
ML 7
No ratings yet
ML 7
6 pages
Ad3411 - Student
No ratings yet
Ad3411 - Student
27 pages
Data Science Manual
No ratings yet
Data Science Manual
16 pages
Tutprac 1
No ratings yet
Tutprac 1
8 pages
Ss Project With Python
No ratings yet
Ss Project With Python
9 pages
Lab02 Summary Measures - Ipynb
No ratings yet
Lab02 Summary Measures - Ipynb
2 pages
Chapter 4 Data Visualization
No ratings yet
Chapter 4 Data Visualization
21 pages
R Regression Commands
No ratings yet
R Regression Commands
5 pages
Jamboree
No ratings yet
Jamboree
56 pages
Stata
No ratings yet
Stata
26 pages
Eviews Help
No ratings yet
Eviews Help
7 pages
Imperflex V 25 P White
No ratings yet
Imperflex V 25 P White
1 page
Hiking
No ratings yet
Hiking
13 pages
Batch-2 Ieee DMT
No ratings yet
Batch-2 Ieee DMT
4 pages
2.3 SciPy-1
No ratings yet
2.3 SciPy-1
17 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
Smarto Life C
No ratings yet
Smarto Life C
16 pages
Bda Assign
No ratings yet
Bda Assign
15 pages
FDA Assignment 4
No ratings yet
FDA Assignment 4
34 pages
Hariks
No ratings yet
Hariks
5 pages
David Benatar - Better Never To Have Been22
No ratings yet
David Benatar - Better Never To Have Been22
8 pages
Condition Number
No ratings yet
Condition Number
6 pages
3.1. Statistics in Python - Scipy Lecture Notes
No ratings yet
3.1. Statistics in Python - Scipy Lecture Notes
20 pages
AD3411
No ratings yet
AD3411
28 pages
Dal Programs With Output
No ratings yet
Dal Programs With Output
11 pages
Ed4 Unit2foundationsandcharacteristics
No ratings yet
Ed4 Unit2foundationsandcharacteristics
13 pages
Stata Logistic
No ratings yet
Stata Logistic
4 pages
Data Analyzer
No ratings yet
Data Analyzer
10 pages
Heart Disease Diagnosis Using Machine Learning
No ratings yet
Heart Disease Diagnosis Using Machine Learning
26 pages
Data Science Practical With Solutions BSC Cs Sem 6
No ratings yet
Data Science Practical With Solutions BSC Cs Sem 6
29 pages
Dav Practicals
No ratings yet
Dav Practicals
33 pages
AD3411 DATA SCIENCE AND ANALYTICS LAB (2) - Removed
No ratings yet
AD3411 DATA SCIENCE AND ANALYTICS LAB (2) - Removed
24 pages
Data Science and Analtics Laboratory
No ratings yet
Data Science and Analtics Laboratory
21 pages
Statistical Analysis With Scipy?
No ratings yet
Statistical Analysis With Scipy?
9 pages
HW Assignment1
No ratings yet
HW Assignment1
8 pages
Assignment 2
No ratings yet
Assignment 2
2 pages
Data Science and Analtics Laboratory
No ratings yet
Data Science and Analtics Laboratory
21 pages
Data Science Programs
No ratings yet
Data Science Programs
11 pages
Time Series Analysis Group 9
No ratings yet
Time Series Analysis Group 9
16 pages
HW 1
No ratings yet
HW 1
11 pages
Preggunta 6
No ratings yet
Preggunta 6
1 page
Lab Linear Regression
No ratings yet
Lab Linear Regression
21 pages
Mayank Chaudhary DEV Practicals
No ratings yet
Mayank Chaudhary DEV Practicals
14 pages
Ad3411 - Data Science and Analytics Laboratory
No ratings yet
Ad3411 - Data Science and Analytics Laboratory
26 pages
Keeratsi HW8
No ratings yet
Keeratsi HW8
17 pages
Experimenting With Data Analysis Packages and Statistical Operations
No ratings yet
Experimenting With Data Analysis Packages and Statistical Operations
18 pages
Dav Lab Manual
No ratings yet
Dav Lab Manual
28 pages
STATSCHEATSHeet
No ratings yet
STATSCHEATSHeet
5 pages
DSBDA Practicals
No ratings yet
DSBDA Practicals
16 pages

Formulario - EA

Uploaded by

Formulario - EA

Uploaded by

FORMULARIO CODIGOS ESTADÍSTICA APLICADA

fig = plt.figure(figsize=(10, 4))

histogram = nombreVariable.hist(density=True, bins=8)

histogram = nombreVariable.hist(density=True, bins = 7)

Valor mínimo del describe

fig = plt.figure(figsize=(9, 4))

res = smf.ols("Y(variable que se busca) ~ A*B*C(factores)",data=df).fit()

Ordenar de mayor a menor para R^2Adjustado (mejor modelo))

for k in range(1, len(all_vars)+1):

formula = 'NombreVariableImportante ~ ' + ' + '.join(list(sc))

resultado = smf.ols(formula, data=df).fit()

modelos.append({'k': k, 'R2adj': resultado.rsquared_adj, 'Formula': formula})

modelo = smf.ols('dc ~ log_wind', data=df)

Filtro de una tabla

modelo = smf.ols('price ~ C(fueltype) + enginesize + horsepower', data=df2)

4 Gráficos (Con observaciones)

df['Obs'] = [i for i in range(1,len(df)+1)]

# obs v/s error estandar

#resp media v/s error estandar

valor p > significancia = no se rechaza

El gráfico de residuos contiene patrones evidentes. No se cumple el principio de

You might also like

res = smf.ols("Y(variable que se busca) ~ ABC(factores)",data=df).fit()