0% found this document useful (0 votes)
168 views14 pages

Statistics Guide

The document provides definitions and explanations of key concepts in descriptive statistics including: 1) Population, sample, mean, median, variance, standard deviation, skewness, and covariance which are common measures used to describe the center and spread of data. 2) Other important concepts covered include observational vs experimental studies, empirical rule, Chebyshev's rule, effects of linear transformations, and how to combine data sets. 3) Methods for describing relationships between variables are also defined, such as correlation, which does not imply causation, and covariance, which measures how two variables change together.
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
168 views14 pages

Statistics Guide

The document provides definitions and explanations of key concepts in descriptive statistics including: 1) Population, sample, mean, median, variance, standard deviation, skewness, and covariance which are common measures used to describe the center and spread of data. 2) Other important concepts covered include observational vs experimental studies, empirical rule, Chebyshev's rule, effects of linear transformations, and how to combine data sets. 3) Methods for describing relationships between variables are also defined, such as correlation, which does not imply causation, and covariance, which measures how two variables change together.
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 14

 

Population ­  entire collection of objects or  ➔ Mean  ­  arithmetic average of data  ➔ Variance  ­  the average distance 


individuals about which information is desired.   values   squared  
➔ easier to take a sample  ◆ * *Highly susceptible to  n
∑ (xi x)2
◆ Sample ­  part of the population  extreme values (outliers). 
that is selected for analysis   Goes towards extreme values 
                      sx2 = i=1 n 1  
◆ Watch out for:   ◆ Mean could never be larger or   
● Limited sample size that  smaller than max/min value but  ◆ sx2 gets rid of the negative 
might not be  values  
could be the max/min value 
representative of 
  ◆ units are squared  
population 
◆ Simple Random Sampling­  ➔ Median  ­  in an ordered array, the   
Every possible sample of a certain  median is the middle number  ➔ Standard Deviation  ­  shows variation 
size has the same chance of being  ◆ **Not affected by extreme  about the mean  
values  


selected  n
∑ (xi x)2
   
➔ Quartiles  ­  split the ranked data into 4                  s =
i=1
Observational Study ­  there can always be  n 1   
lurking variables affecting results   equal groups    
➔ i.e, strong positive association between  ◆ Box and Whisker Plot  ◆ highly affected by outliers  
shoe size and intelligence for boys     ◆ has same units as original 
➔ **should never show causation  data  
  ◆ finance = horrible measure of 
Experimental Study­  lurking variables can be  risk (trampoline example) 
controlled; can give good evidence for causation 
 
 
 
Descriptive Statistics Part I 
Descriptive Statistics Part II 
➔ Summary Measures  
  Linear Transformations 
 
➔ Range  =  X maximum X minimum   
◆ Disadvantages:  Ignores the 
way in which data are 
distributed; sensitive to outliers 
 
  
 
➔ Interquartile Range (IQR)  =  3rd 
➔ Linear transformations change the 
quartile ­ 1st quartile  
center and spread of data  
◆ Not used that much 
◆ Not affected by outliers   ➔ V ar(a + bX) = b2 V ar(X)  
  ➔ Average(a+bX) = a+b[Average(X)] 
     
     
➔ Effects of Linear Transformations:  Skewness  ◆ Correlation doesn't imply 
◆ meannew =  a + b*mean  ➔ measures the degree of asymmetry  causation 
◆ mediannew  = a + b*median  exhibited by data  ◆ The correlation of a variable 
◆ stdev new = |b| *stdev
    ◆ negative values= skewed left  with itself is  one  
◆ IQRnew = |b| *IQR
    ◆ positive values= skewed right    
➔ Z­score  ­  new data set will have mean  ◆ if  |skewness| < 0.8  =  don't need  Combining Data Sets 
0 and variance 1  to transform data  ➔ Mean (Z) =  Z = aX + bY  
                         z = X S X     ➔ Var (Z) =  sz2 = a2 V ar(X) + b2 V ar(Y ) +  
Measurements of Association                      2abCov(X, Y )  
 
➔ Covariance   
Empirical Rule  
◆ Covariance > 0 = larger x,  Portfolios  
➔ Only for mound­shaped data 
larger y  ➔ Return on a portfolio:  
Approx. 95% of data is in the interval:  
◆ Covariance < 0 = larger x,     
      (x 2sx ,  x + 2sx ) = x + / 2sx    smaller y  
➔ only use if you just have mean and std.   
                  Rp = wA RA + wB RB  
n
dev.   ◆ sxy = 1
∑ (x x)(y y )     
n 1 ◆ weights add up to 1 
  i=1
Chebyshev's Rule   ◆ Units = Units of x   Units of y
    ◆ return = mean 
➔ Use for any set of data and for any  ◆ Covariance is only +, ­, or 0  ◆ risk = std. deviation 
number k, greater than 1 (1.2, 1.3, etc.)  (can be any number)   
➔ 1 1     ➔ Variance of return of portfolio  
2  
k ➔ Correlation  ­  measures strength of a   
➔ (Ex) for k=2 (2 standard deviations),  linear  relationship between two             sp2 = wA
2 2
sA + wB2 sB2 + 2wA wB (sA,B )  
75% of data falls within 2 standard  variables  
deviations  covariancexy    
  ◆ r xy = (std.dev. )(std. dev. )   ◆ Risk(variance) is  reduced  when 
x y
Detecting Outliers   stocks are  negatively 
◆ correlation is between  ­1 and 1 
➔ Classic Outlier Detection  correlated. (when there's a 
◆ Sign: direction of relationship 
◆ doesn't always work   negative covariance) 
◆ Absolute value: strength of 
 
◆ |z | =  ||   X S X  ||    ≥ 2   relationship (­0.6 is stronger 
 
➔ The Boxplot Rule  relationship than +0.4) 
Probability  
◆ Value X is an outlier if:    
➔ measure of uncertainty  
               X<Q1­1.5(Q3­Q1)  ➔ all outcomes have to be  exhaustive 
                          or  (all options possible)  and  mutually 
               X>Q3+1.5(Q3­Q1)  exhaustive (no 2 outcomes can 
  occur at the same time)  
   
   
                        
Probability Rules   ➔ Another way to find joint probability:   ➔ Expected Value Solution =  
1. Probabilities range from                   P (A and B) = P (A|B) P (B)       
                     0 ≤ P rob(A) ≤ 1                   P (A and B) = P (B|A) P (A)          E M V = X 1 (P 1 ) + X 2 (P 2 )... + X n (P n )  
2. The probabilities of  all outcomes must     
add up to 1   2 x 2 Table  
3. The complement rule = A happens 
or A doesn't happen 
 
                     P (A) = 1 P (A)  
Decision Tree Analysis  
                  P (A) + P (A) = 1   ➔ square = your choice 
4. Addition Rule:   ➔ circle = uncertain events  
        P (A or B) = P (A) + P (B) P (A and B)     
   
Contingency/Joint Table   Discrete Random Variables  
➔ To go from contingency to joint table,  ➔ P X (x) = P (X = x)  
divide by total # of counts    
➔ everything inside table adds up to 1  Expectation  
   
Conditional Probability     ➔ μx = E(x) =  ∑ xi P (X = xi )    
➔ P (A|B)      
P (A and B) Decision Analysis   ➔ Example:  (2)(0.1) + (3)(0.5) = 1.7  
➔ P (A|B) = P (B)   ➔ Maximax solution =  optimistic   
➔ Given  event B has happened, what is  approach. Always think the best is  Variance  
the probability event A will happen?   going to happen  ➔ σ 2 = E (x2 )  μx2    
➔ Look out for: "given", "if"  ➔ Maximin solution =  pessimistic  ➔ Example:
  approach.   (2)2 (0.1) + (3)2 (0.5) (1.7)2 = 2.01   
Independence      
➔ Independent if:   Rules for Expectation and Variance 
           P (A|B) = P (A)  or 
  P (B|A) = P (B)   ➔ μs = E (s) =  a  +  bμx    
➔ If probabilities change, then A and B 
➔ Var(s)=  b2 σ 2  
are  dependent 
 
➔ **hard to prove independence, need  
Jointly Distributed Discrete Random 
            to check every value  
Variables  
 
➔ Independent if:  
Multiplication Rules  
   
➔ If A and B are INDEPENDENT:  
        P x,y (X = x and Y = y ) = P x (x) P y (y)     
              P (A and B) = P (A) P (B)   
   
       
     
➔ Combining Random Variables   2.) All Successes   Continuous Probability Distributions 
◆ If X and Y are independent:                P (all successes) = pn   ➔ the probability that a continuous 
    3.) At least one success   random variable X will assume any 
       E (X + Y ) = E (X) + E (Y )                P (at least 1 success) = 1 (1 p)n    particular value is 0 
      V ar(X + Y ) = V ar(X) + V ar(Y )   4.) At least one failure   ➔ Density Curves  
                P (at least 1 f ailure) = 1 pn    ◆ Area under the curve is the 
◆ If X and Y are dependent:   5.) Binomial Distribution Formula for  probability that any range of 
             E (X + Y ) = E (X) + E (Y )   x=exact value   values will occur.  
  V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y )   ◆ Total area = 1 
   
➔ Covariance:   Uniform Distribution  
            C ov(X, Y ) = E (XY ) E (X)E(Y )   
➔ If X and Y are independent, Cov(X,Y) 
= 0  
 

6.) Mean (Expectation)   ◆ X ~ U nif  (a, b)  


             μ = E (x) = np    
7.) Variance and Standard Dev.  Uniform Example 
                  σ 2 = npq  
                σ = √npq  
                q = 1 p  
 
  Binomial Example 
 
Binomial Distribution  
➔ doing something n times  
➔ only 2 outcomes: success or failure 
➔ trials are independent of each other   (Example cont'd next page) 
➔ probability remains constant    
   
1.) All Failures    
             P (all f ailures) = (1 p)n   
 
X μ
➔ Z = σ/√n  
 

 
 
Sums of Normals 
➔ Mean for uniform distribution:  
(a+b)
                 E (X) = 2  
 
➔ Variance for unif. distribution:  
(b a) 2  
                V ar(X) = 12   Confidence Intervals  = tells us how good our 
    estimate is  
Normal Distribution   Sums of Normals Example:   **Want high confidence, narrow interval  
➔ governed by 2 parameters:   **As confidence increases   , interval also 
             μ (the mean) and 
  σ   (the standard  increases    
            deviation)   
➔ X ~ N (μ, σ 2 )    A. One Sample Proportion  
 
Standardize Normal Distribution:  
X μ
                       Z = σ  
➔ Z­score is the number of standard 
deviations the related X is from its   
︿ x number of  successes in sample
mean  ➔ Cov(X,Y) = 0 b/c they're independent  ➔ p= n = sample size  
➔ **Z< some value, will just be the   
probability found on table  Central Limit Theorem  
➔ **Z> some value, will be  ➔ as n increases,  
(1­probability) found on table  ➔ x  should get closer to 
  μ  (population 
➔    
  mean)  ➔ We are thus 95% confident that the true 
➔ mean( x) = μ   population proportion is in the interval… 
Normal Distribution Example   ︿
➔ variance (x) = σ 2 /n    ➔ We are assuming that n is large, n p  >5 and 
2 our sample size is less than 10% of the 
➔ X ~ N (μ, σn )   population size.  
◆ if population is normally distributed,   
n can be any value   
  ◆ any population, n needs to be  ≥ 30     
 
Standard Error and Margin of Error   B. One Sample Mean   * Stata always uses the t­distribution when 
For samples n > 30   computing confidence intervals 
Confidence Interval:    
 
Hypothesis Testing  
➔ Null Hypothesis:  
             ➔ H 0 , a statement of no change and is 
➔ If n > 30, we can substitute s for   assumed true until evidence indicates 
            σ  so that we get:  otherwise.  
➔ Alternative Hypothesis:  H a is a 
statement that we are trying to find 
                                  
evidence to support. 
Example of Sample Proportion Problem   ➔ Type I error:  reject the null hypothesis 
when the null hypothesis is true. 
(considered the worst error) 
➔ Type II error:  do not reject the null 
hypothesis when the alternative 
hypothesis is true.  
 
Example of Type I and Type II errors 
 
Determining Sample Size 
︿ ︿
(1.96)2 p(1 p)
              n = e2
 
︿
➔ If given a confidence interval,  p  is  For samples n < 30 
the middle number of the interval  
➔ No confidence interval; use worst 
case scenario  
︿
◆ p  =0.5     
T Distribution used when:    
➔ σ is not known, n < 30, and data is
    Methods of Hypothesis Testing  
normally distributed  1. Confidence Intervals ** 
2. Test statistic  
3. P­values ** 
➔ C.I and P­values always safe to do 
because don’t need to worry about 
size of n (can be bigger or smaller 
  than 30) 
           
One Sample Hypothesis Tests 
1. Confidence Interval (can be 
used only for  two­sided  tests)  

 
 
4. P­Values  
➔ a number between 0 and 1  
➔ the larger the p­value, the more 
consistent the data is with the null 
➔ the smaller the p­value, the more 
  consistent the data is with the 
2. Test Statistic Approach  alternative  
 
(Population Mean)  ➔ ** If P is low (less than 0.05),  
3. Test Statistic Approach (Population 
               H 0 must go ­ reject the null   
Proportion)  
              hypothesis  
 

 
   
   
 
   
 
 
Two Sample Hypothesis Tests   ➔ Test Statistic for Two Proportions  2. Comparing Two Means (large 
1. Comparing Two Proportions  independent samples n>30) 
(Independent Groups)   
➔ Calculate Confidence Interval   ➔ Calculating Confidence Interval  

             
     ➔ Test Statistic for Two Means 

 
 

 
 
Matched Pairs 
➔ Two samples are DEPENDENT 
Example:  
 

 
 
 
   
︿
➔ Interpretation of slope ­  for each  ➔ corr (Y , e) = 0  
additional x value (e.x. mile on   
odometer), the y value  decreases/  A Measure of Fit:  R2  
            increases  by an average of  b1 value 
➔ Interpretation of y­intercept ­  plug in 
︿
0 for x and the value you get for  y  is 
the y­intercept (e.x. 
y=3.25­0.0614xSkippedClass, a 
student who skips no classes has a 
gpa of 3.25.) 
➔ ** danger of extrapolation ­  if an x 
value is outside of our data set, we   
 
can't confidently predict the fitted y  ➔ Good fit: if SSR is big, SEE is small 
 
value  ➔ SST=SSR, perfect fit 
Simple Linear Regression 
  ➔ R2 : coefficient of determination 
➔ used to predict the value of one 
Properties of the Residuals and Fitted  2
                     R = SSR = 1 SSE  
variable (dependent variable) on the  SST SST  
basis of other variables (independent  Values  ➔ R is between 0 and 1, the closer  R2
2

variables)    1. Mean of the residuals = 0; Sum of  is to 1, the better the fit  


︿ the residuals = 0  
➔ Y = b0 + b1 X   ➔ Interpretation of  R2 :  (e.x. 65% of the 
︿ 2. Mean of original values is the same  variation in the selling price is explained by 
➔ Residual:  e = Y Y f itted   ︿
as mean of fitted values  Y = Y       the variation in odometer reading. The rest 
➔ Fitting error:   35% remains unexplained by this model)  
︿
                   ei = Y i Y i = Y i b0 bi X i    ➔ ** R2 doesn’t indicate whether model 
◆ e is the part of Y not related  is adequate** 
to X  ➔ As you add more X’s to model,  R2
➔ Values of  b0 and  b1 which minimize  goes up  
the residual sum of squares are:   ➔ Guide to finding SSR, SSE, SST 
sy
                          (slope)  b1 = r s    
x
                                         b0 = Y b1 X   3.
4. Correlation Matrix  

 
 
  
 
     
Assumptions of Simple Linear Regression  Example of Prediction Intervals:   Regression Hypothesis Testing  
1. We model the AVERAGE of something  *always a two­sided test 
rather than something itself  ➔ want to test whether slope ( β 1 ) is 
needed in our model 
2.   ➔ H 0 :  β 1  = 0  (don’t need x) 
H a  :  β 1 =/   0  (need x) 
           
➔ Need X in the model if:   
          a. 0 isn’t in the confidence 
  interval  
Standard Errors for  b1 and b0   b. t > 1.96 
➔ standard errors   when noise     c. P­value < 0.05 
➔ sb0 amount of uncertainty in our   
estimate of  β 0  (small s good, large s  Test Statistic for Slope/Y­intercept  
bad)  ➔ can only be used if n>30 
➔ sb1 amount of uncertainty in our 
➔ if n < 30, use p­values 
estimate of  β 1   
 
◆ As  ε (noise) gets bigger, it’s 
harder to find the line 

           
                         Confidence Intervals for  b1 and b0  
Estimating  S e  
2 ➔    
➔ S e = SSEn 2  
2
➔ S e is our estimate of  σ 2  
➔  

➔ S e = S e2 is our estimate of  σ  
➔ 95% of the Y values should lie within  ➔  
+
the interval  b0 + b1 X  1.96S e  
➔  
➔ n small → bad 
             se big → bad
    
 
             s2x small→ bad (wants x’s spread out for   
            better guess)   
           
Multiple Regression  
➔  
➔ Variable Importance:  
◆ higher t­value, lower p­value = 
variable is more important   
◆ lower t­value, higher p­value =   
variable is less important (or not 
Interaction Terms 
needed) 
➔ allow the slopes to change  
 
➔ interaction between 2 or more x 
Adjusted R­squared    variables that will affect the Y variable 
➔ k = # of X’s     
Modeling Regression   How to Create Dummy Variables (Nominal 
Backward Stepwise Regression   Variables)  
1. Start will all variables in the model   ➔ If C is the number of categories, create 
          2. at each step, delete the least important  (C­1) dummy variables for describing 
➔ Adj. R­squared will   as you add junk x  variable based on largest p­value above  the variable  
variables  0.05  ➔ One category is always the 
➔ Adj. R­squared will only   if the x you  3. stop when you can’t delete anymore  
“baseline”, which is included in the 
add in is very useful  ➔ Will see Adj. R­squared   and Se    
intercept  
➔ **want Adj. R­squared to go up and Se   
low for better model  Dummy Variables  
  ➔ An indicator variable that takes on a 
The Overall F Test   value of 0 or 1, allow intercepts to 
change 

                       
           
➔ Always want to reject F test (reject 
 
null hypothesis)  
Recoding Dummy Variables  
➔ Look at p­value (if < 0.05, reject null) 
Example: How many hockey sticks sold in 
➔ H 0 :  β 1 = β 2 = β 3 ... = β k = 0   (don’t 
the summer (original equation) 
need any X’s)        hockey = 100 + 10W tr 20Spr + 30F all   
             H a  :  β 1 = β 2 = β 3 ... = β k =/ 0   (need at    Write equation for how many hockey sticks 
            least 1 X)  sold in the winter  
➔ If no x variables needed, then SSR=0        hockey = 110 + 20F all 30Spri 10Summer    
and SST=SSE  ➔ **always need to get same exact 
  values from the original equation 
   
 
Regression Diagnostics             so that we can compare models.    ◆ Homoskedastic:  band around the 
Standardize Residuals             Can’t compare models if you take log  values 
          of Y.   ◆ Heteroskedastic:  as x goes up, 
◆ Transformations cheatsheet  the noise goes up (no more band, 
                   fan­shaped)  
Check Model Assumptions  ◆ If heteroskedastic, fix it by 
➔ Plot residuals versus Yhat  logging the Y variable  
◆ If heteroskedastic, fix it by 
making standard errors robust  
 
➔ Multicollinearity  
◆ when x variables are highly 
                        correlated with each other.  
◆ ovtest: a significant test  ◆ R2 > 0.9 
         statistic indicates that  ◆ pairwise correlation > 0.9 
➔ Outliers   polynomial terms should be  ◆ correlate all x variables, include 
◆ Regression likes to move  added  y variable, drop the x variable 
towards outliers (shows up  ◆ H 0 :  data  = no transf ormation   that is less correlated to y 
as  R2 being really high)               H a  :  data  =/ no transf ormation      
◆ want to remove outlier that is  Summary of Regression Output 
extreme in both x and y   
➔ Nonlinearity (ovtest) 
◆ Plotting residuals vs. fitted 
values will show a   
relationship if data is  ➔ Normality (sktest) 
nonlinear ( R2 also high)  ◆ H 0 :  data  = normality  
             H a  :  data  =/ normality    
◆ don’t want to reject the null 
hypothesis. P­value should 
be big 

     
◆ Log transformation ­     
accommodates non­linearity,     
reduces right skewness in the Y,  ➔ Homoskedasticity (hettest)   
eliminates heteroskedasticity  ◆ H 0 :  data  = homoskedasticity    
◆ **Only take log of X variable  ◆ H a : data  =/ homoskedasticity      
   
     
     
     
     
     
       
     
     
     
     
     
     
     
     
       
     
      
   
         
 
 
 
 
 
 
 

     
     
     
     
     
     
   
      
   
   
   
 
 

You might also like