Lectura Minimos Cuadrados Regresion Lineal Analisis Datos Libro Sinhue Haro
Lectura Minimos Cuadrados Regresion Lineal Analisis Datos Libro Sinhue Haro
Lectura Minimos Cuadrados Regresion Lineal Analisis Datos Libro Sinhue Haro
Análisis de datos
Antes de iniciar con el análisis de los datos, explicaremos la manera de exportar los datos
Regresión
Yteo = mX + b (22.1)
s
1 N
s= 2
 (Yi
N i=1
Yteo )2 (22.2)
174
Mínimos cuadrados
Para encontrar el valor de m (la pendiente) y b (ordenada al origen) de la línea recta que
ajusta mejor a los datos, procedemos como sigue:
∂s2 ∂ N
N
∂m
= Â (Yi
∂ m i=1
mXi + b)2 = 0 (22.3)
∂s2 ∂ N
N
∂b
= Â (Yi
∂ b i=1
mXi + b)2 = 0 (22.4)
N ÂN N N
i=1 XiYi (Âi=1 Xi )(Âi=1 Yi )
m= (22.7)
N ÂNi=1 Xi
2 ( N X )2
Âi=1 i
(ÂN 2 N N N
i=1 Xi )(Âi=1 Yi ) (Âi=1 Xi )(Âi=1 XiYi ) ÂN N
i=1 Yi m Âi=1 Xi
b= N 2 N
= (22.8)
N Âi=1 Xi (Âi=1 Xi )2 N
Evaluando el ajuste
Por último, para estimar qué tan bueno es el ajuste obtenido, es necesario calcular el valor,
ya sea mediante el método del error de la raíz cuadrada media (RMSE por sus siglas Root
Mean Squared Error) o la prueba c 2 (Chi-Cuadrada o Chi-Square) o el coeficiente de
correlación (r).
175
d f = (2 1)x(2 1) = 1 (22.11)
Para rechazar o aceptar el ajuste se debe comparar el valor de c 2 con el valor crítico
dado por la probabilidad y el número de grados de libertad dados en la Tabla 22.1.
Por ejemplo, con una probabilidad igual a 0.05 y 1 grado de libertad, se obtiene un
valor crítico de 3.841, el cual representa tener un 95 % de seguridad en que el ajuste
es de buena calidad. Para probabilidades entre 0.05 y 0.01 se puede tener confianza
en el ajuste, mientras que probabilidades entre 0.99 y 0.1 no tendrán un buen ajuste
y se deberán de rechazar. Por ejemplo, si el valor de c 2 es de 146.67, con 1 grado de
libertad y con un nivel de 95 % de confianza, entonces c 2 >3.84, por lo que el ajuste
deberá ser rechazado. Otra gran ventaja es que este criterio está muy extendido en
muchas áreas del conocimiento en donde se hacen ajustes a los datos obtenidos.
Cuando los errores en las medidas son desconocidos, se calcula el coeficiente de
correlación lineal (r), el cual mide el grado de correlación lineal entre las variables.
El valor de r está en el intervalo de 0 a 1. Cuando tiene un valor de 1, entonces se
dice que la correlación es total, y cuando tiene un valor de 0 se dice que no hay
correlación. La ecuación para calcular el valor de r es:
NSxy Sx Sy
r= p q (22.12)
2
NSxx Sx2 2
NSyy Sy2
176
Donde
N
Syy = Â Yi2
i=1
N
Sxx = Â Xi2
i=1
N
Sxy = Â XiYi (22.13)
i=1
N
Sx = Â Xi
i=1
N
Sy = Â Yi
i=1
A los estudiantes interesados en aprender más de este tema se les sugiere consultar las
siguientes referencias Baird [3] y Bevington y Robinson [4].
Cálculo rápido
Por otro lado, el cálculo rápido es un cambio de variable que ayuda a transformar la gráfica
de una manera sencilla y rápida con el objetivo de encontrar una gráfica en donde los datos
muestren una distribución lineal. Este método consiste en la modificación de los ejes de
la gráfica con funciones predefinidas tales como inverso, cuadrado, cúbico, etcétera. El
cálculo rápido está incluido en el software Capstone ([13]). Por ejemplo, en el capítulo
4 fueron analizados los datos del péndulo al seleccionar el eje de masas y luego elegir la
función cálculo rápido (QuickCalc) para seleccionar la función inversa, m1 . El resultado
transformará la gráfica a una distribución lineal, la cual tiene un ajuste lineal.
177
Figura 22.1: Prueba de Chi cuadrada (c 2 ) para diferentes valores críticos y grados de
libertad. Los valores críticos más confiables son 0.05, 0.025 y 0.01, que significa tener un
nivel de confianza del 95 %, 97.5 % y 99 %, respectivamente.