Lectura Minimos Cuadrados Regresion Lineal Analisis Datos Libro Sinhue Haro

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 5

173

Análisis de datos

Exportar datos desde Capstone

Antes de iniciar con el análisis de los datos, explicaremos la manera de exportar los datos

Dar click en el menú File (Archivo).


Dar click en Export Data (Exportar Datos).
Seleccionar el tipo de archivo: Texto (limitado por espacio) (*.dat o *.txt); CSV
(Limitado por coma) (*.csv). En ciencia es muy frecuente guardar los datos en
formato *.dat
Elegir la carpeta en donde se localizará el archivo a guardar
Dar click en Guardar.

En la siguiente sección se ofrecen ciertas pautas y explicaciones acerca de los métodos


de análisis de datos. Los métodos de análisis han sido utilizados de manera implícita a lo
largo de este manual, ya sea al momento de interpretar los datos de la tabla o de la gráfica.
El objetivo del análisis de datos es investigar las relaciones que existen entre las variables
dependientes e independientes, así como encontrar el mejor modelo que ajuste a los datos.
Existen varios métodos para analizar los datos, pero en general los podemos agrupar en:

Regresión, también conocido como ajuste.


Herramienta cálculo rápido para modificar los ejes de las gráficas.

Regresión

La regresión consiste en asumir un modelo matemático (ecuación) que sea apropiado, es


decir, que pueda describir de la mejor manera el comportamiento observado de la variable
dependiente (Yi ) como función de la variable independiente (Xi ). La manera más sencilla
de aplicar este método es considerar la navaja de Ockham, también llamado principio
de parsimonia. Este principio consiste en encontrar la explicación más simple. En este
caso, la ecuación más simple es la línea recta que está descrita por:

Yteo = mX + b (22.1)

Siendo Yteo la variable dependiente teórica, X es la variable independiente, m es la pendiente


de la recta y b es la ordenada al origen. Para encontrar los valores de m y b se precisa
utilizar la técnica de los mínimos cuadrados, y para conocer si se ha hecho un buen ajuste
a los datos es necesario calcular el valor de la desviación estándar (s ) o el error de la raíz
cuadrada media (RMSE) dado por:

s
1 N
s= 2
 (Yi
N i=1
Yteo )2 (22.2)
174

Mínimos cuadrados

Para encontrar el valor de m (la pendiente) y b (ordenada al origen) de la línea recta que
ajusta mejor a los datos, procedemos como sigue:

Primero, s no depende linealmente de Â(Yi Yteo ) porque se podría generar un


conflicto, pues, al calcular las diferencias entre las barras de error con signos opuestos
y con valores muy grandes en cada i-ésima medición de Yi , la suma de cada elemento
podría anularse y tender a cero.
Para evitar que las barras de error con signos opuestos se anulen se opta mejor por
considerar el cuadrado del error, es decir, Â(Yi Yteo )2 .
Para encontrar el mínimo de la función s se deberá sustituir la ecuación 22.1 en la
ecuación 22.2.
Se deriva s de manera parcial con respecto a las variables m y b, y se iguala a cero
para obtener:

∂s2 ∂ N
N
∂m
= Â (Yi
∂ m i=1
mXi + b)2 = 0 (22.3)

∂s2 ∂ N
N
∂b
= Â (Yi
∂ b i=1
mXi + b)2 = 0 (22.4)

Después de derivar y de aplicar álgebra se obtiene el siguiente sistema de ecuaciones:


N N N
m  Xi2 + b  Xi  XiYi = 0 (22.5)
i=1 i=1 i=1
N N N
m  Xi +  b  Yi = 0 (22.6)
i=1 i=1 i=1
El resultado de resolver el sistema de ecuaciones 22.5 y 22.6 es:

N ÂN N N
i=1 XiYi (Âi=1 Xi )(Âi=1 Yi )
m= (22.7)
N ÂNi=1 Xi
2 ( N X )2
Âi=1 i

(ÂN 2 N N N
i=1 Xi )(Âi=1 Yi ) (Âi=1 Xi )(Âi=1 XiYi ) ÂN N
i=1 Yi m Âi=1 Xi
b= N 2 N
= (22.8)
N Âi=1 Xi (Âi=1 Xi )2 N

Evaluando el ajuste

Por último, para estimar qué tan bueno es el ajuste obtenido, es necesario calcular el valor,
ya sea mediante el método del error de la raíz cuadrada media (RMSE por sus siglas Root
Mean Squared Error) o la prueba c 2 (Chi-Cuadrada o Chi-Square) o el coeficiente de
correlación (r).
175

Método de error de la raíz cuadrada media (RMSE) es expresada con la siguiente


ecuación: s
1 N
RMSE = 2 Â (Yi Yteo)2
N i=1
(22.9)

El problema con este método es que el resultado es un número, y en buenas condicio-


nes uno espera que este número sea pequeño, pero ¿qué significa que sea pequeño?
esa ambigüedad es el principal problema para usar este método.
La prueba c 2 : Para este método usamos la siguiente ecuación:
N
(Yi Yteo )2
c2 = Â (22.10)
i=1 Yteo
También es necesario calcular los números de grados de libertad, los cuales se
obtienen al multiplicar el número de renglones menos 1 y el número de columnas
menos 1, tal como se muestra a continuación: d f = (renglones 1)x(columnas 1).
Por ejemplo, para una tabla de 2x2 los grados de libertad serán:

d f = (2 1)x(2 1) = 1 (22.11)

Para rechazar o aceptar el ajuste se debe comparar el valor de c 2 con el valor crítico
dado por la probabilidad y el número de grados de libertad dados en la Tabla 22.1.
Por ejemplo, con una probabilidad igual a 0.05 y 1 grado de libertad, se obtiene un
valor crítico de 3.841, el cual representa tener un 95 % de seguridad en que el ajuste
es de buena calidad. Para probabilidades entre 0.05 y 0.01 se puede tener confianza
en el ajuste, mientras que probabilidades entre 0.99 y 0.1 no tendrán un buen ajuste
y se deberán de rechazar. Por ejemplo, si el valor de c 2 es de 146.67, con 1 grado de
libertad y con un nivel de 95 % de confianza, entonces c 2 >3.84, por lo que el ajuste
deberá ser rechazado. Otra gran ventaja es que este criterio está muy extendido en
muchas áreas del conocimiento en donde se hacen ajustes a los datos obtenidos.
Cuando los errores en las medidas son desconocidos, se calcula el coeficiente de
correlación lineal (r), el cual mide el grado de correlación lineal entre las variables.
El valor de r está en el intervalo de 0 a 1. Cuando tiene un valor de 1, entonces se
dice que la correlación es total, y cuando tiene un valor de 0 se dice que no hay
correlación. La ecuación para calcular el valor de r es:

NSxy Sx Sy
r= p q (22.12)
2
NSxx Sx2 2
NSyy Sy2
176

Donde

N
Syy = Â Yi2
i=1
N
Sxx = Â Xi2
i=1
N
Sxy = Â XiYi (22.13)
i=1
N
Sx = Â Xi
i=1
N
Sy = Â Yi
i=1

A los estudiantes interesados en aprender más de este tema se les sugiere consultar las
siguientes referencias Baird [3] y Bevington y Robinson [4].

Cálculo rápido

Por otro lado, el cálculo rápido es un cambio de variable que ayuda a transformar la gráfica
de una manera sencilla y rápida con el objetivo de encontrar una gráfica en donde los datos
muestren una distribución lineal. Este método consiste en la modificación de los ejes de
la gráfica con funciones predefinidas tales como inverso, cuadrado, cúbico, etcétera. El
cálculo rápido está incluido en el software Capstone ([13]). Por ejemplo, en el capítulo
4 fueron analizados los datos del péndulo al seleccionar el eje de masas y luego elegir la
función cálculo rápido (QuickCalc) para seleccionar la función inversa, m1 . El resultado
transformará la gráfica a una distribución lineal, la cual tiene un ajuste lineal.
177

Figura 22.1: Prueba de Chi cuadrada (c 2 ) para diferentes valores críticos y grados de
libertad. Los valores críticos más confiables son 0.05, 0.025 y 0.01, que significa tener un
nivel de confianza del 95 %, 97.5 % y 99 %, respectivamente.

También podría gustarte