Unidad #1 Introducción

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 14

UNIDAD N° 1: INTRODUCCIÓN A LA ESTADÍSTICA

1. DEFINICION DE ESTADÍSTICA

La Estadística es la ciencia que se encarga de los métodos científicos, para:


recoger, organizar, resumir, analizar e interpretar “datos”, así como también
sacar conclusiones para tomar decisiones sobre la base de tales análisis (es la
ciencia de los datos)

La palabra estadística deriva del Italiano “statista”, que significa Estadista: que
es la persona que trabaja para el estado, reuniendo información y gestionando
información relacionada con el estado (población, economía, territorio, etc.)

2. APLICACIONES DE LA ESTADÍSTICA

En la vida diaria somos bombardeados continuamente por datos estadísticos:


encuestas electorales, datos sobre economía, datos meteorológicos, calidad de
los productos, audiencias de TV. Necesitamos una formación en Estadística para
evaluar toda esta información, pero la utilidad de la Estadística va mucho más
allá de estos ejemplos.

Los macrodatos, también llamados datos masivos, inteligencia de datos, datos a


gran escala o “BIG DATA” es un término que hace referencia a conjuntos de
datos tan grandes y complejos que precisan de aplicaciones informáticas no
tradicionales de procesamiento de datos para tratarlos adecuadamente

La Estadística es fundamental para muchas ramas de la ciencia: medicina,


economía, ciencias sociales, etc. Pero, sobre todo, es esencial para interpretar
los datos que se obtienen de una investigación científica. Es necesario leer e
interpretar datos, producirlos, extraer conclusiones; en resumen, saber el
significado de los datos.

La Estadística resuelve multitud de problemas que se plantean en ciencia:


• Análisis de muestras. Se elige una muestra de una población para hacer
inferencias respecto a esa población a partir de lo observado en la muestra
• Descripción de datos. Procedimientos para resumir la información contenida
en un conjunto (amplio) de datos.
• Contraste de hipótesis. Metodología estadística para diseñar experimentos
que garanticen que las conclusiones que se extraigan sean válidas. Sirve para
comparar las predicciones resultantes de las hipótesis con los datos
observados.
• Medición de relaciones entre variables estadísticas (contenido de gas
hidrogeno neutro en galaxias y la tasa de formación de estrellas, etc.)
• Predicción. Prever la evolución de una variable estudiando su historia y/o
relación con otras variables.
La estadística como ciencia comprende dos grandes campos, que son:
Estadística
Descriptiva Estudia los métodos para recolectar, organizar, resumir, presentar y analizar datos

Estadística
Inferencial Estudia los métodos para realizar pronósticos o predicciones, a partir del análisis de
datos.

3. POBLACIÓN Y MUESTRA

3.1. Población Estadística


Se denomina población al conjunto completo de elementos, con alguna
característica común, que es el objeto de nuestro estudio.

Esta definición incluye, por ejemplo, a todos los sucesos en que podría
concretarse un fenómeno o experimento cualesquiera. Una población puede ser
finita o infinita.

Pe.
Los habitantes de un país, los planetas del Sistema Solar, el número de razas de una
especie animal, etc., son elementos de una población finita. Sin embargo, el número de
posibles medidas que se puedan hacer de la velocidad de la luz, o de tiradas de un dado,
forman poblaciones infinitas.

3.2. Muestra Estadística


En estadística se llama Muestra a un subconjunto o una parte de una población,
la cual sin embargo debe ser “representativa” de la población.

Pe.
Si se quiere estudiar las propiedades de las estrellas en nuestra Galaxia, no tendremos
la oportunidad de observarlas todas; tendremos que conformarnos con una muestra
representativa. Obviamente, elegir de forma representativa los elementos de una
muestra es algo muy importante. De hecho, existe un grave problema, conocido como
efecto de selección, que puede condicionar el resultado de un estudio si no se realiza
una selección correcta de los elementos que conforman una muestra.
A cada uno de los componentes de una Población o de una muestra, se denomina
“elemento”; al número de elementos de una población o de una muestra, se
denomina: Tamaño de la población (N) o Tamaño de la muestra (n).

4. VARIABLE ESTADÍSTICA

4.1. Definición
Una Variable Estadística, es una característica de los elementos de una población
o de una muestra que interesa al análisis a realizar, que puede tomar diferentes
valores; en estadística a las variables se los representa por las letras: x, y, z,…

Pe.
Todos los estudiantes de la Facultad Integral de los Valles Cruceños FIVC, puede
considerarse como una población estadística, de la cual podría elegirse varias muestras
estadística; para el análisis estadístico, el interés podría ser ciertas características de los
estudiantes de la FIVC, como ser: su edad, su desempeño académico, su procedencia,
su estado civil, el número de materias aprobadas, etc. A estas características de los
estudiantes, se denomina “Variables Estadísticas”.

4.2. Clasificación de las Variables Estadísticas

Las variables aleatorias se clasifican según los siguientes criterios:

V. Cualitativa
Nominal
Variable
Cualitativa
V. Cualitativa
Ordinal
Variable
estadísticas
V. Cuantitativa
Discreta
Variable
Cuantitativa
V. Cuantitativa
Continua

a) Variables Cualitativas
Son variables que no se pueden cuantificar (representar numéricamente), solo
es posible establecer su cualidad o atributo; Pe: estado civil, procedencia,
semestre vencido, etc.)

a1) Cualitativas Nominales


Son variables cuyo atributo o cualidad, no es susceptible de ser ordenado
o jerarquizado; Pe: estado civil, procedencia, género, profesión u oficio,
etc.
a2) Cualitativas Ordinales
Son variables cuyo atributo o cualidad, si se puede ordenar o jerarquizar;
Pe: Grado académico, grado militar, semestre vencido, etc.
b) Variables Cuantitativas
Son variables que se pueden cuantificar (representar por un número); Pe:
rendimiento académico, número de materias aprobadas, intensidad del viento,
caudal, velocidad, etc.

b1) V. Cuantitativas Discretas


Son variables que se pueden cuantificar solo a través de números enteros;
Pe: número de materias vencidas, edad, número de hermanos, miembros
en la familia, etc.

b2) V. Cuantitativas Continuas


Son variables que se pueden cuantificar por cualquier número real dentro
de un intervalo; Pe. Nota promedio semestral, peso, estatura, velocidad,
vida útil de una computadora, etc.

5. FUENTES DE INFORMACIÓN

5.1. Identificación de las Fuentes de Información

Básicamente existen tres medios para obtener los datos requeridos en un


análisis estadístico:

• Recurrir a datos ya publicados instituciones oficiales, como ser: INE,


Ministerios, Gobernaciones, Gobiernos Municipales; así también
instituciones u organizaciones especializadas: Universidades, Cámaras de
Industria y Comercio, Compañías e Industrias, ONGs., entre otras.
• Diseñar un experimento para obtener los datos requeridos (diseños
experimentales)
• Recabar datos a través de una encuesta, entrevista, grupo focal u opinión
de expertos.

Es siempre recomendable citar la fuente de información de los datos con los que
se trabaja.

6. ORGANIZACIÓN Y CLASIFICACIÓN DE DATOS

Frente a un conjunto de datos, el procedimiento para presentarlos de manera


que permita ver sus características importantes, recomienda realizar las
siguientes acciones:

• Revisión de datos
• Ordenamiento
• Organización y sistematización de datos
• Representación de datos (tablas o cuadros estadísticos y gráficas)

6.1. Revisión de Datos


Una regla empírica indica (Huber 1984) que es de esperar que entre 2 a 5% de
los datos podrían tener errores de medición, transcripción, etc. Por lo tanto, es
recomendable que antes de utilizar datos crudos para un análisis estadístico,
realizar una revisión para detectar datos inconsistentes o fuera de lugar.
Pe.:
3, 5, 7, 9, 25, 8, 10, 11, 58
¿Existen algún(os) datos fuera de lugar?

6.2. Ordenamiento de Datos


Ante un conjunto de datos sobre alguna variable cuantitativa, es siempre
recomendable ordenar los datos, ya sea de menor a mayor o viceversa; para ello
se puede realizar esta tarea manualmente o aplicando alguna herramienta
informática.

Pe.
Los siguientes datos corresponden a los datos de una muestra, sobre la variable
estatura (cm) de un conjunto de 60 personas que acuden a un control médico;
para este conjunto de datos se requiere elaborar un ordenamiento de datos:

150 160 161 160 160 172 162 160 172 151 161 172 160 169 169 176 160 173 184 172
160 170 153 167 167 175 166 173 169 178 170 179 175 174 160 174 149 162 161 168
170 173 156 159 154 156 160 166 170 169 163 168 171 178 179 164 176 163 182 162

Ordenamiento de datos:

6.3. Organización y sistematización de Datos

Si los datos que se dispone corresponden a una variable cuantitativa y son


numerosos, se hace necesario organizarlos o clasificarlos en tablas resumen,
denominadas “Tablas de Frecuencia” o también “Distribución de Frecuencias”.
Si los datos corresponden a una variable discreta, lo más adecuado es
organizarlos en una tabla denominada “Tabulación Discreta”, si corresponden a
una variable continua, es mejor organizarlos en un tipo de tabla denominada
“Clasificación de Datos”.
6.3.1. Organización de Datos para Variables Discretas

a) Tabulación discreta

Cuando los datos corresponden a variables discretas, resulta conveniente


organizarlos en una tabla de frecuencia denominada Tabulación Discreta, que
consiste en una tabla donde la primera columna corresponde a cada uno de los
valores diferentes del conjunto de datos, en la segunda columna se indica
cuantas veces se repite cada dato diferente.

• Frecuencia Absoluta (f):


Al número de veces que se repite un dato, se denomina “Frecuencia
Absoluta”
Pe.: para los datos del ejercicio anterior, se requiere elaborar una Tabla de
Frecuencias, luego se debe presentar la información de manera gráfica.

DISTRIBUCIÓN DE FRECUENCIAS
(TABULACIÓN DISCRETA)
10
8
6
4
2
0
151

154

167

176
149
150

153

156
159
160
161
162
163
164
166

168
169
170
171
172
173
174
175

178
179
182
184

Además de la frecuencia absoluta “f”, también existen otro tipo de frecuencias, como ser:

• Frecuencia relativa “h”:


Es el cociente entre el valor de la frecuencia absoluta de una variable y el
número total de datos.
𝒇 𝒇
𝒉= 𝒉=
𝑵 𝒏

Dónde: n = número de datos de una muestra estadística


N = número de datos de una población estadística
f = frecuencia absoluta de cada dato diferente

• Frecuencia porcentual “p”:


Es igual a la frecuencia relativa de cada dato diferente, pero expresada en
porcentaje % (multiplicado por 100).
𝒑 = 𝒉 ∗ 100 (%)
• FRECUENCIAS ACUMULADAS:
Frecuencias acumuladas “F” (mayor que):
Es igual a la suma de las frecuencias mayores e iguales al valor de la variable
“x” que se está considerando.

Frecuencia acumulada “F´”(menor que):


Es la suma de las frecuencias menores e iguales al valor de la variable “x” que
se está considerando.
Pe:
Un programa de asistencia técnica para combatir la mosca de la fruta en la región de
Comarapa, ha visitado 25 huertos de durazno para identificar el número de plantas infestadas
con este parásito; los resultados son los siguientes:
15 20 25 15 18 18 17 18 20 18 18 18 19
16 17 19 16 17 17 17 19 18 19 18 15
Número de datos de la Población estadística: N = 25

Para estos datos, se requiere:


Construir una tabla de frecuencias
Responder a las siguientes preguntas:
• ¿Cuántos huertos tienen 18 plantas infestadas?
• ¿Qué porcentaje de los huertos tiene 19 plantas infestadas?
• ¿Qué proporción de huertos tienen 20 plantas o más, atacadas por este parásito?
• ¿Qué cantidad de huertos tienen 17 o menos plantas infestadas?

1° Ordenamiento de datos:

15 15 15 16 16 17 17 17 17 17 18 18 18
18 18 18 18 18 19 19 19 19 20 20 25

2° Tabla de frecuencia (Tabulación discreta)

FRECUENCIA FRECUENCIA A. FRECUENCIA


VARIA- FRECUENCIA FRECUENCIA
DATO PORCENTUAL MAYOR QUE A. MENOR
BLE x ABSOLUTA f RELATIVA h
p “F” QUE F´
X1 15 3 0.12 12% 25 3
X2 16 2 0.08 8% 22 5
X3 17 5 0.20 20% 20 10
X4 18 8 0.32 32% 15 18
X5 19 4 0.16 16% 7 22
X6 20 2 0.08 8% 3 24
X7 25 1 0.04 4% 1 25
CON-
TROL 25 = N 1.0 100%
3° Gráfico de Frecuencias Absolutas

Distribución de Frecuencias Absolutas


10
8
Frecuencia 6
4
2
0
15 16 17 18 19 20 25
Variable

4° Frecuencias Porcentuales

FRECUENCIAS PORCENTUALES
15 16 17 18 19 20 25

4%
8% 12%

8%
16%

20%

32%

5° Polígonos de Frecuencias Acumuladas (Mayor que y Menor que)

OJIBAS

15 17 19 21 23 25 27
FRECUENCIA MAYOR QUE F FRECUENCIA A. MENOR QUE F´
Finalmente, con la tabla de frecuencias se puede responder a las preguntas
planteadas:
¿Cuántos huertos tienen 18 plantas infestadas?
R: Ocho huertos (frecuencia absoluta)

¿Qué porcentaje de los huertos tiene 19 plantas infestadas?


R: el 16% de los huertos tiene 19 plantas infestadas (frecuencia porcentual)

¿Qué cantidad de huertos tienen 20 plantas o más, atacadas por este mal?
R: Tres huertos tienen 20 o más plantas infestadas (frecuencia acumulada Mayor que)

¿Qué cantidad de huertos tienen 17 o menos plantas infestadas?


R: Diez huertos tienen 17 o menos plantas infestadas (Frecuencia acumulada Menor
que)
6.3.2. Organización de Datos para Variables Continuas

Si el conjunto de datos corresponde a una variable continua (valores que pueden contener
decimales, dentro de un intervalo), la organización, sistematización y presentación de este tipo
de datos recibe el nombre de “Clasificación”.

Para realizar una clasificación, preciso definir algunos conceptos:

a) Rango (R): Es el tamaño del intervalo dentro del cual están comprendidos los
datos; se determina restando el dato mayor, menos el dato menor: R = x n – x1.
x1 Rango xn

b) Número de Clases (k): es el número de clases o categorías de igual tamaño dentro


de las cuales se van a clasificar los datos; para determinar el número de clases
existen las siguientes alternativas:
1° Alternativa: Calcular √𝑛, √𝑁; donde N: número de datos de una población,
n: número de datos de una muestra, si el resultado no es un número entero se
asume como k, al entero inmediato superior.
2° Alternativa: Calcular 1+ 3,3 Log(N); 1 + 3,3 Log(n); si el resultado no es un
número entero, se asume el entero inmediato superior.

Observación: Se asume el valor más pequeño obtenido de las dos alternativas:

c) Ancho de clase (amplitud de una clase) A: es el tamaño de cada subintervalo, o


categoría que comprende cada clase; todas las clases son del mismo ancho.

x1 Rango xn

Clase 1 Clase 2 Clase 3 Clase n

𝑹
𝑨=
𝒌
d) Frecuencia Absoluta “f”: es el número de datos comprendidos en cada
clase.

e) Marca de clase: es un valor representativo de cada clase, que está


determinado por el promedio entre el límite superior y el límite inferior de
cada clase.

A continuación se realiza un proceso de clasificación para el siguiente conjunto de datos:

Pe.
La unidad operativa de Tránsito, ha levantado datos sobre la velocidad con la que circulan las
movilidades en un punto determinado de la ciudad de Santa Cruz; la información obtenida con
un radar en Km/hr, es la siguiente (N = 55):
PROCEDIMIENTO:

1° Ordenar los datos:

2° Calcular Rango (R):


El rango es igual a la diferencia entre el dato mayor “x n” y el dato menor “x1”:
R = 63 – 15= 48
El Rango es un intervalo comprendido entre 15 y 68:

Rango R = 48

15 63
3° Definir el Número de Clases (k):
Existen dos alternativas para determinar el número de clases:
1° Alternativa: √𝑛 = √55 = 7,416 Adoptar: 8
2° Alternativa: 1+ 3,3 Log(n) = 1+3,3 Log(55) = 6,743 Adoptar: 7
De los dos valores se asumen como el ancho de clase al menor valor:
k=7
4° Determinar el Ancho o Amplitud de cada clase (A):
𝑅 48
El ancho de clase es igual a: 𝐴 = = = 6,8571428
𝑘 7
Este ancho de clase no es muy cómodo de manejar, por lo tanto, se asume como
ancho de clase A´= 7. Pero el modificar el ancho de clase ocasiona que el Rango se
incremente; como son 7 clases de ancho igual a 7, por lo tanto, el rango modificado
será: R´= 49
Rango R = 48

15 63

Rango Modificado R´= 49

15 64
El incremento del rango es de: ∆𝑅 = 𝑅´ − 𝑅 = 49 − 48 = 1
Este incremento del rango debe ser compartido: la mitad se coloca al inicio del Rango
original y la otra mitad al final del rango original:

Rango Definitivo R´ = 49

14,5 15 63 63,5

Rango Definitivo R´= 49


14,5 63,5
Clase 1 Clase 2 Clase 3 Clase 4 Clase 5 Clase 6 Clase 7

5° Definición de las Clases o Categorías “Ci”:

Las siete clases son también intervalos, donde cada uno de ellos tiene un límite inferior y un
límite superior:

6° Marca de Clase (X):


Es un valor representativo de cada clase o categoría, que se determina como el promedio del
límite superior y el límite inferior de cada clase.

7° Tabla de Frecuencias (Clasificación)


FRECUENCIA FRECUENCIA
CLASE MARCA DE ABSOLUTA FRECUENCIA PORCENTUAL MAYOR QUE MENOR
CLASE "X" "f" RELATIVA "h" "p" "F" QUE F´
[14,5 21,5[
[21,5 28,5[
[ 28,5 35,5[
[35,5 42,5[
[41,5 49,5[
[49,5 56,5[
[56,5 63,5[
CONTROL
Frecuencia relativa: h = f/n

Frecuencia porcentual: p = h*100 (%)

8° Grafico de distribución de Frecuencias Absolutas

DISTRIBUCION DE FRECUENCIAS
30
25
Frecuencia

20
15
10
5
0
18 25 32 39 46 53 60
Marca de clase

9° Distribución de Frecuencias porcentuales

Frecuencias Porcentuales
0% 2%

7% 13%
9%

24%
45%

[14,5 21,5[ [21,5 28,5[ [28,5 35,5[ [35,5 42,5[


[42,5 49,5[ [49,5 56,5[ [56,5 63,5[
10° Gráficos de frecuencias acumuladas (Ojivas)

FRECUENCIAS ACUMULADAS
60
55 55
Frecuencias acumuladas
54 54
50 48 50
45
40

30 32
23
20

10 10
7 5
0 1 1
18 23 28 33 38 43 48 53 58 63
Marca de Clase

Mayor que Menor que

También podría gustarte