Main 1

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 240

ESTADÍSTICA Y PROBABILIDAD

Alfredo Yerman Cortés Verbel

I.E.S.A.S.
ESTADÍSTICA Y
PROBABILIDAD
Alfredo Yerman Cortés Verbel

I.E.S.A.S.
Creative Commons
Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4,0). puede
obtener una copia de de licencia en https://creativecommons.org/licenses/
by-nc-sa/4.0/deed.es. Usted es libre de: Compartir — copiar y redistribuir el
material en cualquier medio o formato. Adaptar — remezclar, transformar y construir
a partir del material.
"Las cifras no mienten, pero los mentirosos
también usan cifras."

Anónimo
Dedicatoria.
Un pequeño regalo para Luciana.
Sea L el evento : Verte algún día cara a
cara; entonces, P (L) = 1.
Índice general

1 DEFINICIONES Y CONCEPTOS BÁSICOS


1

1.1 Conceptos Básicos. .................................... 2


1.1.1 Origen y desarrollo de la estadística. ........................ 2

1.2 Usos de la estadística. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6


1.3 Definición de estadística. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.1 División de la Estadística. ................................. 9

1.4 Investigación Estadística. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10


1.4.1 Investigación Directa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.2 Investigación Indirecta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.5 Pasos en el planteamiento y ejecución de una investiga-


ción estadística. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5.1 Formulación del problema específico de la investigación. . . . . . . . 13
1.5.2 Desarrollo de un método para la obtención de los datos. . . . . . . . 13
1.5.3 Recolección de los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.4 Clasificación de los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.5 Análisis Estadístico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5.6 Presentación de los Resultados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5.7 Interpretación de Resultados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.6 Fuentes y Recolección de Datos. . . . . . . . . . . . . . . . . . . . . . 16


1.6.1 Fuentes de Datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6.2 Método de recolección de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

vii
ÍNDICE GENERAL viii

1.6.3 Muestreo y Censo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18


1.6.4 Diseño de muestreo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.7 Selección de una muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19


1.7.1 Tipos de muestreo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.8 Variables y Tipos de Variables. . . . . . . . . . . . . . . . . . . . . . . 22


1.8.1 Variable. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.8.2 Variables cualitativas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.8.3 Variables cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.8.4 Escalas de Medida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.9 Tipos de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27


1.9.1 Datos Cualitativos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.9.2 Datos Cuantitativos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.9.3 Datos cronológicos o de serie de tiempo. . . . . . . . . . . . . . . . . . . . . 28

1.10 Evaluación por competencias. . . . . . . . . . . . . . . . . . . . . . . . 28


1.10.1 Ejercicios de aplicación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2 DISTRIBUCIONES DE FRECUENCIAS.
32

2.1 Preliminares Matemáticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 33


2.1.1 Sumatoria. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.1.2 Propiedades de la Sumatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.2 Distribuciones de Frecuencia. . . . . . . . . . . . . . . . . . . . . . . . . 38


2.3 Tipos de frecuencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4 Disitribución de frecuencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.4.1 Distribución de frecuencias para datos cualitativos. . . . . . . . . . . . . 40
2.4.2 Distribución conjunta de dos variables cualitativas. . . . . . . . . . . . . 42
2.4.3 Distribución de frecuencias para datos cuantitativos. . . . . . . . . . . . 45
ÍNDICE GENERAL ix

2.5 Evaluación por competencias . . . . . . . . . . . . . . . . . . . . . . . . . 56


2.5.1 Ejercicios de aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.5.2 Evaluando saberes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3 MEDIDAS DE
TENDENCIA CENTRAL. 62

3.1 Medidas de Tendencia Central. . . . . . . . . . . . . . . . . . . . . . . . 64


3.2 Media aritmética. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2.1 Media para datos no agrupados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.2.2 Media para datos agrupados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.2.3 Propiedades de la media y desventajas de la media . . . . . . . . . . . 71
3.2.4 Media aritmética ponderada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

3.3 Mediana. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.3.1 Mediana para datos no agrupados. . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.3.2 Mediana para datos agrupados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.3.3 Ventajas y desventajas de la mediana. . . . . . . . . . . . . . . . . . . . . . . 83

3.4 Moda. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.4.1 Moda para datos no agrupados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.4.2 Moda para datos agrupados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.4.3 Ventajas y desventajas de la moda. . . . . . . . . . . . . . . . . . . . . . . . . . 87

3.5 Fractiles: Cuartiles, Deciles y Percentiles. . . . . . . . . . . . 88


3.5.1 Cuartiles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.5.2 Diagramas de cajas y bigotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.5.3 Deciles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
3.5.4 Percentiles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

3.6 Evaluación por competencias . . . . . . . . . . . . . . . . . . . . . . . . . 97


ÍNDICE GENERAL x

3.6.1 Ejercicios de aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97


3.6.2 Evaluando saberes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

4 MEDIDAS DE
DISPERSIÓN. 123

4.1 Medidas de Dispersión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125


4.1.1 Rango. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
4.1.2 El rango Intercuartil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
4.1.3 La varianza y la desviación típica. . . . . . . . . . . . . . . . . . . . . . . . . . 129
4.1.4 Varianza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
4.1.5 Desviación estándar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
4.1.6 Coeficiente de variación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

4.2 Evaluación por competencias . . . . . . . . . . . . . . . . . . . . . . . . 136


4.2.1 Ejercicios de aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
4.2.2 Evaluando saberes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

5 MEDIDAS DE
APUNTAMIENTO Y
ASIMETRÍA. 139

5.1 Asimetría y Curtosis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141


5.2 Asimetría. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
5.2.1 Coeficiente de asimetría de Fisher. . . . . . . . . . . . . . . . . . . . . . . . . 143
5.2.2 Coeficiente de asimetría de Pearson. . . . . . . . . . . . . . . . . . . . . . . . 145
5.2.3 Coeficiente de asimetría de Bowley. . . . . . . . . . . . . . . . . . . . . . . . 146

5.3 Curtosis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147


ÍNDICE GENERAL xi

5.4 Evaluación por competencias . . . . . . . . . . . . . . . . . . . . . . . . 150


5.4.1 Ejercicios de aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
5.4.2 Evaluando saberes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

6 CORRELACIÓN Y
REGRESIÓN LINEAL. 163

6.1 Correlación lineal y Regresión lineal simple. . . . . . . . 166


6.1.1 Correlación lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
6.1.2 Según un estudio estadístico las cigüeñas traen a los bebés. . . . 174

6.2 Regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178


6.2.1 Rectas de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

6.3 Evaluación por competencias . . . . . . . . . . . . . . . . . . . . . . . . 185


6.3.1 Ejercicios de aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
6.3.2 Evaluando saberes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

7 TÉCNICAS DE
CONTEO. 187

7.1 Técnicas de Conteo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189


7.1.1 Diagrama de Árbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
7.1.2 Factorial y Productoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
7.1.3 Regla Multiplicativa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
7.1.4 Permutación sin repeticiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
7.1.5 Permutación con repeticiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
7.1.6 Combinatoria sin repetición. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
7.1.7 Combinatoria con repetición. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
ÍNDICE GENERAL xii

7.2 Evaluación por competencias . . . . . . . . . . . . . . . . . . . . . . . . 204


7.2.1 Ejercicios de aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
7.2.2 Evaluando saberes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

8 PROBABILIDAD. 206

8.1 Probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208


8.1.1 Conceptos básicos de Probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . 209
8.1.2 Definición de Probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
8.1.3 Propiedades de la Probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . 217
8.1.4 Cálculo de probabilidad usando Diagrama de árbol. . . . . . . . . . . 220
8.1.5 Construcción de un diagrama de árbol. . . . . . . . . . . . . . . . . . . . . . 220

8.2 Evaluación por competencias . . . . . . . . . . . . . . . . . . . . . . . . 224


8.2.1 Ejercicios de aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
8.2.2 Evaluando saberes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224

9 SCRIPTS R. 225

9.1 Asimetría y curtosis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226


9.2 Evaluación por competencias . . . . . . . . . . . . . . . . . . . . . . . . 227
9.2.1 Ejercicios de aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
9.2.2 Evaluando saberes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
1
1.1. CONCEPTOS BÁSICOS. 2
1. DEFINICIONES Y
CONCEPTOS BÁSICOS

Conseguimos obtener así la fórmula


estadística para conocer
aproximadamente la posición de un
electrón en un instante
determinado. Pero, personalmente,
no creo que dios juegue a los dados.

Albert Einstein

La frase de Albert Einstein ” Dios no juega a los dados con el universo ”, es uno
de los mejores ejemplos de muchos conceptos científicos y frases de célebres in-
vestigadores han pasado a formar parte de la cultura popular. La cita, sacada de
contexto, se emplea incluso como prueba de que el físico creía en divinidades, en
el destino o que mostraba así su rechazo a la teoría de la evolución de Darwin.
Argumentos de autoridad aparte, la historia tras estas palabras es bien diferente, y
ha suscitado gran cantidad de ensayos al respecto. "La mecánica cuántica es real-
mente imponente. Pero una voz interior me dice que aún no es la buena. La teoría
dice mucho, pero no nos aproxima realmente al secreto del ’viejo’. Yo, en cualquier
caso, estoy convencido de que Él no tira dados". Esa es la cita original en la que
Einstein emplea la metáfora por primera vez, en una carta dirigida a su amigo Max
Born. El físico le cogió el gusto a la frase, que repetiría sin cesar, para fastidio de
sus colegas, en años venideros. La metáfora de Einstein es sólo una crítica a la
mecánica cuántica que el físico alemán rechazaba.

1.1. Conceptos Básicos.


1.1.1. Origen y desarrollo de la estadística.
La palabra Estadística procede del vocablo “Estado”, pues era función princi-
pal de los Gobiernos de los Estados establecer registros de población, nacimien-
tos,defunciones, impuestos, cosechas... La necesidad de poseer datos cifrados sobre

Alfredo Yerman Cortes Verbel.


1.1. CONCEPTOS BÁSICOS. 3

la población y sus condiciones materiales de existencia han debido hacerse sentir


desde que se establecieron sociedades humanas organizadas.
Es difícil conocer los orígenes de la Estadística. Desde los comienzos de la
civilización han existido formas sencillas de estadística, pues ya se utilizaban re-
presentaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes
de cuevas para contar el número de personas, animales o ciertas cosas.
Su origen empieza posiblemente en la isla de Cerdeña, donde existen monu-
mentos prehistóricos pertenecientes a los Nuragas, las primeros habitantes de la
isla; estos monumentos constan de bloques de basalto superpuestos sin mortero y
en cuyas paredes de encontraban grabados toscos signos que han sido interpreta-
dos con mucha verosimilidad como muescas que servían para llevar la cuenta del
ganado y la caza.
Hacia el año 3.000 a.C. los babilonios usaban ya pequeñas tablillas de arcilla
para recopilar datos en tablas sobre la producción agrícola y los géneros vendidos
o cambiados mediante trueque.
Los egipcios ya analizaban los datos de la población y la renta del país mucho
antes de construir la pirámides. En los antiguos monumentos egipcios se encontraron
interesantes documentos en que demuestran la sabia organización y administración
de este pueblo; ellos llevaban cuenta de los movimientos poblacionales y continua-
mente hacían censos. Tal era su dedicación por llevar simpre una relación de todo
que hasta tenían a la diosa Safnkit, diosa de los libros y las cuentas. Todo esto era
hecho bajo la dirección del Faraón y fue a partir del año 3050 a.C.
En la Biblia observamos en uno de los libros del Pentateuco, bajo el nombre de
Números, el censo que realizó Moisés después de la salida de Egipto. Textualmente
dice: Çenso de las tribus: El día primero del segundo año después de la salida
de Egipto, habló Yavpe a Moisés en el desierto de Sinaí en el tabernáculo de la
reunión, diciendo: "Haz un censo general de toda la asamblea de los hijos de Israel,
por familias y por linajes, describiendo por cabezas los nombres de todos los varones
aptos para el servicio de armas en Israel. En el llibro bíblico Crónicas describe el
bienestar material de las diversas tribus judías.
En China existían los censos chinos ordenados por el emperador Tao hacia el
año 2.200 a.C. Posteriormente, hacia el año 500 a.C., se realizaron censos en Roma
para conocer la población existente en aquel momento. Se erigió la figura del censor,
cuya misión consistía en controlar el número de habitantes y su distribución por
los distintos territorios.
En la Edad Media, en el año 762, Carlomagno ordenó la creación de un registro
de todas sus propiedades, así como de los bienes de la iglesia.
Después de la conquista normanda de Inglaterra en 1.066, el rey Guillermo I, el
Conquistador, elaboró un catastro que puede considerarse el primero de Europa.
Los Reyes Católicos ordenaron a Alonso de Quintanilla en 1.482 el recuento de
fuegos (hogares) de las provincias de Castilla.

Alfredo Yerman Cortes Verbel.


1.1. CONCEPTOS BÁSICOS. 4

En 1.662 un mercader de lencería londinense, John Graunt, publicó un tratado


con las observaciones políticas y naturales, donde Graunt pone de manifiesto las
cifras brutas de nacimientos y defunciones ocurridas en Londres durante el periodo
1.604-1.661, así como las influencias que ejercían las causas naturales, sociales y
políticas de dichos acontecimientos. Puede considerarse el primer trabajo estadístico
serio sobre la población.
Curiosamente, Graunt no conocía los trabajos de B. Pascal » (1.623-1.662) ni de C.
Huygens (1.629-1.695) sobre estos mismos temas. Un poco más tarde, el astrónomo
Edmund Halley (1.656- 1.742) presenta la primera tabla de mortalidad que se puede
considerar como base de los estudios contemporáneos. En dicho trabajo se intenta
establecer el precio de las anualidades a satisfacer a las compañías de seguros. Es
decir, en Londres y en París se estaban construyendo, casi de manera simultánea,
las dos disciplinas que actualmente llamamos estadística y probabilidad.
En el siglo XIX, la estadística entra en una nueva fase de su desarrollo con
la generalización del método para estudiar fenó menos de las ciencias naturales y
sociales. Galton » (1.822-1.911) y Pearson (1.857-1936) se pueden considerar como
los padres de la estadística moderna, pues a ellos se debe el paso de la estadí stica
deductiva a la estadística inductiva.
Los fundamentos de la estadística actual y muchos de los métodos de inferencia
son debidos a R. A. Fisher. Se intereso primeramente por la eugenesia, lo que le
conduce, siguiendo los pasos de Galton a la investigación estadística, sus trabajos
culminan con la publicación de la obra Métodos estadísticos para investigaciones.
En el aparece la metodología estadística tal y como hoy la conocemos.
A partir de mediados del siglo XX comienza lo que podemos denominar la esta-
dística moderna, uno de los factores determinantes es la aparición y popularización
de los computadores. El centro de gravedad de la metodología estadística se em-
pieza a desplazar técnicas de computación intensiva aplicadas a grandes masas de
datos, y se empieza a considerar el método estadístico como un proceso iterativo
de búsqueda del modelo ideal
Las aplicaciones en este periodo de la Estadística a la Economía conducen a
una disciplina con contenido propio: la Econometría. La investigación estadística en
problemas militares durante la segunda guerra mundial y los nuevos métodos de
programación matemática, dan lugar a la Investigación Operativa.

Estado actual.
Durante el siglo XXI, la creación de instrumentos precisos para asuntos de salud
pública (epidemiología, bioestadística, etc.) y propósitos económicos y sociales (tasa
de desempleo, econometría, etc.) necesitó de avances sustanciales en las prácticas
estadísticas.

Alfredo Yerman Cortes Verbel.


1.1. CONCEPTOS BÁSICOS. 5

Figura 1.1: Tomado de De Leon, M. (2020, octubre 3). Las matemá-


ticas de Mafalda (homenaje a Quino). Matemáticas y sus fronteras.
https://www.madrimasd.org/blogs/matematicas/2020/10/03/148424

Hoy el uso de la estadística se ha extendido más allá de sus orígenes como un


servicio al Estado o al gobierno. Personas y organizaciones usan la estadística para
entender datos y tomar decisiones en ciencias naturales y sociales, medicina, nego-
cios y otras áreas. La estadística es entendida generalmente no como un sub-área
de las matemáticas sino como una ciencia diferente «aliada». Muchas universidades
tienen departamentos académicos de matemáticas y estadística separadamente. La
estadística se enseña en departamentos tan diversos como psicología, educación y
salud pública.
Al aplicar la estadística a un problema científico, industrial o social, se comienza
con un proceso o población a ser estudiado. Esta puede ser la población de un país,
de granos cristalizados en una roca o de bienes manufacturados por una fábrica en
particular durante un periodo dado. También podría ser un proceso observado en
varios ascos instantes y los datos recogidos de esta manera constituyen una serie
de tiempo.
Por razones prácticas, en lugar de compilar datos de una población entera, usual-
mente se estudia un subconjunto seleccionado de la población, llamado muestra.
Datos acerca de la muestra son recogidos de manera observacional o experimental.
Los datos son entonces analizados estadísticamente lo cual sigue dos propósitos:
descripción e inferencia.
El concepto de correlación es particularmente valioso. Análisis estadísticos de
un conjunto de datos puede revelar que dos variables (esto es, dos propiedades de
la población bajo consideración) tienden a variar conjuntamente, como si hubiera
una conexión entre ellas. Por ejemplo, un estudio del ingreso anual y la edad de
muerte podría resultar en que personas pobres tienden a tener vidas más cortas que
personas de mayor ingreso. Las dos variables se dicen que están correlacionadas.
Sin embargo, no se puede inferir inmediatamente la existencia de una relación de
causalidad entre las dos variables. hoy por hoy la Inteligencia Artificial, la Big Data,

Alfredo Yerman Cortes Verbel.


1.2. USOS DE LA ESTADÍSTICA. 6

Machine learning, son campos de aplicación crecientes de la estadística; estos los


tocaremos con algo de detalle más adelante.

1.2. Usos de la estadística.


Los métodos estadísticos tradicionalmente
se utilizan para propósitos descriptivos, para or-
ganizar y resumir datos numéricos. La estadísti-
ca descriptiva, por ejemplo trata de la tabulación
de datos, supresentación en forma gráfica o ilus-
trativa y el cálculo de medidas descriptivas. Aho-
ra bien, las técnicas estadísticas se aplican de
manera amplia en mercadotecnia, contabilidad,
control de calidad y en otras actividades; estu-
dios de consumidores; análisis de resultados en
deportes; administradores de instituciones; en la
educación; organismos políticos; médicos; y por
otras personas que intervienen en la toma de
decisiones.
El acelerado desarrollo de la estadística du-
rante los últimos años a llegado hasta el punto
de incursionar en la totalidad de las ciencias y
de otros campos no científicos, algunos ejemplos
de estos son: establecer cuál de varios procedi-
mientos o tratamientos es el mejor probarse una
droga es más efectiva que otraen el tratamien-
to de una enfermedad ; elaborar modelos acerca
del comportamiento del inventario de una mate-
ria prima, para determinar el tamaño óptimo del
lote que se requiere pedir, y lapsos de reaprovi-
sionamiento; realizar estudios de colas en ban-
cos o en un supermercado con el propósito de
establecer el número de cajas que se requieren
para atender a los clientes, esclarecer la pater-
Figura 1.2: Tomado de MR. LO-
nidad de un escrito o los caracteres más rele-
VENSTEIN. (2019). Mr. Lovens-
vantes de un idioma.
tein | Kowabunga. https://www.
Los anteriores son algunos ejemplos que
mrlovenstein.com/comic/608
pueden ser aplicados en campos tan diversos
como la Ingeniería, la Medicina, la Administra-
ción. Pero todos tienen en común un hecho : se acude al estudio de algunos casos,

Alfredo Yerman Cortes Verbel.


1.2. USOS DE LA ESTADÍSTICA. 7

una muestra, con el fin de realizar generalizaciones para ayudar en la toma de


decisiones, y justamente, el Administrador de Empresas es el profesional que fre-
cuentemente se enfrenta a la toma de decisiones, pues tiene diferentes alternativas
entre las cuales debe elegir con el propósito de maximizar la administración empre-
sarial. En el estudio de administración de salarios, la Investigación de Operaciones,
en el Control de calidad, en la investigación de mercados, en comercialización son
campos en los cuales el administrador de empresas se suele mover frecuentemente
y en los cuales sus conocimientos son necesarios para inferir y predecir lo que va
a ocurrir; por lo tanto la estadística se convierte en la herramienta fundamental a
la hora de tomar decisiones de importancia.
Además de las anteriores consideraciones, la Estadística como ciencia de origen
Matemático le ayudará en la obtención de un proceso de racionamiento lógico en la
organización de conjuntos de datos numéricos que le permitirán con mayor eficiencia
enfrentar decisiones en su vida estudiantil o profesional.
Dentro de este contexto, es entonces, que la Estadística se considera una po-
derosa herramienta que le permitirá utilizar procedimientos y técnicas necesarias
como soporte de la toma de decisiones a nivel empresarial.

Inteligencia artificial (IA) - Datos estadísticos.


Inteligencia artificial (IA) es un termino acuñado por el profesor de Stanford John
McCarthy en 1956, para denominar a la disciplina informática que trata de crear
sistemas capaces de aprender y razonar como un ser humano. Tradicionalmente
ha sido objeto de muchas películas de ciencia ficción, pero su presencia ya no se
limita a las pantallas de cine, sino que actualmente forma parte del día a día de las
personas. Gracias a ella, las máquinas pueden realizar diversas tareas "humanas",
desde conducir automóviles hasta proporcionar todo tipo de asistencia virtual. De
hecho, la IA y los robots ya se utilizan ampliamente a nivel industrial y se prevé
que su uso se extienda a casi todas todas las áreas de la vida cotidiana durante los
próximos años. La relación entre las estadísticas y la inteligencia artificial es fuerte
y profunda.
Muchas de las ideas fundamentales que han impulsado el campo de la estadísti-
ca en los últimos 70 años se han desarrollado como resultado de las contribuciones
a la inteligencia artificial.
Gran parte de la investigación que se ha llevado a cabo para construir sistemas
de inteligencia artificial se ha centrado en el desarrollo de estrategias para tomar
decisiones de algún tipo.nEsto requiere estimar cantidades, evaluar alternativas,
elegir entre múltiples posibilidades, etc.
Cada una de estas tareas es un problema estadístico en su esencia, y es natu-
ral que las herramientas que los estadísticos han desarrollado para abordar estos
problemas sean útiles para construir sistemas de IA.

Alfredo Yerman Cortes Verbel.


1.2. USOS DE LA ESTADÍSTICA. 8

La estadística y la IA tienen una larga historia de integración. A medida que la


IA crece en importancia, también lo hace la necesidad de profesionales que puedan
desarrollar modelos de datos y realizar análisis estadísticos de los mismos.
La ciencia de los datos, el aprendizaje automático y la IA se basan en la esta-
dística para proporcionar información valiosa que puede ayudar a las empresas y
a los gobiernos a operar de manera más eficiente y eficaz. El uso más común de la
inteligencia artificial es la estadística. Hay dos tipos de estadísticas: descriptiva e
inferencial. La estadística descriptiva se utiliza para describir las principales carac-
terísticas de una colección de información, como la media o la desviación estándar y
la estadística inferencial utiliza el análisis de datos para inferir propiedades sobre
una población que se está estudiando.
Cuando se trabaja con grandes cantidades de datos, resulta tedioso y lento
realizar el análisis estadístico a mano, la inteligencia artificial puede utilizarse
para realizarlo en muy poco tiempo y producir resultados muy precisos y útiles.
Hay dos formas de utilizar la IA para la estadística: el aprendizaje automático
y el análisis predictivo. El aprendizaje automático consiste en crear un algoritmo
que aprende de su propia experiencia, lo que le permite hacer predicciones con una
precisión mayor que la que podría alcanzar un ser humano y el análisis predictivo
consiste en tomar el resultado de un algoritmo de aprendizaje automático y utili-
zarlo para hacer predicciones sobre eventos futuros utilizando datos históricos. El
objetivo principal de la IA es hacer que las máquinas entiendan y piensen de forma
lógica como lo hacen los humanos; para hacerlas inteligentes y más parecidas a los
humanos, se necesitan algoritmos de IA que puedan aprender de la experiencia y
adaptarse a nuevas situaciones y circunstancias. Por ello, la IA necesita de la esta-
dística, ya que nos ayuda a juzgar cualquier decisión que deba tomar la máquina,
basándose en los datos disponibles.
La estadística es una rama de las matemáticas que se ocupa de la recogida,
clasificación, análisis, interpretación y presentación de datos, a menudo se describe
como la ciencia que se ocupa de recoger y analizar datos para ayudar a tomar
decisiones cuando hay incertidumbres; las incertidumbres pueden surgir de la falta
de información o de las ambigüedades de la información disponible. La estadística
proporciona métodos para tratar estas incertidumbres.
La estadística no sólo es útil para apoyar los proyectos de IA, sino que es
fundamental para su éxito. Los profesionales deben entender cómo construir modelos,
aplicarlos e interpretar los resultados que generan. Muchas empresas se benefician
del uso de técnicas de análisis de datos como la inteligencia artificial.
Los siguientes son algunos ejemplos:

Las empresas de comercio electrónico como Amazon utilizan sofisticados algo-


ritmos de recomendación para sugerir productos a los compradores en función
de su historial de búsqueda y sus patrones de compra.

Alfredo Yerman Cortes Verbel.


1.3. DEFINICIÓN DE ESTADÍSTICA. 9

Los anunciantes utilizan algoritmos avanzados para determinar qué consumi-


dores tienen más probabilidades de hacer clic en sus anuncios y gastar dinero
en productos o servicios.

Utilizan esta información para desarrollar campañas de marketing más eficaces y


dirigir los anuncios a grupos demográficos específicos.

Los especialistas en marketing realizan análisis de regresión en bases de


datos que contienen miles de características demográficas para identificar los
rasgos comunes entre las personas que tienen más probabilidades de comprar
un producto o servicio.

Los funcionarios de la sanidad pública utilizan algoritmos de aprendizaje au-


tomático para detectar signos de brotes de enfermedades en la población más
rápido de lo que los humanos pueden hacerlo manualmente.

1.3. Definición de estadística.

Definición 1.1: Estadística


La Estadística es la ciencia cuyo objetivo es reunir una información cuan-
titativa concerniente a individuos, grupos, series de hechos, etc. y deducir
de ello gracias al análisis de estos datos unos significados precisos o unas
previsiones para el futuro. La estadística, en general, es la ciencia que trata
de la recopilación, organización presentación, análisis e interpretación de
datos numéricos con el fin de realizar una toma de decisión más efectiva.

Los estudiantes confunden comúnmente los demás términos asociados con las
Estadísticas, una confusión que es conveniente aclarar debido a que esta palabra
tiene tres significados: la palabra estadística, en primer término se usa para referirse
a la información estadística; también se utiliza para referirse al conjunto de técnicas
y métodos que se utilizan para analizar la información estadística; y el término
estadístico, en singular y en masculino, se refiere a una medida derivada de una
muestra.

1.3.1. División de la Estadística.


La Estadística para su mejor estudio se ha dividido en dos grandes ramas: la
Estadística Descriptiva y la Inferencial.

Alfredo Yerman Cortes Verbel.


1.4. INVESTIGACIÓN ESTADÍSTICA. 10

Estadística Descriptiva:

Definición 1.2: Estadística Descriptiva

Consiste sobre todo en la presentación de datos en forma de tablas y grá-


ficas. Esta comprende cualquier actividad relacionada con los datos y está
diseñada para resumir o describir los mismos sin factores pertinentes adi-
cionales; esto es, sin intentar inferir nada que vaya más allá de los datos,
como tales.

Estadística Inferencial:

Definición 1.3: Estadística Inferencial


Se deriva de muestras, de observaciones hechas sólo acerca de una parte de
un conjunto numeroso de elementos y esto implica que su análisis requiere
de generalizaciones que van más allá de los datos. Como consecuencia, la
característica más importante del reciente crecimiento de la estadística ha
sido un cambio en el énfasis de los métodos que describen a métodos que
sirven para hacer generalizaciones. La Estadística Inferencial investiga o
analiza una población partiendo de una muestra

1.4. Investigación Estadística.


1.4.1. Investigación Directa.
Es aquella en que el investigador observa directamente los casos o individuos
en los cuales se produce el fenómeno, entrando en contacto con ellos; sus resulta-
dos se consideran datos estadísticos originales, por esto se llama también a ésta
Investigación Primaria. Se divide a su vez en exhaustiva o completa, y parcial o in-
completa. Son exhaustivas, aquellas que estudian todos los elementos que integran
el universo, todas sus características o las necesarias para describir totalmente la
población estudiada. Son investigaciones parciales o incompletas, cuando tan sólo
se estudia un número limitado de los casos individuales que forman el universo
o cuando se estudian algunas manifestaciones del fenómeno que no lo describen
totalmente; se utiliza este tipo de investigación cuando es imposible el estudio del
fenómeno en forma completa. Este tipo de investigación puede ser representativa y
no representativa, estamos en el primer caso, cuando las manifestaciones del fenó-
meno estudiado no son suficientes y necesarias para describir el fenómeno;en caso

Alfredo Yerman Cortes Verbel.


1.4. INVESTIGACIÓN ESTADÍSTICA. 11

Figura 1.3: Mentefacto sobre conceptos de la estadística


Alfredo Yerman Cortes Verbel.
1.4. INVESTIGACIÓN ESTADÍSTICA. 12

contrario, caemos dentro de las no representativas. En la Investigación Represen-


tativa, a la parte o modalidades estudiadas del fenómeno, se denominan muestras;
es decir, no son sino la aplicación de la Estadística Inductiva a la Investigación
Estadística.

1.4.2. Investigación Indirecta.


Son aquellas en que el investigador se sirve de informaciones indirectas, de
resultados o cálculos de investigaciones anteriores o en base de los conocimien-
tos que tenga el investigador del fenómeno por experiencias anteriores.Se dividen
estas investigaciones en conjeturas (estimaciones) y secundarias. La investigación
conjetural es aquella que en base a conocimientos parciales,opiniones y cálculos,
proporciona resultados primarios de valor práctico; este tipo de investigación pre-
senta el inconveniente de que, dado el carácter subjetivo de estos conocimientos y
opiniones, se pueden obtener resultados diferentes utilizando varios investigadores
para el estudio de un mismo fenómeno. La investigación secundaria es aquella que
se efectúa por reagrupaciones oreelaboraciones de resultados de otras investiga-
ciones; tiende a su favor este tipode investigación, que el costo y trabajo queda
notablemente reducido. La investigación indirecta conjetural puede ser: por aproxi-
mación, por analogía y por proporción. Por aproximación, es aquella basada en el
convencimiento que sobre el fenómenotiene el investigador, ya sea por experiencia
o por resultados anteriormenteobtenidos. Los datos que se obtienen en esta inves-
tigación serán siempre aproximados al aplicarlos al fenómeno que se estudia, pero
sirven para tener una idea general del mismo. Por analogía, son aquellas basadas
en el estudio de uno o varios fenómenos que guardan cierta semejanza con el fenó-
meno a investigar, determinándose ciertas modalidades y características de dicho
fenómeno por procedimientos inductivos. La investigación conjetural por proporción,
puede hacerse de parte a todo o de unhecho a otro; en el primer caso, se observa
una parte del fenómeno y sin mayor rigor se aplica a todo el fenómeno; en el caso
de un hecho a otro, se relacionandos o más hechos y a través del conocimiento de
uno de ellos se determinan lasmodalidades de los otros. Es conveniente advertir
el peligro que representa para las investigaciones científicas el empleo de estas
conjeturales, por parte de aquellos que no dominan el uso de los métodos estadísti-
cos; ya que llegarían a resultados y conclusiones que tendrían muy poco grado de
exactitud.

Alfredo Yerman Cortes Verbel.


1.5. PASOS EN EL PLANTEAMIENTO Y EJECUCIÓN DE UNA INVESTIGACIÓN
ESTADÍSTICA. 13
1.5. Pasos en el planteamiento y ejecución de una investi-
gación estadística.
Es necesario advertir que los pasos que se van a enumerar se refieren a la
investigación directa por ser ésta la investigación estadística por excelencia; además,
el orden en que se mencionarán estos datos no es necesariamente inmodificable, ya
que en la práctica se sobreponen o se invierten, todo ello en relación al fenómeno
que se estudia. El planteamiento y ejecución de la investigación estadística abarca
los siguientespuntos:

1. Formulación del problema específico de la investigación.

2. Desarrollo de un método para la obtención de los datos.

3. Recolección de los datos.

4. Clasificación de los datos.

5. Análisis estadístico.

6. Presentación de los resultados.

7. Interpretación de los resultados.

1.5.1. Formulación del problema específico de la investigación.


Encierra este paso la definición del fenómeno y la finalidad de la investigación.
Es natural que sea la definición del fenómeno lo primero a realizar, ya que se
debesaber qué es lo que se trata de conocer antes de comenzar a investigarlo. En
lo que se refiere a la finalidad de la investigación, debe hacerse una clara exposición
de la misma, persiguiendo en cuanto sea posible fines utilitarios y científicos.

1.5.2. Desarrollo de un método para la obtención de los datos.


Tiene esta fase un carácter subjetivo, ya que en él se necesita del esfuerzo crea-
tivo y constructivo del investigador; ya sea para el estudio de los antecedentes o
experiencias similares hechas sobre el tema de la investigación, que para la deter-
minación de las posibilidades y recursos con que se cuenta opara la recolección
de los nuevos datos. El estudio de los antecedentes y experiencias similares es
de una gran ayuda al investigador, ya que de esta manera se pueden mejorar los
procedimientos autilizar y se prevé las dificultades que puedan presentarse en la in-
vestigación;además se pueden utilizar los datos de esas experiencias para completar
ocomprobar los obtenidos. En lo que se refiere a la determinación de las posibili-
dades y recursos con que se cuenta para llevar a cabo la investigación,representa

Alfredo Yerman Cortes Verbel.


1.5. PASOS EN EL PLANTEAMIENTO Y EJECUCIÓN DE UNA INVESTIGACIÓN
ESTADÍSTICA. 14
algo esencial dentro del planteamiento de la investigación; ya que son estas posi-
bilidades o recursos que se traducen en tiempo, dinero, persona,materias, etc. las
que limitan el alcance y contenido de la investigación. Sería lamentable que por no
haber previsto estas limitaciones se deba en un momento determinado terminar la
investigación sin haber logrado su finalidad.

1.5.3. Recolección de los datos.


Es el punto más importante dentro de la investigación estadística. En dicho
pasonos proveeremos de los datos necesarios para llegar a conclusiones sobre el-
fenómeno investigado; de allí que deba tenerse la Recolección de Datos como el fin
supremo del planeamiento y ejecución de una investigación estadística. Previo a la
recolección propiamente de los datos, se debe hacer la determinacióndel Universo
Estadístico, de la unidad de la investigación y del momentoestadístico, así como la
elaboración del cuestionario. El Universo Estadístico consiste en fijar cuáles son
los casos individuales que vana ser observados, así como el alcance en el espacio
y en el tiempo de lainvestigación. La unidad de la investigación la constituyen los
casos individuales que se estudian en la investigación a través de los cuales se
llega a laobservación del fenómeno. El momento estadístico es el instante o período
a quese van a referir los datos individuales; entendiéndose por datos individuales
lasdiferentes modalidades que toman los caracteres que constituyen la unidad de
investigación. La elaboración del cuestionario, consiste en preparar una lista de las
preguntascuyas respuestas proporcionarán los datos.Hechos todos estos puntos se
está en condición de realizar el trabajo en elterreno, cuando se realiza la investiga-
ción por primera vez. En caso que se deban utilizar datos ya recolectados, se toman
de los registros y se investiga la forma enque fueron recolectados, para comprobar
la veracidad de ellos.

1.5.4. Clasificación de los datos.


Después que los datos han sido recolectados, éstos se presentan en su forma
primaria sin ninguna organización, lo que hace imposible el análisis de ellos; encon-
secuencia, se hace necesario clasificar estos datos; clasificación que se lleva aefecto
a través de la revisión, el agrupamiento y tabulación de los datos.Consiste la revi-
sión en la inspección de los formularios y de los registros donde sehan reunido los
datos para corregir los errores, las respuestas ilógicas y encontrarlas omisiones; el
resultado de esta revisión debe ser: aprobación, rechazo odevolver el cuestionario al
empadronador para su terminación.Agrupamiento significa volcar en una sola hoja
todos los datos contenidos en loscuestionarios separados. Tabulación, se define co-
mo el listado de los datos enclases. Todo este proceso puede realizarse de acuerdo
a la magnitud de lainvestigación en forma manual, semi mecánica o mecánica

Alfredo Yerman Cortes Verbel.


1.5. PASOS EN EL PLANTEAMIENTO Y EJECUCIÓN DE UNA INVESTIGACIÓN
ESTADÍSTICA. 15
1.5.5. Análisis Estadístico.
Después de hacer una clasificación lógica de los datos, éstos se encuentran
en condiciones de ser analizados desde el punto de vista estadístico. Es en este
pasodonde el profesional de la Estadística (estadístico o estadígrafo), tiene su mayor
función, ya que se van a calcular todas las medidas de los métodos descriptivos
einductivos, simples y complejos. En resumen, en este paso al conjunto de los datos
obtenidos a través de la recolección se condensan, se estiman sus medidas en
función del universo total,se determinan sus relaciones y se prueban hipótesis.

1.5.6. Presentación de los Resultados.


Tiene este punto un carácter que podemos llamar publicitario, ya que en él
sepresenta al público no conocedor científicamente del fenómeno, los resultadosob-
tenidos. Esta presentación, puede hacerse en la siguiente forma: textual através de
letras y símbolos algebraicos, tabular o semi tabular a través de loscuadros es-
tadísticos, gráfica a través de esquemas y diagramas, y finalmente, por medio de
modificaciones de la forma gráfica, como son las formas pictóricas y los mapogra-
mas (mapas estadísticos). En la presentación de los resultados debe considerarse
en lo posible hacia quienes va dirigido, tratando siempre de elegir la forma más
comprensible y efectiva.

1.5.7. Interpretación de Resultados.


Consiste en traducir las medidas estadísticas obtenidas en lenguaje relativo al
fenómeno o hecho estudiado; de allí que se necesite al Estadígrafo o al científico
de la materia a que se refiera la investigación; es este último el que interpretará lo
hallado o emitirá principios, leyes, etc., sobre el problema investigado.

Figura 1.4: Tomado de Watterson, B. (1985, diciembre 2). Calvin


and Hobbes by bill Watterson for December 02, 1985. GoComics.
https://www.gocomics.com/calvinandhobbes/1985/12/02

Alfredo Yerman Cortes Verbel.


1.6. FUENTES Y RECOLECCIÓN DE DATOS. 16

1.6. Fuentes y Recolección de Datos.


1.6.1. Fuentes de Datos.
Los datos necesarios para la investigación estadística pueden obtenerse a tra-
vésde diferentes fuentes: primarias y secundarias, oficiales y privadas. Son fuentes
primarias, la persona o institución que ha recolectado los datos, ysecundarias si
la persona o agencia que ha publicado los datos no es la que ha efectuado la
investigación. La fuente primaria más notable y de mayor utilización en todos los
países, es la encargada de publicar los datos relativos a los Censos Nacionales;
en la práctica, es aconsejable el utilizar fuente de datos primarios; sin embargo,
de acuerdo a lanaturaleza del fenómeno, si no es posible la utilización de fuen-
tes primarias, seaconseja utilizar las secundarias, siempre y cuando la oficina que
las publiquetenga suficiente solvencia técnica. Cuando los datos son provistos por
cualquiera dependencia gubernamental, se llaman fuentes oficiales; los provistos
por agencia, personas, organizaciones. etc., no gubernamentales, son fuentes priva-
das. Sobre estos dos tipos de fuentes no sepuede dar prioridad de una sobre otra; si
acaso, se recomiendan como utilizables las estadísticas demográficas que practican
los institutos oficiales.

1.6.2. Método de recolección de datos.


Algunas formas en que se puede hacer recolección de datos es a través de:

a) Entrevista personal.

b) Cuestionario por correo.

c) Entrevista por teléfono.

d) Observación directa.

La entrevista personal consiste en enviar un entrevistador directamente al in-


vestigado, formulándole aquél las preguntas necesarias en la investigación. Este
procedimiento permite obtener una información más consistente y con un mayor
número de respuestas, ya que las preguntas pueden hacerse con mayor detalle,
además se puede comprobar la veracidad de las respuestas por medio de la apre-
ciación personal por parte del investigador y corregir ciertos errores quesucedan
en la primera visita a través de una segunda visita al entrevistado. Otra ventaja
muy importante de la entrevista personal es la posibilidad que tiene el investigador
de adaptar el lenguaje de las preguntas a la capacidad o nivel intelectual de las

Alfredo Yerman Cortes Verbel.


1.6. FUENTES Y RECOLECCIÓN DE DATOS. 17

personas interrogadas. Como limitaciones de este método, podemos mencionar su


alto costo, lo que muchas veces hace impracticable la investigación, ya que en inves-
tigaciones extensas se necesita un gran número de agentes, a lo que es necesario
dar una preparación especial y vigilar en el momento de la recolección para que
no vayan a tergiversar las respuestas; naturalmente, todas estas operaciones enca-
recen altamente la investigación. El método del cuestionario por correo consiste en
enviar por esa vía a las personas que se va a investigar la lista de preguntas, con
las instrucciones necesarias. En algunos casos la distribución se hace a través de
agentes, cuya única función es dejarlo a las personas investigadas.
Las ventajas que presenta este mé-
todo consisten en que el costo se re-
duce enormemente en relación al méto-
do anterior. Sin embargo esta forma de
recolección de presenta graves incon-
venientes; uno de ellos es que sólo un
porcentaje bastante bajo de los cues-
tionarios enviados son devueltos; en la
práctica, el porcentaje por promedio que
se devuelve es de un 10 %. Otro inconve-
niente consiste en no poder garantizar
que efectivamente los formularios hayan
sido recibidos por las personas que se
encuentran encapacidad de dar la in-
formación solicitada, lo que trae consi-
go una serie de errores en los resulta-
dos, errores que son imposibles rectifi-
Figura 1.5: Meme; intuición, opinión y es- car por no tener prueba para verificar la
tadística exactitud o sinceridad de las respues-
tas. Cuando se utiliza este sistema es
aconsejable adjuntar una hoja de instrucción, en la cual todas las preguntas se en-
cuentran ampliamente explicadas, para evitar las interpretaciones erróneas de las
mismas por parte del entrevistado. La aparente ventaja de mayor tiempo y como-
didad para responder las preguntas,puede resultar una desventaja cuando no son
devueltos oportunamente los cuestionarios repartidos, lo que alarga el tiempo y la
duración de la investigación. La entrevista por teléfono consiste en telefonear al
entrevistado y formularle las preguntas necesarias. Este sistema tiene la ventaja
de que se logra realizar la investigación en un tiempo relativamente corto, además,
presenta un costo bajo porque la preparación e inspección de los entrevistadores
es fácil.
Cuando se trata de una investigación muestral, la repartición geográfica de las
muestras es sencilla; sin embargo, esta muestra no es casi siempre representativa.

Alfredo Yerman Cortes Verbel.


1.6. FUENTES Y RECOLECCIÓN DE DATOS. 18

Las limitaciones que presenta se refieren, a que el número de preguntas que se


formula son reducidas, y no existe forma de descubrir las respuestas falsas. En la
observación directa se recogen los datos y elementos de juicio a través de agentes
especializados directamente sobre el terreno, sin formular ningún tipo depregunta.
Este método puede dar resultados aceptables y objetivos siempre quese logre eli-
minar la faceta humana y subjetiva del entrevistador; para ello esnecesario contar
con personal especializado y conocedor del fenómeno, capaz deinterpretar los as-
pectos que interesan del fenómeno, capaz de interpretar losaspectos que interesan
del fenómeno y por último puede traducirse en unadesventaja, por ser muy difícil
encontrar el suficiente personal competente y recopilar todos los datos que requiere
la investigación. Cabe observar, que en muchas investigaciones se combinan algu-
nos de los métodos de recolección ya mencionados; esto las hace más completas y
permiteobtener un mayor número de datos con un alto porcentaje de veracidad

1.6.3. Muestreo y Censo.


Una muestra usualmente comprende el estudio de una parte de los elementos
de una población, mientras que el censo consiste en estudiar todos los elementos
de ésta.
En teoría puede ser más conveniente estudiar la población completa, en la prác-
tica ocurre todo lo contrario: es mejor realizar un muestreo que un censo,
Las principales razones para realizar un muestreo son:

La población teóricamente puede ser infinita, en cuyo caso sería imposible


realizar un censo.
Una muestra puede ser más oportuna que un censo. Cuando se requiere rápi-
damente información sobre una población, su estudio completo puede requerir
tanto tiempo que su utilidad sería poca. También puede darse el caso de que
ciertas poblaciones tienden a cambiar rápidamente con el tiempo, por ejemplo
la mayoría de los estudios de opinión requieren hacerse durante un tiempo
muy corto.
En algunos casos el estudio de los elementos requieren la utilización de en-
sayos destructivos.
El costo de efectuar un censo suele ser muy alto.
La exactitud puede verse afectada cuando se realiza un censo de una población
grande. Cuando es necesario procesar gran cantidad de datos es posible que
se introduzcan errores no deseables.
Se puede realizar una mejor planeación y controlen el diseño de la investi-
gación.

Alfredo Yerman Cortes Verbel.


1.7. SELECCIÓN DE UNA MUESTRA. 19

Se puede realizar un estudio más detallado sobre la población.

Sin embargo, pueden existir algunas circunstancias que hacen más ventajoso la
utilización de un censo, por ejemplo:

Cuando la población de interés sea tan pequeña que un costo y tiempo adi-
cional en el estudio de la población esté plenamente justificado.

Si el tamaño de la muestra requerido es relativamente grande comparado con


el tamaño de la población.

Si se requiere una exactitud completa en la información, el censo sería la


única vía de obtenerla.

1.6.4. Diseño de muestreo.


El diseño de un estudio por muestro comprende:

1. Establecer detalladamente cuál es la población de interés, de tal manera que


se pueda establecer si un elemento pertenece o no a ella, esto dependerá de
los objetivos que persiga el estudio.

2. Establecer los parámetros de interés, es decir las medidas de la población


que nos interesa estimar o contrastar.

3. Seleccionar el marco de muestreo. El marco de muestreo es una lista o algún


procedimiento que permite identificar todos los elementos de la población.

4. Determinar el tipo de muestreo que se utilizará, es decir qué procedimiento


aleatorio se utilizará para seleccionar los elementos de la muestra.

5. Establecer el tamaño de muestra que será necesaria.

6. Análisis de los datos.

1.7. Selección de una muestra.


Al seleccionar una muestra, debemos tener presente que la muestra no nos
proporcionará información completa sobre una población. La diferencia entre un
valor real del parámetro en la población y el valor estimado a partir de la muestra
para ese parámetro se llama error de muestreo. Este error siempre estará presente
en el muestreo pero puede ser controlado mediante un buen diseño del muestreo:
selección de un adecuado tamaño de muestra y utilización del tipo de muestreo que
sea más adecuado para la población bajo estudio.

Alfredo Yerman Cortes Verbel.


1.7. SELECCIÓN DE UNA MUESTRA. 20

Sin embargo, en cualquier estudio tendremos otro tipo de error que se puede
introducir y es llamado error de no muestreo, que principalmente se debe a:

Imposibilidad de localizar a los informantes.

Negativa de los informantes a dar las repuestas.

Malas respuestas intencionales de los informantes.

Dificultad de los informantes en recordar las respuestas.

Mal entendimiento de las preguntas debido a una deficiente redacción de


ellas,

Manipulación por parte del entrevistador.

Errores de anotación por parte del entrevistador.

Errores en la codificación o procesamiento de la información.

Estos errores pueden ser minimizados a través de un buen diseño del proyecto de
investigación. La utilización de una PRUEBA PILOTO puede ser un buen instrumento
para corregir algunos de estos errores de no muestreo

1.7.1. Tipos de muestreo.


Existen dos tipos básicos de muestreo: El muestreo No probabilístico y el mues-
treo probabilístico.

El muestreo no probabilístico.
Llamado también muestreo circunstancial se caracteriza por que los elementos
a ser incluidos en la muestra no tienen especificada una probabilidad o ella no se
conoce, si la tienen, de ser incluidos en la muestra y por que el error de muestreo
no puede ser medido. Los principales tipos de muestreo no probabilístico son:

Muestreo por conveniencia :


En el cual se deja la selección de los elementos primordialmente a los entre-
vistadores. En general, los elementos se seleccionaran por su facilidad de acceso o
su conveniencia.

Muestreo por criterio :


Implica seleccionar los elementos que a juicio de quien selecciona la muestra
sean los más representativos de la población.

Alfredo Yerman Cortes Verbel.


1.7. SELECCIÓN DE UNA MUESTRA. 21

Muestreo por cuota :


Un muestreo muy utilizado en investigación de mercados, cuando se desea te-
ner algún conocimiento sobre la opinión de un grupo de consumidores potenciales
sobre un determinado producto. Lamuestra se estructura de tal manera que incluya
números específicos de elementos con características que se sabe o se cree que
afectan el tema de investigación.
A pesar de las dificultades teóricas que presenta el muestreo no probabilísti-
co, principalmente por el hecho de no poder ser utilizado para realizar inferencias,
es extensamente utilizado en investigación de mercados en estudios de tipo ex-
ploratorio, prueba de productos, entrevistas por detención en centros comerciales,
discusiones de grupo, panel de consumidores. Pero un cuidadoso diseño de una
muestra no probabilístico puede generar resultados satisfactorios.

Muestreo probabilístico.
En el muestro probabilístico los elementos son seleccionados por cualquier pro-
cedimiento de azar, teniendo cada muestra posible una probabilidad conocida de ser
seleccionada. Sus resultados pueden ser utilizados para realizar inferencias sobre
los parámetros poblacionales, y además, es posible medir el error de muestreo. Los
principales tipos de muestreo probabilísticos son:

Muestreo aleatorio Simple :


Es el tipo más sencillo de muestreo probabilístico y base para los otros tipos
de muestreo probabilísticos. Se utiliza en poblaciones cuyos elementos son homo-
géneos en las características de interés. Cuando los elementos son homogéneos
(presentan una varianza pequeña), la muestra tiende a ser representativa de la
población. Los elementos son seleccionados mediante cualquier procedimiento de
azar.

Muestreo aleatorio estratificado :


Se utiliza cuando la población en estudio presenta gran heterogeneidad en sus
características. Los elementos se separan formando subgrupos (llamados estratos),
de tal forma que cada uno de los estratos presente homogeneidad interna, pero
que presenten gran heterogeneidad con respecto a los demás estratos. En general,
en el muestreo estratificado se requiere la utilización de una variable auxiliar para
realizar la estratificación. La muestra, entonces, se toma de cada uno de los estratos.

Muestreo sistemático :
En este muestreo, los elementos se seleccionan de la población dentro de un
intervalo uniforme con respecto altiempo, al orden o al espacio, aunque puede ser

Alfredo Yerman Cortes Verbel.


1.8. VARIABLES Y TIPOS DE VARIABLES. 22

inapropiado cuando los elementos presentan un patrón secuencial, presenta una


gran sencillez en la forma de selección de los elementos.

Muestreo por conglomerados :


En este tipo de muestreo se divide la población en grupos, llamados conglome-
rados, y luego se toma una muestra aleatoria de conglomerados. En el muestreo
por conglomerados, cada uno de los conglomerados se espera que cada conglome-
rado sea internamente heterogéneo, es decir, que los elementos presenten una gran
variabilidad en sus características.
La principal ventaja de los muestreos probabilísticos es su precisión, pues con
ellos se logra una muestra que sea representativa de la población en estudio. Debido
a ello son ampliamente utilizados.

1.8. Variables y Tipos de Variables.


1.8.1. Variable.
La Estadística se desarrolla a partir del concepto de variable.

Definición 1.4: Variable.


Una variable se puede definir como cualquier símbolo( X, Y. . . etc.) que puede
tomar diferentes valores de un conjunto dado. Las variables representan las
características que tienen los elementos que se estudian.

Cada elemento que se estudia presenta unas características que interesa co-
nocer. Si los elementos que se estudian son personas, por ejemplo, nos interesaría
conocer de ellas su género, su edad, su ingreso mensual, su estado civil, etc. Si los
elementos que nos interesa estudiar son empresas, de ellas nos interesaría conocer
de ellas, por ejemplo, el sector económico donde desarrolla su actividad, el tipo de
sociedad, el número de empleados que tiene, las ventas realizadas por ellas el mes
pasado, etc. Cada una de estas características son las que nos interesa estudiar
y constituyen las variables, pues cambian de persona a persona o de empresa a
empresa. Las variables pueden clasificarse en dos tipos.

Alfredo Yerman Cortes Verbel.


1.8. VARIABLES Y TIPOS DE VARIABLES. 23

1.8.2. Variables cualitativas.

Definición 1.5: Variables cualitativas.


Son aquellas que representan características observables o atributos que
presentan los elementos.

Ejemplo 1.1
Ejemplo de variables cualitativas sería:

Género de las personas

Estado civil

Lugar de nacimiento

1.8.3. Variables cuantitativas

Definición 1.6: Variables cuantitativas.


Son aquellas que expresan la magnitud de una característica, es decir se
pueden medir o contar.

Ejemplo 1.2
Un ejemplo de variables cuantitativas sería:

Ingreso mensual de una persona.

Número de personas que tiene a cargo.

Cantidad de C O2 a presente en el aire en determinados sitos de la ciudad.


a
dióxido de carbono

Esta características constituyen variables de tipo cuantitativo, pues son suscep-


tibles de ser expresadas numéricamente.
Las variables cuantitativas se suelen, a su vez, clasificar en dos tipos:

Alfredo Yerman Cortes Verbel.


1.8. VARIABLES Y TIPOS DE VARIABLES. 24

Variables cuantitativas discretas.

Definición 1.7: Variables cuantitativas discretas.


Son aquellas que toman un número finito de valores posibles. Estas variables
suelen asumir solo valores enteros.

Por ejemplo el número de hijos de una persona solo admite valores enteros. En
general sus valores se obtienen mediante procesos de conteo.

Variables cuantitativas continuas.

Definición 1.8: Variables cuantitativas continuas.


Son aquellas que pueden tomar cualquier valor real. En general correspon-
den a variables que se obtienen a partir de procesos de medición.

Peso, estatura longitud, ingreso, son algunos ejemplos de variables cuantitativas


continuas.
Esta clasificación es importante puesto que existen procedimientos diferentes
para su tratamiento estadístico según sea el tipo de variable que se analice.

1.8.4. Escalas de Medida.


Para realizar un correcto análisis de los datos es fundamental conocer de an-
temano el tipo de medida de la variable, ya que para cada una de ellas se utiliza
diferentes estadísticos. La clasificación más convencional de las escalas de medida
las divide en cuatro grupos denominados Nominal, Ordinal, Intervalo y Razón.

Escala Nominal.

Definición 1.9: Escala Nominal.


Son variables numéricas cuyos valores representan una categoría o iden-
tifican un grupo de pertenencia. Este tipo de variables sólo nos permite
establecer relaciones de igualdad/desigualdad entre los elementos de la va-
riable. La asignación de los valores se realiza en forma aleatoria por lo que
NO cuenta con un orden lógico.

Un ejemplo de este tipo de variables es el Género ya que nosotros podemos


asignarle un valor a los hombres y otro diferente a las mujeres y por más machistas
o feministas que seamos no podríamos establecer que uno es mayor que el otro.

Alfredo Yerman Cortes Verbel.


1.8. VARIABLES Y TIPOS DE VARIABLES. 25

Ejemplo 1.3
Ejemplos de variables con este tipo de escala nominal son:

Nacionalidad.

Uso de anteojos.

Número de camiseta en un equipo de fútbol.

Número de Cédula Nacional de Identidad.

A pesar de que algunos valores son formalmente numéricos, sólo están siendo
usados para identificar a los individuos medidos.

Escala Ordinal.

Definición 1.10: Escala Ordinal.


Son variables numéricas cuyos valores representan una categoría o identi-
fican un grupo de pertenencia contando con un orden lógico. Este tipo de
variables nos permite establecer relaciones de igualdad/desigualdad y a su
vez, podemos identificar si una categoría es mayor o menor que otra.

Un ejemplo de variable ordinal es el nivel de educación, ya que se puede esta-


blecer que una persona con título de Postgrado tiene un nivel de educación superior
al de una persona con título de bachiller. En las variables ordinales no se puede
determinar la distancia entre sus categorías, ya que no es cuantificable o medible.

Ejemplo 1.4
Otros ejemplos de variables con escala ordinal:

Preferencia a productos de consumo.

Etapa de desarrollo de un ser vivo.

Clasificación de películas por una comisión especializada.

Madurez de una fruta al momento de comprarla.

Alfredo Yerman Cortes Verbel.


1.8. VARIABLES Y TIPOS DE VARIABLES. 26

Escala de Intervalo.

Definición 1.11: Escal de Invervalo.


Son variables numéricas cuyos valores representan magnitudes y la distancia
entre los números de su escala es igual. Con este tipo de variables podemos
realizar comparaciones de igualdad/desigualdad, establecer un orden dentro
de sus valores y medir la distancia existente entre cada valor de la escala. Las
variables de intervalo carecen de un cero absoluto, por lo que operaciones
como la multiplicación y la división no son realizables.

Ejemplo 1.5
Un ejemplo de este tipo de variables es la temperatura, ya que podemos decir
que la distancia entre 10 y 12 grados es la misma que la existente entre 15 y
17 grados. Lo que no podemos establecer es que una temperatura de 10 grados
equivale a la mitad de una temperatura de 20 grados.

Ejemplo 1.6
Los siguientes son otros ejemplos de variables con esta escala:

Ubicación en una carretera respecto de un punto de referencia (Kilómetro


85 Ruta 5).

Sobrepeso respecto de un patrón de comparación.

Nivel de aceite en el motor de un automóvil medido con una vara graduada.

Escala de Razón.

Definición 1.12: Escala de Razón.


Las variables de razón poseen las mismas características de las variables de
intervalo, con la diferencia que cuentan con un cero absoluto; es decir, el valor
cero (0) representa la ausencia total de medida, por lo que se puede realizar
cualquier operación Aritmética (Suma, Resta, Multiplicación y División) y
Lógica (Comparación y ordenamiento). Este tipo de variables permiten el
nivel más alto de medición.

Ejemplo 1.7
Las variables altura, peso, distancia o el salario, son algunos ejemplos de este
tipo de escala de medida.

Alfredo Yerman Cortes Verbel.


1.9. TIPOS DE DATOS. 27

Ejemplo 1.8
Algunos ejemplos de variables con la escala de razón son los siguientes:

Altura de personas.

Cantidad de litros de agua consumido por una persona en un día.

Velocidad de un auto en la carretera.

Número de goles marcados por un jugador de básquetbol en un partido.

La escala de intervalo tiene un cero que se establece por convención y puede


tener variaciones. Es arbitrario. Por otra parte, la escala de razón tiene un cero real,
fijo, no sujeto a variaciones; es propio de la medición hecha.

Figura 1.6: Escalas de medida

1.9. Tipos de datos.


Los datos constituyen registro de los valores de las variables en los elementos
que se estudian. Los procedimientos estadísticos se aplican a conjuntos de datos
que son obtenidos de una población o de una muestra de elementos. Los datos,
según las variables que se estudien, se pueden clasificar en:

1.9.1. Datos Cualitativos.


Son un conjunto de registros que se refieren a un conjunto de elementos que
en un momento dado se han clasificado según una cualidad o atributo. Los datos
cualitativos o categóricos admiten pocos procedimientos estadísticos, tales como
procedimientos de conteo o de asociación.

Alfredo Yerman Cortes Verbel.


1.10. EVALUACIÓN POR COMPETENCIAS. 28

1.9.2. Datos Cuantitativos.


Son un conjunto de registros que se refieren a un conjunto de elementos, que en
un momento dado, se han clasificado según la magnitud de una característica. Los
datos cuantitativos permite utilizar con ellos una gran variedad de procedimientos
estadísticos, tales como medidas que permiten caracterizar a todo el conjunto de
elementos estudiados.

1.9.3. Datos cronológicos o de serie de tiempo.


Son conjuntos de registros que se refieren a un elemento que se ha medido
en diferentes épocas o periodos, generalmente a intervalos iguales de tiempo.Los
datos cronológicos son datos de tipo cuantitativos pero solamente se considera un
elemento en diferentes momentos

1.10. Evaluación por competencias.


1.10.1. Ejercicios de aplicación.
1. A partir de un mapa conceptual, mentefacto o cualquier organizador gráfico
exponga: Los conceptos básicos de la estadística

2. Clasifica las siguientes variables en ordinales o nominales. Explica por qué


son cualitativas.

a) Género musical favorito de los estudiantes de décimo.


b) Actividad preferida por un grupo de estudiantes.

3. Clasifica las siguientes variables estadísticas según sean cualitativas, cuanti-


tativas, discretas o continuas:

a) Marca de coches.
b) Pesos de los coches.
c) Número de coches vendidos.

4. Se pretende hacer un estudio de la popularidad de la policia Colombiana entre


la población adulta. Con este objetivo se decide seleccionar una muestra de
10 personas (seleccionadas al azar) de cada uno de los departamentos de Co-
lombia y preguntarles su opinión sobre la policía con las posibles respuestas
(muy positiva, positiva, ni positiva ni negativa, negativa, muy negativa).

a) Identificar la población, muestra y variable de interés.


b) ¿Qué tipo de variable es?.

Alfredo Yerman Cortes Verbel.


1.10. EVALUACIÓN POR COMPETENCIAS. 29

c) Comentar brevemente las ventajas e inconvenientes del método de se-


leccionar la muestra.

5. Identifique de entre el siguiente listado, los datos que son cualitativos y los
que son cuantitativos:

a) Clase de ocupación.
b) Enfermedades más comunes.
c) Calificación obtenida en un examen.
d) Años de estudio.
e) Votos anulados en las últimas elecciones.
f ) Estado civil.
g) Tipos de vivienda.
h) Color de los ojos.
i) Lugar de nacimiento.
j) Número de hijos.

6. De los datos cuantitativos siguientes, indique los que son de variables discreta
y los que son de variables continua.

a) Cantidad de matrimonios efectuados el año pasado.


b) Temperatura ambiente en un día cualquiera.
c) Número de palabras que se leen por minuto.
d) Tiempo empleado en resolver un examen.
e) Número de personas que viven en su casa.
f ) Distancia de su casa a la universidad.

7. La Gerencia de la Librería desea calcular el costo de los libros de texto para


estudiantes de la universidad. Sea “x ” la variable del costo total de todos
los libros de texto adquiridos por un estudiante este semestre. El plan es
identificar aleatoriamente a 100 estudiantes y obtener sus costos totales por
concepto de libros de texto. El costo medio será utilizado para calcular el
costo medio de todos los estudiantes.

a) Describa el parámetro que desea calcular la oficina de inscripciones.


b) Describa la población.
c) Describa la variable implicada.
d) Describa la muestra.

Alfredo Yerman Cortes Verbel.


1.10. EVALUACIÓN POR COMPETENCIAS. 30

e) Describa el estadístico y cómo utilizaría los 100 datos recolectados para


calcular el estadístico.

8. En una prueba de aptitudes aplicada a los empleados de una gran empresa,


los puntajes de tres trabajadores seleccionados al azar fueron 90, 85 y 80 y de
tres trabajadoras seleccionadas al azar fueron 89, 86 y 92. Para las siguientes
declaraciones realizadas con base a las calificaciones identifíquense aquellas
que se derivan de métodos descriptivos y aquellas que se derivan de inferencia
estadística.

a) La calificación media de los trabajadores es 85, y la calificación media


de las trabajadoras es 89.
b) La aptitud media de todas las trabajadoras es probablemente mayor que
la de los trabajadores.
c) En la siguiente prueba de aptitudes, probablemente los trabajadores re-
cibirán calificaciones más bajas que las trabajadoras.

9. Cuatro neumáticos para automóvil de marca A y tres de marca B se prue-


ban para determinar su duración de servicio. La duración para los neumáticos
marca A es de 29000, 33000, 37000 y 41000 kilómetros; para la marca B,
esde 30000, 32000 y 34000 kilómetros. A partir de las siguientes declaracio-
nes hechas en base a estas cifras, identifíquese las que vienen de métodos
descriptivos y las que provienen de inferencia estadística.

a) La duración media de los cuatro neumáticos de la marca A es mayor que


la de los tres neumáticos de la marca B.
b) Probablemente, la duración de todos los neumáticos marca A sea de casi
35000 millas, mientras que la de los neumáticos marca B es aproxima-
damente de 32000 millas.
c) Conociendo que el precio de todos los neumáticos marca A es el mismo
que el de los neumáticos marca B, usted recomienda los neumáticos
marca B a todos sus amigos.

10. Se realiza una votación preliminar para determinar las preferencias de los
votantes en una elección presidencial. Con este fin, se entrevistan 1100 votan-
tes registrados y entre ellos 660 están a favor del candidato F . Responde lo
siguiente:

a) ¿Qué constituye la muestra?.


b) ¿Qué constituye la población?.
c) ¿La población es finita o infinita?.

Alfredo Yerman Cortes Verbel.


1.10. EVALUACIÓN POR COMPETENCIAS. 31

d) ¿Cuál es el parámetro? .
e) ¿Cuál es el estadístico?.

11. Se realiza un muestreo de opinión para determinar si las amas de casa en


Colombia, prefieren una marca de detergente (A) con respecto a otra (B). Con
este fin, se entrevistan 1500 amas de casa y entre ellas 820 prefieren la marca
A. Responda lo siguiente:

a) ¿Qué constituye la muestra?.


b) ¿Qué constituye la población?.
c) ¿La población es finita o infinita?.

12. Responda los siguiente interrogantes

a) Que quiere decir la frase de Albert Einstein : no creo que dios juegue a
los dados.
b) ¿De la figura 1.1, que reflexión o mensaje podría obtener?, justifique su
respuesta.
c) ¿Considera usted que para poder generar una opinión referente a algún
tema son necesarios los datos? ¿Se puede prescindir de la intuición?, Ver
figura 1.5.

Alfredo Yerman Cortes Verbel.


32
2.1. PRELIMINARES MATEMÁTICOS. 33

2. DISTRIBUCIONES DE
FRECUENCIAS.

Los fundamentos de la estadística


están cambiando, no sólo en el
sentido en que ellos fueron y
continuarán evolucionando, sino
también en el sentido idiomático de
que ningún sistema es
absolutamente estable.

Leonard Jimmie Savage

Leonard Jimmie Savage (20 de noviembre de 1917 – 1 de noviembre de 1971) fue un


matemático estadounidense especializado en estadística. Su obra más conocida es
del año 1954 y se titula Foundations of Statistics (Fundamentos de estadística) en el
que introduce ciertos elementos sobre la teoría de la decisión. En su obra menciona y
elabora subjetividad de la utilidad esperada estableciendo las bases de la inferencia
bayesiana y sus aplicaciones a la teoría de juegos. Leonard estuvo como ayudante
de John Von Neumann, el científico que construyó el primer computador electrónico.
Muchas de las teorías de Savage se aplican en la actualidad en diversos campos
de la matemática financiera. Una de las aportaciones de este autor se denomina
ley Hewitt–Savage para los eventos simétricos.

2.1. Preliminares Matemáticos.


La sumatoria es una notación matemática que permite representar sumas de
varios sumandos, n o incluso infinitos sumandos, evitando el empleo de los puntos
suspensivos o de una explícita notación de paso al límite. Se expresa con la letra
griega sigma mayúscula Σ . Aunque se necesita aclarar que la palabra sumatoria
o sumatorio no es aceptada entre varios matemáticos ya que la forma correcta de
decirlo es suma.

Alfredo Yerman Cortes Verbel.


2.1. PRELIMINARES MATEMÁTICOS. 34

2.1.1. Sumatoria.

Definición 2.1: Suma


Sea a1 , a2 , a3 , a4 · · · an ∈ R entonces

X
n
ai = a1 + a2 + a3 + · · · + an
i=1

de forma general

X
n
ai = am + am+1 + am+2 + · · · + an
i=m

Esto se lee: sumatorio sobre i, desde m hasta n, de a sub-i. La variable i es el


índice de suma al que se le asigna un valor inicial llamado límite inferior, m.
La variable i recorrerá los valores enteros hasta alcanzar el límite superior,
n. Necesariamente debe cumplirse que: m ≤ n. Pudiendo ver además que si
m = n entonces:
Xn Xm
ai = ai = am
i=m i=m

Por convención Si m > n, el resultado de la suma es cero, el elemento neutro


de la suma.
Como el conjunto de índices es un intervalo de enteros, es corriente indicar
el primer índice debajo del símbolo de sumatoria, y el último por encima del
mismo. Las siguientes notaciones son equivalentes

X X
i=n X
n
ai = ai = ai
i∈[m,n] i=m i=m

El número de términos a sumar es entonces n − m + 1, ya que el primer


sumando es am y el último sumando es an .

Ejemplo 2.1
La suma de los cuadrados de los seis primeros enteros estrictamente positivos se
escribe por ejemplo:

Alfredo Yerman Cortes Verbel.


2.1. PRELIMINARES MATEMÁTICOS. 35

6
X
i2 = 12 + 22 + 32 + 42 + 52 + 62
i=1
= 1 + 4 + 9 + 16 + 25 + 36
= 91.

Ejemplo 2.2

7
X
2i − 1 = (2 · 1 − 1) + (2 · 2 − 1) + (2 · 3 − 1) + (2 · 4 − 1) + (2 · 5 − 1) + (2 · 6 − 1) + (2 · 7 − 1)
i=1
= (2 − 1) + (4 − 1) + (6 − 1) + (8 − 1) + (10 − 1) + (12 − 1) + (14 − 1)
= 1 + 3 + 5 + 7 + 9 + 11 + 13
= 49.

Aunque el término sumatorio se refiere a un operador matemático útil para


expresar cierto tipo de suma, no sustituye este término a la palabra suma, por lo
que con esta intención es un fantónimo1 . Se dice: «la suma de dos y tres es cinco»,
y no «el sumatorio de dos y tres es cinco».

Figura 2.1: Tomado de megaconnor. (2013, diciembre 24). Estadísticas. Memedroid.


https://es.memedroid.com/memes/detail/709992

1
Fantónimo es un neologismo que indica una palabra de aspecto que hace que un receptor o
emisor piense que tenga un significado concreto, aunque en realidad tenga otro distinto del pensado

Alfredo Yerman Cortes Verbel.


2.1. PRELIMINARES MATEMÁTICOS. 36

2.1.2. Propiedades de la Sumatoria

Teorema 2.1: Propiedades de la Sumatoria

Sea C un valor constante y sea f (x) una función real entonces tenemos

X
t X
t
C · f (n) = C · f (n)
n=s n=s
X
t X
t X
t
f (n) ± g(n) = [f (n) ± g(n)]
n=s n=s n=s
X
t X
t+p
f (n) = f (n − p)
n=s n=s+p

X
j
X
t X
t
f (n) + f (n) = f (n)
n=s n=j+1 n=s

X
k1 X
l1 X
l1 X
k1
ai,j = ai,j
i=k0 j=l0 j=l0 i=k0

Hay fórmulas para calcular los sumatorios más rápido, estas serán vistas en el
siguiente teorema:

Figura 2.2: DPTO MATEMÁTICAS IESAS

Alfredo Yerman Cortes Verbel.


2.1. PRELIMINARES MATEMÁTICOS. 37

Teorema 2.2: Formulas para la sumatoria

X
n
n(n + 1)
i =
2
i=1
X
n
C = C · (n − m + 1)
i=m
Xn X
n
n(n + 1)
i = i=
2
i=0 i=1
X
n
n(n + 1) m(m − 1) (n + 1 − m)(n + m)
i = − =
i=m
2 2 2
X
n
n(n + 1)(2n + 1) n3 3 n2 n
i2 = = +
6 + 2 6
i=1
 2 " n #2
X
n
n(n + 1) n4 n3 n2 X
i3 = = + + = i
2 4 2 4
i=1 i=1
Xn
n(n + 1)(2n + 1)(3n2 + 3n − 1) n5 n4 n3 n
i4 = = + + −
30 5 2 3 30
i=1
X
n−1
am − an
ai = con m < n y a ̸= 1
i=m
1−a
X
n−1
1 − an
ai =
1−a
i=0
X
n−1
a − nan + (n − 1)an+1
iai =
(1 − a)2
i=0

La falacia del cuadro estadístico estriba en que es unilateral, en la medida en que


representa sólo el aspecto promedio de la realidad y excluye el cuadro total. La
concepción estadística del mundo es una mera abstracción, y es incluso falaz, en
particular cuando atañe a la psicología del hombre.

Carl Jung2
2
Carl Gustav Jung (1875 - 1961) fue un médico psiquiatra, psicólogo y ensayista suizo, figura clave
en la etapa inicial del psicoanálisis; posteriormente, fundador de la escuela de psicología analítica,
también llamada psicología de los complejos y psicología profunda.

Alfredo Yerman Cortes Verbel.


2.2. DISTRIBUCIONES DE FRECUENCIA. 38

Ejemplo 2.3

1000
X 1000
X 1000
X
2i − 1 = 2i + −1
i=1 i=1 i=1
1000
X
= 2 i + (−1) · 1000
i=1
1000(1000 + 1)
= 2 − 2000
2
= 1000 · 1001 − 2000
= 1001000 − 2000
= 999000

Ejemplo 2.4

500
X 500
X 500
X 500
X
3i2 + 5i + 4 = 3i2 + 5i + 4
i=1 i=1 i=1 i=1
500
X 500
X 500
X
2
= 3 i +5 i+ 4
i=1 i=1 i=1
500(500 + 1)(2 · 500 + 1) 500(500 + 1)
= 3 +5 + 4 · 500
6 2
500 · 501 · 1001 500 · 501
= +5 + 2000
2 2
250750500 1252500
= + + 2000
2 2
= 125375250 + 626250 + 2000
= 126003500

2.2. Distribuciones de Frecuencia.


En estadística, se le llama distribución de frecuencias a la agrupación de datos
en categorías mutuamente excluyentes que indican el número de observaciones en
cada categoría3 . Esto proporciona un valor añadido a la agrupación de datos. La
distribución de frecuencias presenta las observaciones clasificadas de modo que se
3
Jorge Andrés Alvarado Valencia, Juan José Obagi Araújo, (2008), Fundamentos de inferencia esta-
dística, Ed. Universidad Javeriana de Bogotá, pág. 19

Alfredo Yerman Cortes Verbel.


2.3. TIPOS DE FRECUENCIA. 39

pueda ver el número existente en cada clase. Estas agrupaciones de datos suelen
estar agrupadas en forma de tablas.
Una distribución de frecuencias es un formato tabular en la que se organizan
los datos en clases, es decir, en grupos de valores que describen una característica
de los datos y muestra el número de observaciones del conjunto de datos que caen
en cada una de las clases.
La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En
principio, en la tabla de frecuencias se detalla cada uno de los valores diferen-
tes en el conjunto de datos junto con el número de veces que aparece, es decir,
su Frecuencia. Se puede complementar la frecuencia absoluta con la denominada
frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos.
En variables cuantitativas se distinguen por otra parte la frecuencia simple y la
frecuencia acumulada.
La tabla de frecuencias puede representarse gráficamente en un histograma
(Diagrama De Barras). Normalmente en el eje vertical se coloca las frecuencias y
en el horizontal los intervalos de valores.
La distribución de frecuencias o tabla de frecuencias es una ordenación en forma
de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspon-
diente.

2.3. Tipos de frecuencia.


Frecuencia absoluta.

Definición 2.2: Frecuencia absoluta.


La frecuencia absoluta es el número de veces que aparece un determinado
valor en un estudio estadístico. Se representa por fi .

La suma de las frecuencias absolutas es igual al número total de datos de la


muestra, que se representa por n.

f1 + f2 + f3 + ... + fn = n
P
Para indicar resumidamente estas sumas se utiliza la letra griega (sigma
mayúscula) que se lee suma o sumatoria.

X
n
fi = n
i=1

Alfredo Yerman Cortes Verbel.


2.4. DISITRIBUCIÓN DE FRECUENCIA. 40

Frecuencia relativa.

Definición 2.3: Frecuencia Relativa.


La frecuencia relativa es el cociente entre la frecuencia absoluta de un de-
terminado valor y el número total de datos. Se puede expresar en tantos por
ciento y se representa por f ri .

fi
f ri =
n
La suma de las frecuencias relativas es igual a 1.

Frecuencia absoluta acumulada.

Definición 2.4: Frecuencia Absoluta Acumulada.


La frecuencia absoluta acumulad es la suma de las frecuencias absolutas de
todos los valores inferiores o iguales al valor considerado. Se representa por
Fi

Frecuencia relativa acumulada.

Definición 2.5: Frecuencia Relativa Acumulada.


La frecuencia relativa acumulada es el cociente entre la frecuencia acumu-
lada de un determinado valor y el número total de datos. Se puede expresar
en tantos por ciento. Se representa por F ri

2.4. Disitribución de frecuencia.


2.4.1. Distribución de frecuencias para datos cualitativos.
Cuando la variable de análisis es de tipo cualitativo, cada grupo, clase o cate-
goría se forma con cada uno de los diferentes valores que toma la variable, gene-
ralmente ordenados en forma alfabética

Ejemplo 2.5
En un sector de una ciudad se seleccionó una muestra de 40 empresas y se regis-
tró la actividad económica que desarrollaban, obteniendo los siguientes resulta-
dos:COMERCIO - SERVICIO - COMERCIO - COMERCIO - SERVICIO - SERVICIO

Alfredo Yerman Cortes Verbel.


2.4. DISITRIBUCIÓN DE FRECUENCIA. 41

- COMERCIO - COMERCIO - INDUSTRIA - SERVICIO - SERVICIO - COMERCIO


- INDUSTRIA - INDUSTRIA - SERVICIO - SERVICIO - COMERCIO - COMERCIO
- SERVICIO - SERVICIO - COMERCIO - COMERCIO - COMERCIO - SERVICIO -
COMERCIO - INDUSTRIA - COMERCIO - SERVICIO - COMERCIO - COMERCIO
- SERVICIO COMERCIO - SERVICIO - COMERCIO - INDUSTRIA - SERVICIO -
INDUSTRIA – COMERCIO - INDUSTRIA - INDUSTRIA. Los anteriores datos se
pueden ordenar en una tabla de distribución de frecuencias que tiene la siguiente
forma. (Ver cuadro 2.1)

Actividad Económica fi f ri
COMERCIO 18 0,45
INDUSTRIA 8 0,20
SERVICIO 14 0,35
TOTAL 40 1,0

Cuadro 2.1: Distribución de las empresas según actividad económica

Gráficos
Los datos resumidos en una tabla de distribución de frecuencias, suelen presen-
tarse en forma gráfica. Los gráficos son representaciones pictóricas que permiten, a
veces, observar rápidamente de un golpe de vista el comportamiento de la variable
que se estudia y sus características más sobresalientes. Los gráficos apropiados
para representar variables cualitativas son los de barra y los de sectores (circular
o pastel).

Graficos de Barras :
Los gráficos de barra pueden ser horizontales o verticales. En los gráficos de
barras más usuales son los verticales en donde se representa en el eje horizontal
la variable y en el eje vertical el número de elementos que tiene cada cualidad o
categoría de la variable (las frecuencias).(ver figura 2.3)
El gráfico de barras horizontales se construye colocando los ejes en forma in-
versa, es decir, la variable se representa en el eje vertical y las frecuencias en el eje
horizontal. Se utiliza principalmente cuando la variable es de tipo geográfico. (ver
frigura 2.4)

Grafica circular (Torta o pastel) :


La gráfica circular (torta o pastel) se utiliza para representar el porcentaje de
elementos que pertenecen a cada una de las categorías de la variable. El círculo

Alfredo Yerman Cortes Verbel.


2.4. DISITRIBUCIÓN DE FRECUENCIA. 42

Figura 2.3: Gráfica barra vertical

Figura 2.4: Gráfica barra horizontal

se divide en cien partes (100 %) y se divide según el porcentaje correspondiente a


cada categoría. (ver figura 2.5)

2.4.2. Distribución conjunta de dos variables cualitativas.


En muchas ocasiones se desea representar en una misma tabla los datos obte-
nidos para dos variables (o incluso más de dos). Este tipo de ordenamiento permite
establecer la forma en que podrían estar relacionadas las dos variables. Estas tablas
se conocen con los nombres de tabla de contingencia o de doble entrada.

Alfredo Yerman Cortes Verbel.


2.4. DISITRIBUCIÓN DE FRECUENCIA. 43

Figura 2.5: Gráfica circular o diagrama de torta

Ejemplo 2.6
A un grupo de personas se les encuestó sobre el uso de cigarrillo y se obtuvieron
los siguientes datos (Ver cuadro 2.2).

Genero No Fuma Fuma Ns/Nr Total


Femenino 12 15 3 30
Masculino 15 19 1 35
Total 27 34 4 65

Cuadro 2.2: Tabla de frecuencias sobre el uso del cigarrillo por genero.

A partir de esta tabla se puede analizar el comportamiento que presentan los


elementos (personas) para las dos variables

Gráficos
Este tipo de distribución se puede representar gráficamente mediante alguno de
tres tipos de gráficos: barras agrupadas, barras compuestas y barras compuestas
porcentuales.

Gráfico de barras agrupadas :


Para construir un gráfico se selecciona una de las dos variables para ser re-
presentadas en el eje horizontal, y cada una de las cualidades de esta variable se
divide para representar cada una de las cualidades de la otra variable. En el eje
vertical se representan las frecuencias absolutas, correspondientes a cada cualidad
representada. Este gráfico permite comparar cómo se comportan las dos variables

Alfredo Yerman Cortes Verbel.


2.4. DISITRIBUCIÓN DE FRECUENCIA. 44

en los elementos. (ver figura 2.6)

Figura 2.6: Gráfica Barras Agrupadas

Gráfico de barras compuestas :


Este tipo de gráficos se construye en forma semejante a la anterior, solo que las
barras para las cualidades de una variable no se agrupan una al lado de la otra
sino una encima de la otra, además de permitir comparar las dos variables generan
el total de elementos en cada una de las cualidades. (Ver figura 2.7)

Figura 2.7: Gráfica Barras Compuestas

Gráfico de barras porcentuales :


Se construye seleccionando una de las dos variables como principal, la cual a
su vez se divide según los porcentajes correspondientes a la otra variable que son
los porcentajes que aparecen en la tabla, por filas o columnas) (ver figura 2.8)

Alfredo Yerman Cortes Verbel.


2.4. DISITRIBUCIÓN DE FRECUENCIA. 45

Figura 2.8: Gráfica Barras Compuestas porcentuales

2.4.3. Distribución de frecuencias para datos cuantitativos.


Se han clasificado las variables cuantitativas en discretas y continuas. Muchas
variables discretas toman pocos valores diferentes, mientras que por el contrario,
las variables continuas pueden tomar muchos (incuso infinitos) valores diferentes,
por esta razón el tratamiento de los datos para los dos tipos de variable suele ser
diferente

Distribución de frecuencias para variables discretas.


Cada grupo o categoría se forma con cada uno de los diferentes valores que toma
la variable. La tabla de distribución de frecuencias para los datos recolectados para
este tipo de variable se suele construir utilizando cinco columnas cuyos elementos
son los siguientes:

1. Los valores de la variable ordenados en forma ascendente. Los valores de


la variable se suelen simbolizar por xi , i = 1, 2, ..., m; donde representa la
cantidad de valores diferentes que toma la variable.

2. Las frecuencias absolutas (simbolizadas por fi ) que representan el número de


elementos que toman cada uno de los valores de la variable. Se obtienen por
conteo directamente sobre los datos recolectados.

3. 
Las frecuencias
 relativas (simbolizadas
 f ri ) que representan la proporción

fi fi
f ri = n o el porcentaje f ri % = n 100 de elementos que toman cada uno
de los valores de la variable

4. Las frecuencias absolutas acumuladas (simbolizadas Fi ) que representan el


número de elementos que toman un valor menor o igual al i-esimo valor de

Alfredo Yerman Cortes Verbel.


2.4. DISITRIBUCIÓN DE FRECUENCIA. 46

la variable. Se obtienen por sumas sucesivas sobre las frecuencias absolutas.

5. Las frecuencias relativas acumuladas (simbolizadas F ri ) que representan la


proporción o porcentaje de elementos que toman un valor menor o igual al
i-esimo valor de la variable. Se obtienen por sumas sucesivas sobre las fre-
cuencias relativas.

Ejemplo 2.7
Cien familias se han clasificado según el número de hijos, resultando los siguien-
tes datos:

N° de Hijos 0 1 2 3 4 5 6 7 8
N° de familias 11 13 20 25 14 10 4 2 1

Cuadro 2.3: Cantidad de familias de acuerdo a la cantidad de hijos

n = 100, m = 9. (Ver figura 2.9)

30

25

20

15

10

0
0 1 2 3 4 5 6 7 8

Figura 2.9: Gráfica de frecuencias absolutas fi

Distribución de frecuencias:

Alfredo Yerman Cortes Verbel.


2.4. DISITRIBUCIÓN DE FRECUENCIA. 47

Cantidad de hijos fi f ri
11
0 f1 = 11 f r1 = fn1 = 100 = 0,11
f2 13
1 f2 = 13 f r2 = n = 100 = 0,13
20
2 f3 = 20 f r3 = fn3 = 100 = 0,2
f4 25
3 f4 = 25 f r4 = n = 100 = 0,25
14
4 f5 = 14 f r5 = fn5 = 100 = 0,14
f6 10
5 f6 = 10 f r6 = n = 100 = 0,1
4
6 f7 = 4 f r7 = fn7 = 100 = 0,04
f8 2
7 f8 = 2 f r8 = n = 100 = 0,02
f9 1
8 f9 = 1 f r9 = n = 100 = 0,01
Total 100 1

Cuadro 2.4: Frecuencias relativas y absolutas de la cantidad de hijos

La categoría más numerosa es la de familias con 3 hijos y la menos frecuente


es la de familias con 8 hijos (ver gráfica 2.10)

Diagrama de barras

0.30

0.25

0.20

0.15

0.10

0.05

0.00
0 1 2 3 4 5 6 7 8

Figura 2.10: Gráfica de frecuencias relativas fri

En general, las clases vienen ordenadas de forma natural de menor a mayor


por lo que tiene sentido definir la distribución de frecuencias acumulada. Para
construir la distribución de frecuencias acumulada hay que sumar a la frecuencia

Alfredo Yerman Cortes Verbel.


2.4. DISITRIBUCIÓN DE FRECUENCIA. 48

de cada clase (absoluta o relativa) la de las clases anteriores, hay que tener en
cuenta que los valores de la distribución de frecuencias acumulada no decrecen.
La información sobre los datos que proporcionan la distribución de frecuencias y
la distribución de frecuencias acumulada es equivalente. Cada una puede obte-
nerse a partir de la otra.

Cantidad de hijos fi Fi f ri F ri
0 11 11 0,11 0,11
1 13 24 0,13 0,24
2 20 44 0,2 0,44
3 25 69 0,25 0,69
4 14 83 0,14 0,83
5 10 93 0,1 0,93
6 4 97 0,04 0,97
7 2 99 0,02 0,99
8 1 100 0,01 1
Total 100 1

Cuadro 2.5: Tabla de frecuencias

El último valor de la distribución de frecuencias absolutas acumuladas coin-


cide con n.

El último valor de la distribución de frecuencias relativas acumuladas es 1


(salvo error de redondeo).

La distribución de frecuencias acumulada nos permite conocer la proporción


(o el número) de observaciones por debajo de cierto valor, entre dos valores
o por encima de una cantidad.

Preguntas y respuestas a partir de las tablas

• Qué proporción de familias tiene menos de 2 hijos? R/ 0,24


• ¿Cuántas familias tienen menos de 4 hijos? R/ 69
• ¿Qué proporción de familias tiene más de 6 hijos? R/ 0, 03 = 1−0, 97 =
0, 01 + 0, 02
• ¿Qué proporción de familias tiene más de 3 hijos pero menos de 7? R/
0, 28 = 0, 14 + 0, 1 + 0, 04 = 0, 97 − 0, 69

Representación gráfica de la distribución de frecuencias acumulada (ver


figura 2.11)

Alfredo Yerman Cortes Verbel.


2.4. DISITRIBUCIÓN DE FRECUENCIA. 49

1.0

0.8

0.6

0.4

0.2

0.0
0 1 2 3 4 5 6 7 8

Figura 2.11: Gráfica Barras Frecuencias acumuladas

Distribución de frecuencias para variables continuas.


Las variables continuas suelen tomar muchos valores diferentes, por lo cual sus
valores se ordenan mediante intervalos que contengan un conjunto de valores de la
variable. Cada intervalo constituye un grupo o clase de elementos. El procedimiento
para construir este tipo de tabla de distribución de frecuencias es el siguiente:

1. Efectuar el arreglo ordenado (Ascendente o Descendente) de la población o


muestra

2. Obtener la frecuencia absoluta mediante la tabulación o conteo de los datos


(homogenizar los datos)

3. Encontrar el rango o recorrido (R) de los datos:

R = xn − x1 = xmax − xmin
R = Máximo valor - Mínimo valor

4. Encontrar el número de clases o intervalos de clases (m). El número de clases


debe ser tal que se evite el detalle innecesario, pero que no conduzca a la
perdida de más información de la que puede ser convenientemente ignorada.
Para este cálculo se utiliza la formula de Sturges

m = 1 + 3,322 log(n)

Alfredo Yerman Cortes Verbel.


2.4. DISITRIBUCIÓN DE FRECUENCIA. 50

Aunque es de anotar que ésta fórmula es poco usual. En la práctica se es-


tablece el valor de m, atendiendo varios factores tales como la finalidad del
estudio, grado de variabilidad de los datos, necesidad de efectuar compara-
ciones, etc. Sin embargo, y de acuerdo a la experiencia de investigaciones ya
realizadas, se recomienda que este valor no sea menor de 5 ni mayor de 16.
Algunos investigadores utilizan otras estimaciones del valor de m, como

m= n

o un criterio para determinar el número de clases es el propuesto por Ryan


en 1982 presentado en la siguiente tabla conocida como la Tabla de Ryan
(ver tabal 2.6)

N° de Datos N° de Clases
8 a 16 4
17 a 32 5
33 a 64 6
65 a 128 7
129 a 256 8
257 a 512 9
513 a 1024 10

Cuadro 2.6: Tabla de Ryan determinar el número de clases (intervalos) de un conjunto


de datos

5. Determinar la amplitud de la clase (a):

R Rango
a= =
m Intervalos

El resultado siempre se aproxima al siguiente entero si excede al número


entero obtenido, no importa el monto de la fracción excedida al entero.

6. El dato menor (x1 ) será el limite inferior de la primera clase. A él se le suma a


y se obtiene el limite superior de la primera clase que también será el limite
inferior de la segunda clase. Luego se suma nuevamente a y se obtiene el li-
mite superior del segundo intervalo e inferior del tercero. Y así sucesivamente
hasta que el limite superior corresponda o supere ligeramente el valor mayor
(xn ), la cantidad de clases obtenidas deberá corresponder con el número m
calculado mediante la formula de Sturges. Los limites de cada clase se repre-
sentaran por intervalos [Li−1 , li ) , donde Li−1 es el limite inferior de la i-esima
clase o intervalo y Li es el limite superior de la i-esima clase.

Alfredo Yerman Cortes Verbel.


2.4. DISITRIBUCIÓN DE FRECUENCIA. 51

7. Se calcula el punto medio de cada clase por la formula


Li + Li−1
ci =
2
a este punto medio se le suele llamar marca de clase
8. Una vez construidos los intervalos se calculan, mediante tabulación de acuerdo
a los limites inferiores y superiores de las clases, las frecuencias absolutas,
relativas, porcentuales y acumuladas correspondientes.
9. Con los datos obtenidos se procede a construir la tabla de distribución de
frecuencia.

Ejemplo 2.8
La tienda Yerman‘s Store estaba interesada en efectuar un análisis de sus cuentas
por comprar. Uno de los factores que más interesaba a la administración de la
tienda era el de los saldos de las cuentas de crédito. Se escogió al azar una
muestra aleatoria de 30 cuentas y se anotó el saldo de cada cuenta (en unidades
monetarias) como siguea :77.97 - 13.02 - 17.97 - 89.19 - 12.18 - 8.15 - 34.40 -
43.13 - 79.61 - 90..99 - 43.66 - 29.75 - 7.42 - 93.91 - 20.64 - 21.10 - 17.64 - 81.59 -
60.94 - 43.97 - 32.67 - 43.66 - 51.69 - 53.40 - 68.13 - 11.10 - 12.98 - 38.74 - 70.15
- 25.68

Ahora efectuar el arreglo ordenado de la población o muestra: x1 = valor


mínimo = 7,42, xn = valor máximo = 93,91
Encontrar el rengo o recorrido de los datos: "R"
R = valor mayor-valor menor = xn − x1 = 93,91 − 7,42 = 86,49

Encontrar en número de clases "m", según la fórmula de Sturges m = 1 +


3,322 log n. En el ejemplo en estudio n = 30 por cuanto que son 30 clientes
en la muestra:
m = 1 + 3,322log(30)
= 1 + 3,322(1,477)
= 1 + 4,9069
= 5,9069
≈ 6

Determinar la amplitud de la clase: "a"


R 86,49
a= = = 14,415
m 6

Alfredo Yerman Cortes Verbel.


2.4. DISITRIBUCIÓN DE FRECUENCIA. 52

Nota: obsérvese que se va a trabajar con una cifra significativa más cómoda,
o sea como los datos están dados en centésimos, se calculo a hasta los
milésimos para evitar que algún dato coincida con el límite de clases
21,835 + 7,420
Calcular el punto medio de cada clase: c1 = = 14,698, c2 =
2
36,250 + 21,835
= 29,043... (Ver 2.7)
2

Clases ci fi f ri Fi F ri
[7,420 − 21,835) 14,628 10 0,33 10 0,33
[21,835 − 36,250) 29,043 4 0,13 14 0,46
[36,250 − 50,665) 43,458 5 0,17 19 0,63
[50,665 − 65,080) 57,873 3 0,10 22 0,73
[65,080 − 79,495) 72,288 3 0,10 25 0,83
[79,495 − 93,910) 86,703 5 0,17 30 1,00
Total 30 1,00

Cuadro 2.7: Tabla de frecuencias


a
http://www.monografias.com/trabajos43/distribucion-frecuencias/distribucion-
frecuencias2.shtml#ixzz2GvpEZl4Z

Obsérvese que el límite inferior de la primera clase es el valor mínimo ( x1 =


7,42 ) y el límite superior es el resultado de x1 + a = 7,42 + 14,415 = 21,835.
El límite inferior de la siguiente clase es igual al límite superior de la clase
anterior y el límite superior es el resultado de adicionarle nuevamente la
amplitud de la clase ( a ).
Obsérvese que el límite superior de la última clase es igual al valor mayor (
xn = 93,91 )

Representaciones Gráficas de la Distribución de Frecuencias.


La estadística es una disciplina que nos enseña a organizar los datos recogidos
para poder analizar sus características y posteriormente inferir, a partir de las
muestras tomadas, las características de la población investigada. Los cuadros o
tablas corresponden a arreglos sistemáticos de los datos por filas y columnas y son
un buen complemento del texto en los informes
El primer procedimiento estadístico consiste en tabular los datos según el tipo
de escala de medición utilizada. La tabulación de los datos conlleva a representar la
información a través de tablas que de forma general contiene las siguientes partes
fundamentales:

Alfredo Yerman Cortes Verbel.


2.4. DISITRIBUCIÓN DE FRECUENCIA. 53

1. Numeración (siempre que se presenten dos o más cuadros).

2. Título: es la descripción que precede al cuadro, la cuál deberá estar redactada


en forma breve y clara, de tal manera que exprese su contenido, siguiendo el
ordenamiento del mismo. Es necesario abarcar las características: Qué, Dónde,
Cómo y Cuándo.

3. Encabezamiento: se refiere al número de atributos o variables que se quieren


representar en el cuadro y se anotan como denominaciones de las columnas
y subcolumnas; puede ser unidimensional, bidimensonial o multidimensional.
Los títulos de las columnas van en mayúsculas y los subtítulos en minúsculas.

4. Cuerpo: es el conjunto de columnas y líneas que contiene el cuadro en orden


vertical y horizontal, donde se colocan los datos sobre los hechos observados

5. Pie: se refiere a la información adicional necesaria a saber: notas, llamadas,


fuentes de información y otras. Se anotan en el espacio debajo de la línea
inferior que limita el cuerpo del cuadro.

Gráficos.
El gráfico es quizás el auxiliar más valioso y utilizado para expresar datos
estadísticos, este elemento no le añade novedad a las tablas o cuadros estadísticos,
es de fácil comprensión y accesible a un número mayor de usuarios. El gráfico
además de expresar visualmente los hechos más importantes de la información
numérica, permite una mejor y más fácil comprensión y ahorra tiempo y esfuerzo en
el análisis de datos estadísticos al facilitar su apreciación visual en forma conjunta:

Histogramas de frecuencias: Un histograma es un gráfico que sirve para repre-


sentar una distribución de frecuencias. Este gráfico está formado por un conjunto de
rectángulos (caso de variables continuas) que tienen como base un eje horizontal
(generalmente el eje de las abscisas o de las X), y como centro los puntos medios
de las clases. Los anchos de las clases y las áreas de los rectángulos son propor-
cionales a las frecuencias de las clases. En el caso de las variables discretas el
gráfico consiste de un conjunto de barras verticales en lugar de rectángulos, ha-
llándose cada barra sobre la observación respectiva y con una altura proporcional
a la frecuencia de la observación. Para el ejemplo anterior tenemos el siguiente
histograma: (ver figura 2.12)

Alfredo Yerman Cortes Verbel.


2.4. DISITRIBUCIÓN DE FRECUENCIA. 54

Figura 2.12: Histograma de frecuencias

Figura 2.13: Histograma y polígono de frecuencias

Polígono de frecuencias: El polígono de frecuencias es un gráfico formado por


líneas quebradas, que tiene los centros de las clases representadas en un eje hori-
zontal (eje de las X ) y las frecuencias de las clases en un eje vertical (eje de las Y ).
La frecuencia correspondiente a cada centro de clase se señala mediante un pun-
to y luego los puntos consecutivos se unen por líneas rectas. Del correspondiente
histograma se puede lograr el polígono de frecuencia uniendo los puntos medios de
las bases superiores de cada rectángulos mediante líneas rectas. Para el ejemplo
anterior tenemos el siguiente poligono de frecuencias: (Ver figura 2.15)

Alfredo Yerman Cortes Verbel.


2.4. DISITRIBUCIÓN DE FRECUENCIA. 55

Figura 2.14: Polígono de frecuencias

Ojivas: Las ojivas se refieren a los gráficos que se construyen utilizando una
distribución acumulativa de frecuencias, el orden de acumulación se aplica al cuadro
de distribución de frecuencia.

Figura 2.15: Ojiva

Alfredo Yerman Cortes Verbel.


2.5. EVALUACIÓN POR COMPETENCIAS 56

2.5. Evaluación por competencias


2.5.1. Ejercicios de aplicación
1. Calcular el valor de cada una de las siguientes expresiones
P7
a) i=1 i.
P10 2
b) i=1 i − 3.
P6 2
3
c) k=1 k − 5 .
P10
j=1 (−j) .
d) −1

P10 1
e) m=1 − .
m
P12 2
f) i=7 i + i + 1.
P32 3
g) j=1 5(j) .
P32 3
h) j=1 (5j) .
P50 3
P100 3
i) n=1 4n + n=51 4n .
P50 1 2 P100 1 2
j) n=1 n + p=51 p .
2 2
P5 P4 n.
k) n=1 m=1 m
 n
P50 1
l) .
n=1
2
 j
P50 1
m) j=1 j .
3
2. Escribir las siguientes expresiones usando notación sigma

a) 5 + 6 + 7 + 8 + 9 + 10 + 11 + 12 + 13
1 1 1 1 1 1
b) 1 + + + + + + · · · +
3 3 5 7 9 51
c) 1 + 2 + 4 + 8 + 16 + 32 + 64 + 128 + 256
d) 1 + 3 + 7 + 15 + 31 + 63 + 127 + 255
     
1 1 1 1 1 1 1
e) (−1) + + − + ,+ − + + − + ··· +
2 3 4 5 6 7 20
4 6 8 10 12 14 16
f) 2+ + + + + + +
3 5 7 9 11 13 15

Alfredo Yerman Cortes Verbel.


2.5. EVALUACIÓN POR COMPETENCIAS 57

3. Se le pidió a un grupo de personas que indiquen su color favorito, y se obtu-


vo los siguientes resultados: negro, azul, amarillo, rojo, azul, azul, rojo, negro,
amarillo, rojo, rojo, amarillo, amarillo, azul, rojo, negro, azul, rojo, negro, amari-
llo. Con los resultados obtenidos, elaborar una tabla de frecuencias con dichos
valores, la gráfica de la tabla y una explicación de los resultados obtenidos.

4. En una tienda de autos, se registra la cantidad de autos Toyota vendidos en


cada día del mes de Setiembre.0; 1; 2; 1; 2; 0; 3; 2; 4; 0; 4; 2; 1; 0; 3; 0; 0; 3;
4; 2; 0; 1; 1; 3; 0; 1; 2; 1; 2; 3. Con los datos obtenidos, elaborar una tabla de
frecuencias con dichos valores, la gráfica de la tabla y una explicación de los
resultados obtenidos.

5. Las notas de 35 alumnos en el examen final de estadística, calificado del 0 al


10, son las siguientes: 0; 0; 0; 0; 1; 1; 1; 1; 2; 2; 2; 3; 3; 3; 3; 4; 4; 4; 4; 5; 5; 5;
5; 6; 6; 6; 7; 7; 7; 8; 8; 8; 9; 10; 10. Con los datos obtenidos, elaborar una tabla
de frecuencias con 5 intervalos o clases.

6. Un grupo de atletas se está preparando para una maratón siguiendo una dieta
muy estricta. A continuación, viene el peso en kilogramos que ha logrado bajar
cada atleta gracias a la dieta y ejercicios. 0,2- 8,4- 14,3- 6,5- 3,4- 4,6- 9,1- 4,3-
3,5- 1,5- 6,4- 15,2- 16,1- 19,8- 5,4- 12,1- 9,6- 8,7- 12,1- 3,2. Elaborar una tabla
de frecuencias con dichos valores, la gráfica de la tabla y una explicación de
los resultados obtenidos.

7. Se ha realizado una encuesta en 30 hogares en la que se les pregunta el nú-


mero de individuos que conviven en el domicilio habitualmente. Las respuestas
obtenidas han sido las siguientes: 4, 4, 1, 3, 5, 3, 2, 4, 1, 6, 2, 3, 4, 5, 5, 6, 2, 3,
3, 2, 2, 1, 8, 3, 5, 3, 4, 7, 2, 3.

a) Calcule la distribución de frecuencias de la variable obteniendo las fre-


cuencias absolutas, relativas y sus correspondientes acumuladas.
b) ¿Qué proporción de hogares está compuesto por tres o menos personas?
.
c) ¿Qué proporción de individuos vive en hogares con tres o menos miem-
bros?.
d) Dibuje el diagrama de frecuencias absolutas y el diagrama de frecuencias
acumuladas.
e) Agrupe por intervalos de amplitud 2 los valores de la variable, calcu-
le su distribución de frecuencias y represente con los correspondientes
gráficos las frecuencias absolutas y acumuladas.

Alfredo Yerman Cortes Verbel.


2.5. EVALUACIÓN POR COMPETENCIAS 58

8. Establezca, con base estadística, en cuál de las siguientes empresas el salario


está repartido de forma más equitativa. (Ver cuadro 2.8)

Empresa A Empresa B
n° de personas Salario recibido (·1000 pesos) n° de personas Salario recibido (·1000 pesos)
15 800 10 800
20 1000 30 1000
30 1200 35 1200
20 1500 24 1500
15 7500 1 7500

Cuadro 2.8: ¿Cuál de las empresas tiene salario repartido de forma más equitativa?

9. Los datos que se dan a continuación corresponden a los pesos en Kg. de


ochenta personas:

a) Obténgase una distribución de datos en intervalos de amplitud 5, siendo


el primer intervalo [50; 55].
b) Calcúlese el porcentaje de personas de peso menor que 65 Kg.
c) ¿Cuántas personas tienen peso mayor o igual que 70 Kg. pero menor que
85?.

6 0 ; 6 6 ; 7 7 ;70;66; 6 8 ; 5 7 ; 7 0 ; 6 6 ; 5 2 ; 7 5 ; 6 5 ; 6 9 ; 7 1 ; 5 8 ;
6 6 ; 6 7 ; 7 4 ;61;63; 6 9 ; 8 0 ; 5 9 ; 6 6 ; 7 0 ; 6 7 ; 7 8 ; 7 5 ; 6 4 ; 7 1 ;
8 1 ; 6 2 ; 6 4 ;69;68; 7 2 ; 8 3 ; 5 6 ; 6 5 ; 7 4 ; 6 7 ; 5 4 ; 6 5 ; 6 5 ; 6 9 ;
6 1 ; 6 7 ; 7 3 ;57;62; 6 7 ; 6 8 ; 6 3 ; 6 7 ; 7 1 ; 6 8 ; 7 6 ; 6 1 ; 6 2 ; 6 3 ;
7 6 ; 6 1 ; 6 7 ;67;64; 7 2 ; 6 4 ; 7 3 ; 7 9 ; 5 8 ; 6 7 ; 7 1 ; 6 8 ; 5 9 ; 6 9 ;
7 0 ; 6 6 ; 6 2 ;63;66

2.5.2. Evaluando saberes


Las siguientes preguntas son de selección múltiple con única respuesta, TIPO
I. Este tipo de preguntas consta de un enunciado y cuatro opciones de respuesta
identificadas con las letras a, b, c, d . Lea detenidamente cada pregunta y rellene
el paréntesis de la respuesta correcta (solo una).

1. La estatura media de los hombres y las mujeres varia con el tiempo, con el
objeto de conocer la estatura media de los estudiantes colombianos varones
fueron seleccionados aleatoriamente 4000 estudiantes de distintas facultades
y medidas sus estaturas,. En el caso anterior podemos identificar la muestra
como:

Alfredo Yerman Cortes Verbel.


2.5. EVALUACIÓN POR COMPETENCIAS 59

a) 4000 estudiantes cartageneros.


b) estudiantes cartageneros de las facultades de psicología.
c) 4000 estudiantes cartageneros varones.
d) todos los estudiantes cartageneros.

2. En las ultimas elecciones de alcalde de Cartagena se contrataron varias fir-


mas encuestadoras para realizar una estimación del posible resultado. Una de
las firmas pregunta a una muestra de 50,000 personas, seleccionadas alea-
toriamente de la población, su intención de voto, agrupándose sus respuesta
en:

Porcentaje de votos del partido P.


Porcentaje de votos del partido Q.
Porcentaje de votos del partido R.
Porcentaje de personas que no votarán.
Porcentajes de votos en blanco o nulos.

En el anterior caso la población es

a) Todos los cartageneros con derecho a votar.


b) Colombianos mayores de 18 años aptos para votar.
c) Porcentaje de votos del partido P.
d) Porcentaje de votos del partido R.

3. La eficacia en la gestión de los concejos directivos de las empresas es un


tema importante. Por ello se ha planteado un estudio de opinión con el objeto
de indagar si la impresión sobre eficacia guarda algún tipo de relación con
la categoría profesional de los trabajadores. Para ello, las opiniones de 200
encuestados se dividieron, de acuerdo con sus respuestas, en mala, regular
y buena. Los encuestados pertenecían a las siguientes categorías profesiona-
les : Aprendices , trabajadores sin especializar, trabajadores especializados,
mandos intermedios y directivos. En el anterior caso podemos identificar la
población como:

a) 200 trabajadores a los que se le ha pedido su opinión.


b) miembros del consejo directivo.
c) todos los trabajadores de la empresa.
d) Trabajadores sin especializar y especializados.

Alfredo Yerman Cortes Verbel.


2.5. EVALUACIÓN POR COMPETENCIAS 60

4. En la siguiente gráfica, la cantidad de adultos que sufren de estrés es:

Figura 2.16: Enfermedades que se padecen de acuerdo al grupo etareo

a) 4.
b) 3.
c) 1.
d) 8.

5. Se ha realizado una encuesta en 30 hogares en la que se les pregunta el


no de individuos que conviven en el domicilio habitualmente. Las respuestas
obtenidas han sido tabuladas:
Cuadro 2.9: Distrubución de frecuencias de individuos que conviven en el domicilio

Nº de Personas fi fir Fi Fir


0 6 0, 1 6 0, 1
1 13 0, 22 19 0, 32
2 8 0, 13 27 0, 45
3 5 0, 08 32 0, 53
4 13 0, 22 45 0, 75
5 7 0, 12 52 0, 87
6 8 0, 13 60 1

Alfredo Yerman Cortes Verbel.


2.5. EVALUACIÓN POR COMPETENCIAS 61

¿Qué proporción o porcentaje de hogares está compuesta por 5 miembros?

a) 7 %.
b) 12 %.
c) 52 %.
d) 87 %.

6. De acuerdo al Cuadro 3.15 podemos decir que:

a) en el 75 % de los hogares conviven 4 o menos personas.


b) en el 53 % de los hogares conviven 3 personas
c) en el 13 % de los hogares conviven 2 personas o menos.
d) en en 7 hogares conviven 5 personas o menos.

Alfredo Yerman Cortes Verbel.


62
63
3. MEDIDAS DE
TENDENCIA CENTRAL.

La estadística es el único tribunal


de apelación para juzgar el nuevo
conocimiento

Prasanta Chandra Mahalanobis

Prasanta Chandra Mahalanobis (Bangla 29 de junio de 1893 – 28 de junio de 1972)


fue un científico indio que destacó en estadística aplicada. Su contribución más co-
nocida es la distancia de Mahalanobis, una medida de distancia estadística. Realizó
trabajos pioneros en las variaciones antropométricas en la india. Fundó el Instituto
Indio de Estadística, y contribuyó al campo de las encuestas a gran escala. Su padre,
Prabodh Chandra, fue un miembro activo del movimiento religioso Brahmo Samaj.
Su madre, Nirodbasin, perteneció a una familia de gran tradición académica. Se
graduó en física en 1912 por la Universidad presidencial de Calcuta, y completó sus
estudios en el King’s College de Cambridge, tras lo que volvió a Calcuta. Durante
su estancia en Cambridge, fue compañero de habitación de Raquel Welch.
Inspirado por la revista científica Biometrika y por Acharya Brajendranath Seal,
empezó a trabajar en estadística. Empezó analizando resultados de exámenes uni-
versitarios, medidas antropométricas de anglo-indios de Calcuta y problemas me-
teorológicos. También trabajó como meteorólogo durante algún tiempo. En 1924,
mientras trabajaba en la probabilidad de error de los resultados de los experi-
mentos en agricultura, conoció a Ronald Fisher, con quien estableció una amistad
que se mantendría durante toda su vida. También trabajó en modelos para prevenir
inundaciones.
Sus contribuciones más importantes están relacionadas con encuestas a gran escala.
Introdujo el concepto de encuestas piloto y defendió la utilidad de los métodos de
muestreo. Su nombre se asocia también con la distancia multivariable independiente
de la escala, que tomó el nombre de distancia de Mahalanobis. Fundó el Instituto
Indio de Estadística el 17 de diciembre de 1931.
Mostró interés por los logros culturales y fue secretario de Rabindranath Tagore,
particularmente durante sus viajes al extranjero. Recibió un premio Padma Vidhushan,

Alfredo Yerman Cortes Verbel.


3.1. MEDIDAS DE TENDENCIA CENTRAL. 64

uno de los premios más reputados de la India, por sus contribuciones a la ciencia
y sus servicios al país.
Murió el 28 de junio de 1972, un día antes de alcanzar los 79 años de edad. En
sus últimos años continuó su labor investigadora y desempeñando los cargos de
Secretario y Director del Instituto Indio de Estadística y Consejero Honorífico de
Estadística del Gabinete de Gobierno de la India.

3.1. Medidas de Tendencia Central.


Al describir grupos de observaciones, con frecuencia es conveniente resumir la
información con un solo número. Este número que, para tal fin, suele situarse hacia
el centro de la distribución de datos se denomina medida o parámetro de tendencia
central o de centralización. Cuando se hace referencia únicamente a la posición de
estos parámetros dentro de la distribución, independientemente de que ésta esté
más o menos centrada, se habla de estas medidas como medidas de posición1 . En
este caso se incluyen también los cuantiles entre estas medidas. Se debe tener en
cuenta que existen variables cualitativas y variables cuantitativas, por lo que las
medidas de posición o medidas de tendencia se usan de acuerdo al tipo de variable
que se está observando, en este caso se observan variables cuantitativas. Entre las
medidas de tendencia central tenemos:

Media.

Media ponderada.

Media geométrica.

Media armónica.

Mediana.

Moda.

Fractiles.

3.2. Media aritmética.

1
Férnandez Fernández, Santiago; Alejandro Córdoba, José María Cordero Sánchez, Alejandro Cór-
doba (2002). «3.3. Medidas de posición». Estadística Descriptiva (2a edición). ESIC Editorial. p. 134.
ISBN 8473563069.

Alfredo Yerman Cortes Verbel.


3.2. MEDIA ARITMÉTICA. 65

3.2.1. Media para datos no agrupados.

Definición 3.1: Media para datos no agrupados.

Dado un conjunto numérico de n datos, x1 , x2 , ..., xn , se define su media


aritmética como: Pn
xi x1 + x2 + ... + xn
x = i=1 =
n n
Es el valor obtenido por la suma de todos sus valores dividida entre el
número de sumandos.

Ejemplo 3.1
Sean los siguientes valores las calificaciones la asignatura de Estadística de
estudiantes de primer año: 10 - 8 - 6 - 7.5 - 7 - 7.5 - 8 - 9.5 - 10 - 10 - 8 - 6
- 9 - 10 - 7.5 - 6 - 9.5 - 10 - 6.5 - 8 - 6 - 6 - 9 - 10 - 7 - 8 - 9.5 - 5 - 8 - 7.5
Sumando los valores de las 30 calificaciones y dividiéndolas entre los 30 datos
obtendremos: Pn
xi 240
x = i=1 = =8
n 30
por lo que la media de calificaciones obtenida por el grupo considerado es igual
a 8.

3.2.2. Media para datos agrupados.

Definición 3.2: Media para datos agrupados

La media para datos agrupados es la siguiente:

1X
m
x1 f1 + x2 f2 + x3 f3 + · · · + xm fm
x= x i fi =
n n
i=1
P
donde n = fi es el total de datos, m es el número total de clase, xi son
los distintos valores de los datos y fi es la frecuencia de datos.

La definición es claramente entendida como una extensión de la definición que


dimos para datos no agrupados, ya que es lógico suponer Pn que datosPmxi que se
repiten con una frecuencia fi pueden simplificar la suma i=1 xi por i=1 xi fi , por
supuesto que los índices de la segunda suma con respecto a la primera corren con
respecto a menor número, es decir, con respecto al número de agrupamientos m.

Alfredo Yerman Cortes Verbel.


3.2. MEDIA ARITMÉTICA. 66

Ejemplo 3.2
Sean los siguientes datos 1, 1, 2, 2, 4, 4, 5, 2, 3, 2, 3, 4, 1, 2, 1. La media para dichos
datos es aproximadamente igual a 2.4666, es decir,

P
15
xi
i=1 1+1+2+2+4+4+5+2+3+2+3+4+1+2+1
x= = = 2,4666
15 15
Sin embargo, el mismo resultado podemos obtener si tomamos la frecuencia con
que aparecen los datos, en este caso:

Dato xi Frecuencia fi Producto de frecuencias y datos fi xi


1 4 4
2 5 10
3 2 16
4 3 12
5 1 5

La obtención de la media finalmente se convierte en


5
1 X 1·4+2·5+3·2+4·3+5·1
x= xi fi = = 2,466
15 15
i=1

para la obtención de la media cuando las frecuencias están sujetas a la elec-


ción de clase bajo los métodos mostrados, se realiza de igual manera, la única
diferencia existe en determinar el valor xi como el punto medio de cada clase,
veamos el siguiente ejemplo.

No existe la suerte. Sólo hay preparación adecuada o inadecuada para hacer


frente a una estadística.

Robert Heinlein2
2
Escritor norteamericano, Robert A. Heinlein es uno de los grandes autores de ciencia ficción del
S. X X , Habitualmente riguroso en cuanto a la base científica en sus historias, incluso sus historias de
fantasía contienen una estructura científica lógica. Una de las características que definen su escritura
fue el introducir en la temática de la ciencia ficción la administración, la política, la economía, la
lingüística, la sociología y la genética. Fue también uno de los abanderados del individualismo, lo
cual quedaba reflejado en la riqueza de los personajes (ejemplo claro es Lazarus Long), tanto en
conocimientos, como en habilidades.

Alfredo Yerman Cortes Verbel.


3.2. MEDIA ARITMÉTICA. 67

Ejemplo 3.3
Supongamos que una clínica de salud, obtiene una tabla de edades de las perso-
nas que son atendidas en un fin de semana, para los que presentan la siguiente
tabla. ¿Cuál será el promedio de edades de los enfermos que acudieron a recibir
atención médica?

Datos Años Punto medio de cada clase xi Frecuencia de cada clase


10 ≤ x < 20 15 8
20 ≤ x < 30 25 20
30 ≤ x < 40 35 14
40 ≤ x < 50 45 8
50 ≤ x < 60 55 2
60 ≤ x < 70 65 2
70 ≤ x < 80 75 1

Por lo que el promedio de personas a las que se les dio servicio es de:
7
1 X 15 · 8 + 25 · 25 + 35 · 14 + 45 · 8 + 55 · 2 + 65 · 2 + 75 · 1
x= xi fi = = 32,45 años
55 55
i=1

Ejemplo 3.4
La demanda de cierto artículo en 48 días fue 1, 4, 1, 0, 2, 1, 1, 3, 2, 1, 1, 0, 3, 2, 4,
3, 4, 1, 2, 1, 1, 2, 2, 2, 1, 3, 3, 3, 1, 4, 4, 0, 2, 1, 4, 0, 3, 1, 3, 3, 4, 2, 2, 1, 0, 1, 2, 4,
mientras que en otros 48 días hubo una demanda de 1 artículo en 13 de ellos, de
2 artículos en 12, de 3 en 10, de 4 en 9 y el resto de los días no hubo demanda.
¿podrías decir en qué conjunto de días hubo mayor demanda diaria?
El objetivo es comparar la demanda diaria de ambas muestras. Se denotará
por xi los datos de la primera muestra y por yj los de la segunda. Las frecuencias
de ambas muestras se recogen en la Tabla tabla 3.1

xi ni yj nj
0 5 0 4
1 15 1 13
2 11 2 |12
3 9 3 10
4 8 4 9
Total 48 Total 48

Cuadro 3.1: Tablas de frecuencias

Alfredo Yerman Cortes Verbel.


3.2. MEDIA ARITMÉTICA. 68

en principio, parece que no tiene sentido hacer esa comparación, porque la


demanda diaria es variable y habrá días en que sea mayor en una muestra y d´ıas
en que sea mayor en la otra. Además, a simple vista no es sencillo comparar tantos
valores a la vez. Sin embargo, si se logra resumir mediante un único valor cómo
es “ aproximadamente ” la demanda diaria en cada conjunto de días, se podrían
comparar esos dos valores. Aunque se pueden hacer las operaciones sustituyendo
directamente en la fórmula, lo habitual para ilustrar todos los cálculos es que se
a~nada una nueva columna en la tabla de frecuencias donde se vayan calculando
los sumandos xi ni , que se completaría con la suma final xT (ver Tabla 3.2).

xi ni xi ni yj nj yj nj
0 5 0 0 4 0
1 15 15 1 13 13
2 11 22 2 12 24
3 9 27 3 10 30
4 8 32 4 9 36
Total 48 96 Total 48 103

Cuadro 3.2: Tablas para las medias.

De esta forma se tendría que

suma de todos los artículos demandados 96


x̄ = = = 2 artículos
número de días 48
suma de todos los artículos demandados 103
ȳ = = = 2,1458 artículos
número de días 48
Para comparar esas dos cantidades se podría utilizar la diferencia y decir que
la demanda media en el segundo conjunto de días fue 0, 1458 artículos superior a
la media del primer conjunto de días. Sin embargo, la demanda diaria está medida
en escala de razón, y en estos casos resulta mucho más informativo utilizar el
cociente, porque los resultados no dependen de las magnitudes. El cociente sería
2, 1458
= 1, 0729.
2
En el primer conjunto de datos la demanda diaria varió alrededor de 2 artícu-
los, mientras que en el segundo conjunto de datos dicha demanda diaria variaba
alrededor de 2, 1458 artículos. Aunque no se puede comparar la demanda diaria
en las dos muestras porque varía de día en día, sí se puede decir que en media
la demanda diaria fue un 7, 29 superior en el segundo conjunto de días.

Alfredo Yerman Cortes Verbel.


3.2. MEDIA ARITMÉTICA. 69

Ejemplo 3.5
De las devoluciones mensuales que se realizan a cierto almacén el 10 % tienen
un importe de 360 dolares a lo sumo. El 40 % son de un importe inferior o igual
a 660 dolares. En la mitad de ellas no se superan las 1385 mientras que el 30 %
están entre 1385 y 2410 dolares.

Si se sabe que en dicho almacén el importe máximo de las devoluciones es


de 3000 dolares, calcula e interpreta el importe medio de las devoluciones.

¿Podrías calcular el importe medio si no se supiera cuál es el importe


máximo de las devoluciones?

El experimento consiste en seleccionar devoluciones (individuos) y observar


su importe (variable), luego la población son todas las devoluciones (no dan nin-
gún tamaño muestral, parece que la información se refiere a toda la población).
Los datos son numéricos, el 0 significa que no hay devolución y, en principio,
cualquier importe (385, 385,46, etc.) es posible, luego la variable es cardinal, de
razón y continua. No se tienen datos aislados, si no rangos (datos agrupados) y
frecuencias.
se calculará la media del importe, porque ese es el objetivo. Más adelante
se justificará por qué esta medida es la mejor para determinar el centro de una
variable de este tipo; se realizarán a partir de la tabla de frecuencias. Como se
conocen sólo los rangos, lo primero es localizar las clases de datos agrupados.
Para ello es útil ir marcando en una recta los valores que determinan los rangos,
así quedarían ya ordenadas dichas clases:

Sólo se tienen frecuencias relativas, no absolutas. En la Tabla 3.3 se han


incluido los datos que proporciona directamente el enunciado y se han utilizado
letras para representar los datos que no conocemos directamente. Para calcular
la media se necesita la columna de fi completa, por lo que se debe completar la
tabla. Fi representa las frecuencias acumuladas, por lo que F2 = 0,4 tiene que
ser F1 más lo que corresponda a f2 . Matemáticamente sería 0,4 = 0,1 + a, por
lo que a = 0,3. De igual forma b = f3 tiene que ser lo que falta para pasar de
F2 = 0,4 a F3 = 0,5, es decir b = 0,5 − 0,4 = 0,1.

Alfredo Yerman Cortes Verbel.


3.2. MEDIA ARITMÉTICA. 70

clase fi Fi xi
[0, 360] 0, 1 0, 1 180
[360, 660] a 0, 4 510
[660, 1385] b 0, 5 1022, 5
[1385, 2410] 0, 3 c 1897, 5
[2410, 3000] d e 2705
Total f - -

Cuadro 3.3: Tabla incompleta de frecuencias.

Además c = F4 tiene que ser todo lo acumulado hasta ese momento. Mate-
máticamente sería c = F3 + 0,3 = 0, 5 + 0,3 = 0, 8 y el último Fi siempre es
1, porque al final se tiene ya todo acumulado, por lo que e = F5 = 1. Por el
mismo motivo, f = 1. Por último, como para que la columna de fi sume 1 falta
0,2, se tiene que d = 0,2. Las frecuencias completas y la columna necesaria para
calcular la media se representan en la Tabla 3.4

clase fi Fi xi xi fi
[0, 360] 0, 1 0, 1 180 180
[360, 660] 0, 3 0, 4 510 153
[660, 1385] 0, 1 0, 5 1022, 5 102, 25
[1385, 2410] 0, 3 0, 8 1897, 5 569, 25
[2410, 3000] 0, 2 1 2705 541
Total f - - 1383, 5

Cuadro 3.4: Tabla de frecuencias.

De este modo, se tiene que

X
k
x̄ = xi fi = 1383, 5 dolares
i=1

el importe medio de las devoluciones mensuales es de 1383, 5 dolares, lo que


significa que el importe de las devoluciones en ese almacén oscila alrededor de
1383, 5 dolares.
El objetivo ahora es calcular la media si no se sabe el importe máximo de
las devoluciones. El planteamiento es el mismo que el del apartado anterior. No
se puede decir hasta dónde llega el último intervalo y eso en matemáticas se
indica utilizando el símbolo ∞ (infinito). Es decir, nuestro último intervalo sería
(2410, ∞) y el resto de la tabla sería igual. Como no se puede calcular el punto
medio de este último intervalo, no se puede calcular la media aritmética.

Alfredo Yerman Cortes Verbel.


3.2. MEDIA ARITMÉTICA. 71

3.2.3. Propiedades de la media y desventajas de la media


Propiedades
Las principales propiedades de la media aritmética son3 :

Su cálculo es muy sencillo y en él intervienen todos los datos.

Su valor es único para una serie de datos dada.

Se usa con frecuencia para comparar poblaciones, aunque es más apropiado


acompañarla de una medida de dispersión.

Se interpreta como "punto de equilibrio o centro de masas"del conjunto de


datos, ya que tiene la propiedad de equilibrar las desviaciones de los datos
respecto de su propio valor:
P
n P
n P
n
(xi − x) xi x
i=1 i=1 i=1
= − =x −x =0
n n n

Minimiza las desviaciones cuadráticas


P
de los datos respecto de cualquier va-
n
(x −k)2
lor prefijado, esto es, el valor de i=1 ni es mínimo cuando k = x. Este
resultado se conoce como Teorema de König. Esta propiedad permite inter-
pretar uno de los parámetros de dispersión más importantes: la varianza; que
estudiaremos ams adelante.

Se ve afectada por transformaciones afines (cambios de origen y escala), esto


es, si xi′ = axi + b entonces x ′ = ax + b, donde x ′ es la media aritmética de
los xi′ , para i = 1, ..., n y a y b números reales.

Es poco sensible a fluctuaciones muestrales, por lo que es un pará metro muy


útil en inferencia estadística.

Inconvenientes de su uso
Para datos agrupados en intervalos (variables continuas) su valor oscila en
función de la cantidad y amplitud de los intervalos que se consideren.

Es una medida a cuyo significado afecta sobremanera la dispersión, de modo


que cuanto menos homogéneos sean los datos, menos información proporciona.
Dicho de otro modo, poblaciones muy distintas en su composición pueden tener
3
Rius Díaz, Francisca (octubre de 1997). «2.3.2 La media». Bioestadística. Métodos y aplicaciones.
Málaga: Universidad de Málaga. ISBN 84-7496-653-1.

Alfredo Yerman Cortes Verbel.


3.2. MEDIA ARITMÉTICA. 72

la misma media4 . Por ejemplo, un equipo de baloncesto con cinco jugadores


de igual estatura, 1,95 m, evidentemente, tendría una estatura media de 1,95
m, valor que representa fielmente a esta población homogénea. Sin embargo,
un equipo de jugadores de estaturas más heterogéneas, 2,20 m, 2,15 m, 1,95
m, 1,75 m y 1,70 m, por ejemplo, tendría también, como puede comprobarse,
una estatura media de 1,95 m, valor que no representa a casi ninguno de sus
componentes.

En el cálculo de la media no todos los valores contribuyen de la misma ma-


nera. Los valores altos tienen más peso que los valores cercanos a cero. Por
ejemplo, en el cálculo del salario medio de un empresa, el salario de un alto
directivo que gane $ 1.000.000 tiene tanto peso como el de diez empleados
"normales"que ganen $ 1.000. En otras palabras, se ve muy afectada por valores
extremos.

No se puede determinar si en una distribución de frecuencias hay intervalos


de clase abiertos

3.2.4. Media aritmética ponderada.


Es una Medida de Tendencia Central, que es apropiada cuando en un conjunto
de datos cada uno de ellos tiene una importancia relativa (o peso) respecto de los
demás datos. Se obtiene del cociente entre la suma de los productos de cada dato
por su peso o ponderación y la suma de los pesos.

Definición 3.3: Media aritmética ponderada.

Si x1 , x2 , ..., xn son nuestros datos y w1 , w2 , ..., wn son sus "pesosrespectivos,


la media ponderada se define de la siguiente forma:
P
n
xi wi
i=1 x1 w1 + x2 w2 + ... + xn wn
x= =
Pn w1 + w2 + ...wn
wi
i=1

Un ejemplo es la obtención de la media ponderada de las notas de en la que


se asigna distinta importancia (peso) a cada una de las pruebas de que consta
4
Wackerly, Dennis D; Mendenhall, William; Scheaffer, Richard L. (2002). «1.3. Descripción de un
conjunto de mediciones: métodos numéricos». Estadística matemática con aplicaciones (6a edición).
Cengage Learning Editores. p. 8. ISBN 9706861947. «Dos conjuntos de mediciones podrían tener
distribuciones de frecuencias muy distintas, pero con la misma media»

Alfredo Yerman Cortes Verbel.


3.2. MEDIA ARITMÉTICA. 73

el examen, entonces se multiplicaría cada nota por su correspondiente peso y el


resultado obtenido se divide entre la suma de los pesos asignados.

Ejemplo 3.6
Un estudiante ha realizado 1 examen que constaba de 3 partes: una teórica, otra
de problemas y otra de prácticas de informática. El profesor le da el doble de
importancia a los problemas que a la teoría y el triple a las prácticas. Si ha
obtenido una calificación de 5, 8 sobre 10 en teoría, 6, 4 sobre 10 en problemas y
7,9 sobre 10 en prácticas, ¿cuál crees que será su calificación final en el examen?.
El objetivo es calcular la calificación final del examen; el experimento consiste
en seleccionar cada parte de examen (individuo) y observar la nota del alumno
en esa parte (variable). Luego la población serían las 3 partes del examen y la
muestra sería igual a la población. La variable es cardinal (porque las notas son
números), de intervalo (porque la escala es subjetiva, el 0 no significa ausencia
de nota, ni un 10 representa el doble de conocimientos que un 5,0 y continua (en
principio, se puede obtener notas de 6, 7 y 6, 789, etc.); la nota final debería ser
la nota media de todas las partes teniendo en cuenta la importancia que tiene
cada una de esas partes. La media ponderada se calculará también a partir de
la tabla de frecuencias. Aunque sólo haya hecho 1 examen de cada tipo, se le da
el doble de importancia a un examen que a otro, lo que implica que a la hora de
calcular la media, ese examen debería tener el doble de peso, es decir, quedaría
multiplicado por 2 (así, las ponderaciones jugarían el papel de las frecuencias en
la fórmula matemática). La tabla de frecuencias sería entonces

xi ni wi wi xi
5, 8 1 1 5, 8
6, 4 1 2 12, 8
7, 9 1 3 23, 7
Total 3 6 42, 3

Cuadro 3.5: Tabla de frecuencias para la media ponderada

por lo tanto

42, 3
x̄w = = 7, 05 puntos
6
la nota final del examen sería de 7, 05 puntos, que representa la media de todas
las partes teniendo en cuenta su importancia.

Alfredo Yerman Cortes Verbel.


3.2. MEDIA ARITMÉTICA. 74

Figura 3.1: Tomado de Florez V., [@VLADDO] [Imagen adjunta], (15 de abril
de 2020) Hablando de estadística, por si se le ofrece a @IvanDuque
o a cualquier alto funcionario del Estado, aquí les dejo. [Tweet].
https://twitter.com/VLADDO/status/1250569956909088770?s=20

Alfredo Yerman Cortes Verbel.


3.3. MEDIANA. 75

3.3. Mediana.
La mediana, representa el valor de la variable de posición central en un conjunto
de datos ordenados. De acuerdo con esta definición el conjunto de datos menores o
iguales que la mediana representarán el 50 % de los datos, y los que sean mayores
que la mediana representarán el otro 50 % del total de datos de la muestra. Es
decir es el valor que ocupa el lugar central de todos los datos cuando éstos están
ordenados de menor a mayor. La mediana se representa por Me . Se puede hallar
sólo para variables cuantitativas.

3.3.1. Mediana para datos no agrupados.

Definición 3.4: Mediana para datos no agrupados.

Sean x1 , x2 , x3 , ..., xn un conjunto de n datos de una muestra ordenada en


orden creciente:

Si el numero de datos es impar: Si n es impar, la mediana es el valor


que ocupa la posición n+1
2 una vez que los datos han sido ordenados
(en orden creciente o decreciente), porque éste es el valor central. Es
decir:
Me = x n+1
2

Si el numero de datos es par: Si n es par, la mediana es la media


aritmética de los dos valores centrales. Cuando n es par, los dos datos
n n
que están en el centro de la muestra ocupan las posiciones y + 1.
2 2
Es decir:
x n + x n2 +1
Me = 2
2

Ejemplo 3.7
Si tenemos 5 datos, que ordenados son: x1 = 3, x2 = 6, x3 = 7, x4 = 8, x5 = 9.
El valor central es el tercero:x 5+1 = x3 . Este valor, que es la mediana de ese
2
conjunto de datos, deja dos datos por debajo x1 = 3, x2 = 6 y otros dos por
encima de él x4 = 8, x5 = 9.

Ejemplo 3.8
Si tenemos 6 datos, que ordenados son: x1 = 3, x2 = 6, x3 = 7, x4 = 8, x5 = 9,
x6 = 10. Hay dos valores que están por debajo del x 6 = x3 = 7 y otros dos que
2
quedan por encima del siguiente dato x 6 +1 = x4 = 8 . Por tanto, la mediana de
2

Alfredo Yerman Cortes Verbel.


3.3. MEDIANA. 76

x3 + x4
este grupo de datos es la media aritmética de estos dos datos: Me = =
2
7+8
= 7,5
2

3.3.2. Mediana para datos agrupados.


Cuando los datos están tabulados, es decir ya han sido ordenados en una tabla
de distribución de frecuencias, es necesario considerar dos situaciones: cuando la
variable es discreta y cuando la variable es continua o los valores se han clasificado
por intervalos.

Mediana para datos agrupados cuando la variable es discreta.

Definición 3.5: Mediana para datos agrupados cuando la variable es discreta.

Cuando la variable es discreta, el procedimiento para ubicar la mediana es


el siguiente:

1. Debe disponerse de la distribución con sus frecuencias acumuladas.


n
2. Se calcula el valor de .
2
n
3. Se ubica la menor frecuencia acumulada que supere a . Esta fre-
2
cuencia se le simboliza por Fk donde k indica la posición de esta
frecuencia.
n
4. Se compara la frecuencia acumulada anterior, es decir Fk−1 con .
2
5. Al realizar esta comparación
 pueden ocurrir uno de los dos casos: Que
n
Fk−1 sea menor que 2 , Fk−1 <
n
, en este caso la mediana será el
2
valor de lavariable que ocupe la posición k.O que Fk−1 sea igual a n2 ,
Fk−1 = n2 , en este caso caso la mediana será la media aritmética de
los valores de la variable que ocupan las posiciones Fk−1 y Fk .

Alfredo Yerman Cortes Verbel.


3.3. MEDIANA. 77

Ejemplo 3.9
Un grupo de personas presentó una prueba de aptitud. El número de respuestas
incorrectas que tuvieron se muestra en la siguiente tabla:

Número de respuestas incorretas número de personas Número acumulado de personas


xi fi Fi
0 3 3
1 7 10
2 20 30
3 30 60
4 15 75
5 10 85
6 3 88
7 2 90
Total 90

A la tabla se le ha añadido la tercera columna, correspondiente a las frecuencias


acumuladas.
90
Primero se calcula n
2 = 2 = 45

Se ubica la menor frecuencia acumulada que supera a 45. En este caso es


la cuarta frecuencia acumula(60)

Se compara la frecuencia acumulada anterior con , o sea, la tercera, que en


este caso es 30. Como 30 es menor que 45, la mediana será el valor de la
variable que se encuentra en la cuarta posición, esto es 3. Luego,Me = 3

Lo cual significa que la mitad (o el 50 %) de las personas tuvieron 3 o menos de


3 respuestas incorrectas y la otra mitad (o el 50 %) tuvieron 3 o más respuestas
incorrectas.

La estadística es una ciencia que demuestra que si mi vecino tiene dos coches
y yo ninguno, los dos tenemos uno.

George Bernard Shaw5


5
George Bernard Shaw (Dublín, 26 de julio de 1856-Ayot St. Lawrence, Reino Unido; 2 de noviembre
de 1950), fue un dramaturgo, crítico y polemista irlandés cuya influencia en el teatro, la cultura y la
política occidentales se extiende desde 1880 hasta nuestros días. Recibió el Premio Nobel de Literatura
en 1925 y en 1938 compartió el Óscar al mejor guion adaptado por la versión cinematográfica de
Pigmalión, convirtiéndose en la primera persona en recibir el Premio Nobel y un Premio Óscar.

Alfredo Yerman Cortes Verbel.


3.3. MEDIANA. 78

Ejemplo 3.10
El número de empleados que tiene una muestra de pequeñas empresas, se mues-
tra en el cuadro 3.6

Número de respuestas incorretas número de personas Númeroacumulado de personas


xi fi Fi
3 4 4
4 12 16
5 20 36
6 24 60
7 30 90
8 15 105
9 8 113
10 7 120
Total 120

Cuadro 3.6: El número de empleados que tiene una muestra de pequeñas empre-
sas

120
Primero se calcula n
2 = 2 = 60

Se ubica la menor frecuencia acumulada que supera a 45. En este caso es


la quinta frecuencia acumula (90)

Se compara la frecuencia acumulada anterior con n2 .o sea, la cuarta fre-


cuencia acumulada, que en este caso es 60. Como es igual a n2 o sea también
60, la mediana será la media aritmética de los valores de la variable que
están en las posiciones cuarta y quinta. Luego, Me = 6+7
2 empleados.
Lo cual significa que la mitad (o el 50 %) de las empresas tienen 6.5 em-
pleados o menos y la otra mitad (o el 50 %) tiene 6.5 empleados o más.

Mediana para datos agrupados cuando la variable es continua.


La mediana se encuentra en el intervalo donde la frecuencia acumulada llega
hasta la mitad de la suma de las frecuencias absolutas. Es decir tenemos que buscar
n
el intervalo en el que se encuentre .
2

Alfredo Yerman Cortes Verbel.


3.3. MEDIANA. 79

Definición 3.6: Mediana para datos agrupados cuando la variable es continua.

La mediana puede ser ubicada mediante la siguiente expresión:


n 
2 − Fk−1
Me = Lk−1 + ak
fk

en donde se ubica la menor frecuencia acumulada que supere a n2 . Esta


frecuencia se simboliza por Fk . k indica la posición del intervalo en que
se encuentra la frecuencia acumulada que supera a n2 . Lk−1 es el límite
inferior de la clase donde se encuentra la mediana. n2 es la semisuma de las
frecuencias absolutas. Fk−1 es la frecuencia acumulada anterior a la clase
mediana. ak es la amplitud de la clase.

La mediana es independiente de las amplitudes de los intervalos

Ejemplo 3.11
La siguiente tabla muestra gasto (miles $) efectuado el mes pasado en manteni-
miento por una muestra de los buses de una empresa transportadora:
Gastos en mantenimiento Número de buses Número acumulado de buses
[Li−1 , Li ) fi Fi
[100, 200) 3 3
[200, 300) 7 10
[300, 400) 18 28
[400, 500) 12 40
[500, 600) 8 48
[600, 700) 2 50
Total 50
50
Se calcula n
2 = 2 = 25
Se ubica la menor de las frecuencias acumuladas que supere a 25. En este
caso es la tercera frecuencia acumulada (28), es decir k = 3
Se calcula la mediana utilizando la fórmula anterior.
El límite inferior del tercer intervalo es Lk−1 = 300 ; la amplitud del tercer
intervalo es ak = 100; La frecuencia acumulada del intervalo anterior es
Fk = 10; la frecuencia del tercer intervalo es fk = 18. Entonces, la mediana
será: !
50
2 − 10
Me = 300 + 100 = 383,3
18

Alfredo Yerman Cortes Verbel.


3.3. MEDIANA. 80

Este valor significa que la mitad ( o el 50 %) de los buses gastaron en


mantenimiento 383.3 mil$ o menos y la otra mitad ( o el otro 50 %) gastó
383,3 mil$ o más.

Ejemplo 3.12
Se ha hecho un estudio de los precios de venta del agua y de la leche en cierto
hipermercado. Respecto al agua, se verificó que 3 marcas cuestan 0, 27 dolares,
2 cuestan 0, 21 dolares, 1 cuesta 0, 24 dolares, y otra más cuesta 0, 3 dolares.
En cuanto a la leche, se constató que 4 de las marcas costaban 0, 79 dolares, 3
costaban 0, 61 dolares, 2 costaban 0, 69 dolares, otras 2 costaban 0, 82 dolares y
una costaba 0, 73 dolares. Calcula e interpreta el valor de la mediana del precio
del agua y del precio de la leche.
El objetivo es calcular el precio mediano del agua y de la leche. Se comenzará
con los precios del agua. El experimento consiste en seleccionar marcas de agua
(individuos) y observar su precio (variable). La población son todas las marcas de
agua que hay en ese supermercado y se dispone de una muestra (quizás sean
todas las que hay) de 7 marcas. La variable es cardinal, de razón y continua
(porque los precios son números, 0 significa que no cuesta nada y, en principio,
cualquier precio es válido). Ahora se trata de calcular la mediana porque es lo
que se pide. Es decir, se busca un valor que deje la mitad de los datos por debajo
y la otra mitad por encima, una vez ordenados. Si se ordenan todos los datos
se tiene: 0,21, 0,21, 0,24, 0,27, 0,27, 0,27 y 0,3. El primer valor igual a 0,27 deja
3 marcas por encima y otras 3 por debajo, esto es, es el valor que está en el
medio, así que la mediana sería 0, 27. Calcular así la mediana cuando se tienen
muchos datos resultaría demasiado tedioso, por eso se realizará utilizando las
tablas. En realidad, se necesita conocer el punto en el que se lleva acumulada la
mitad, es decir, el 50 , % de la muestra. Por eso el cálculo se basa en la columna
de frecuencias acumuladas Fi .

xi ni fi Fi
0, 21 2 0, 2857 0, 2857
0, 24 1 0, 1429 0, 4286
0, 27 3 0, 1286 0, 8572
0, 3 1 0, 1429 1
Total 4 1 -

Cuadro 3.7: Tabla de frecuencias (precio del agua)

Según la Tabla 3.7, el 42, 86 % de las marcas cuestan 0, 24 dolares o menos,


mientras que el 85, 72 % de las marcas cuestan 0, 27 dolares o menos, así que

Alfredo Yerman Cortes Verbel.


3.3. MEDIANA. 81

se sobrepasa el 50 % justo cuando se consideran las marcas que cuestan 0, 27


dolares, luego Me = 0, 27 dolares. En general se debe buscar el primer valor
de Fi que sobrepasa el 0, 5, y el valor correspondiente xi será la mediana. En
conclusión el precio mediano del agua son 27 céntimos, que significa que la
mitad de las marcas cuestan 0, 27 dolares o menos y la otra mitad cuestan 0, 27
dolares o más (hay más formas de expresar eso, por ejemplo, se puede decir que
la mitad de las marcas cuestan a lo sumo 0, 27 dolares, etc.). El precio del agua
oscila alrededor de los 27 céntimos. En relación con los precios de la leche, el
planteamiento, el método y la justificación son similares a los del caso anterior;
si se ordena la muestra de menor a mayor se tiene

0, 61 - 0, 61 - 0, 61 - 0, 69 - 0, 69 - 0, 73 - 0, 79 - 0, 79 - 0, 79 - 0, 79 - 0, 82 - 0, 82
| {z } | {z }
La mitad de 12 son 6, el hueco entre el 0, 73 y el 0, 79 separa 6 datos por
debajo y 6 por encima, luego cualquier valor que esté entre esos 2 cumpliría la
condición para ser mediana. Si se necesita un solo número, se puede optar por
0, 73 + 0, 79
dar el número del medio: = 0, 76 dolares (y se asegura que la mitad
2
de las marcas cuestan 0, 76 o menos y la otra mitad 0, 76 dolares o más).

xi ni fi Fi
0, 61 3 0, 25 0, 25
0, 69 2 0, 1667 0, 4167
0, 73 1 0, 0833 0, 5
0, 79 4 0, 3333 0, 8333
0, 82 2 0, 1667 1
Total 12 1 -

Cuadro 3.8: Tabla de frecuencias (precio de la leche)

Al aplicar el método de cálculo con tablas (ver Tabla 3.8) aparece justo el
valor Fi = 0, 5, eso significa que exactamente la mitad de las marcas cuestan
0, 73 dolares o menos (o también 0, 73 dolares o más), pero el mismo razona-
miento es válido para todos los números entre 0, 73 y 0, 79. en consecuencia si el
0, 5 exacto aparece en la columna de Fi , la mediana es cualquier valor entre el
xi correspondiente y el siguiente (en particular, el punto medio podría servir de
representante). En conclusión, el precio mediano de la leche es cualquier valor
entre 73 y 79 céntimos. Se puede decir que la mitad de las marcas cuestan alre-
dedor de 76 céntimos o menos y la otra mitad cuestan alrededor de 76 céntimos
o más. El precio de la leche oscila alrededor de los 76 céntimos.

Alfredo Yerman Cortes Verbel.


3.3. MEDIANA. 82

Figura 3.2: Interpolación para aproximar la mediana.

Ejemplo 3.13
Un comercial dedica al 15 % de sus clientes menos de 10 minutos, al 38 %
entre 10 y 30 minutos y al resto entre 30 y 60 minutos. Calcula e interpreta la
mediana del tiempo de atención por cliente.
El objetivo es calcular la mediana del tiempo de atención por cliente; el expe-
rimento consiste en seleccionar clientes (individuos) y observar el tiempo que les
dedica un comercial (variable). La población son todos sus clientes y la muestra,
en este caso, coincide con la población. La variable es cardinal, de razón y conti-
nua (porque el tiempo se mide con números, 0 significa que no le dedica tiempo y
podría dedicarle cualquier cantidad de tiempo). Se trata entonces de calcular la
mediana, es decir, se busca un valor que deje el 50 % de los clientes por debajo y
el otro 50 % por encima. En primer lugar hay que extraer la tabla de frecuencias.
Para calcular la mediana se necesitan las frecuencias acumuladas

clases fi Fi
[0, 10] 0, 15 0, 15
(10, 30] 0, 38 0, 53
(30, 60] 0, 47 1

Cuadro 3.9: Tabla de frecuencias.

En primer lugar se debe localizar el intervalo donde está la mediana. En la


Tabla 3.9 se observa que cuando se pasa por el 10 se lleva acumulado el 15 %,
en cambio al pasar por el 30 ya es el 53 %. Eso significa que el 50 %, es decir,
el valor que se corresponde a la mediana, está entre 10 y 30. La idea está en
suponer que la Fi se va acumulando paulatinamente desde 0, 15 hasta 0, 53, es

Alfredo Yerman Cortes Verbel.


3.3. MEDIANA. 83

decir, siguiendo la pendiente del triángulo grande de la Figura ??. Así que se
trata de ver cuanto se lleva acumulado hasta 0, 5, es decir, lo que corresponde a
la pendiente del triángulo pequeño. Siguiendo la regla de triángulos semejantes
(base grande es a altura grande lo mismo que base pequeña es a altura pequeña),
se tiene la siguiente regla de tres (ver figura 3.2):

base grande = 30 − 10¯¯˘altura grande = 0,53 − 0, 15


base pequeña = −10¯¯˘alturapeque˜na = 0, 5 − 0,15

Entonces

20 ¯¯˘ 0, 38
x − 10 ¯¯˘ 0, 35

por lo que

20 · 0, 35
x − 10 =
0, 38
x − 10 = 18, 4211
x = 18, 4211 + 10
x = 28, 4211

En conclusión: Me = 28, 4211 minutos, que significa que ese comercial le de-
dica a la mitad de sus clientes 28, 4211 minutos o menos y a la otra mitad les
dedica 28, 4211 o más. Esto es una aproximación, porque se supuso que los tiem-
pos estaban uniformemente repartidos en ese intervalo y esto no tiene porque
ser exactamente así. El tiempo que le dedica el comercial a cada cliente oscila
alrededor de aproximadamente 28, 4211 minutos.

3.3.3. Ventajas y desventajas de la mediana.


Ventajas de la mediana.
No es un promedio matemático, pues no está definida por una fórmula alge-
braica sino por un procedimiento para su localización.

En su cálculo no intervienen todos los valores que toma la variable, únicamente


intervienen los valores centrales.

No se ve afectada por valores extremos o atípicos de la variable.

Alfredo Yerman Cortes Verbel.


3.4. MODA. 84

Es el promedio más adecuado cuando se dispone de una distribución de fre-


cuencias con intervalos de amplitud variable.

También es adecuado como promedio cuando se tienen los datos ordenados


en una distribución de frecuencias con intervalos de amplitud variable.

desentajas de la mediana
Para su calculo se deben intentar ordenar los datos, esto implica un consumo
de tiempo para cualquier conjunto de datos con un gran número de datos

3.4. Moda.

Definición 3.7: Moda.


La moda que se representa por Mo , es el valor con una mayor frecuencia en
una distribución de datos.

Hablaremos de una distribución bimodal de los datos adquiridos en una columna


cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia
absoluta máxima. Una distribución trimodal de los datos es en la que encontramos
tres modas. La llamaremos multimodal si tiene mas de tres modas. Si todas las
variables tienen la misma frecuencia diremos que no hay moda.

3.4.1. Moda para datos no agrupados.


Basados en lo dicho anteriormente tenemos que la moda es La moda es el valor
que tiene mayor frecuencia absoluta.

Ejemplo 3.14
La moda de la distribución:2, 3, 3, 4, 4, 4, 5, 5 es Mo = 4

Ejemplo 3.15
La moda de la distribución:1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 es Mo = 1, Mo = 5,
Mo = 9. Esta es una distribución multimodal.

3.4.2. Moda para datos agrupados.

Alfredo Yerman Cortes Verbel.


3.4. MODA. 85

Todos los intervalos tienen la misma amplitud


Calculamos el intervalo o clase modal que es el de mayor frecuencia absoluta.
Cuando tratamos con datos agrupados antes de definir la moda, se ha de definir el
intervalo modal.

Definición 3.8: Moda para datos agrupados.

Con la letra k indicamos la posición del intervalo en donde se encuentra la


mayor frecuencia absoluta. luego aplicamos la siguiente formula:

fk − fk−1
Mo = Lk−1 + ak
(fk − fk−1 ) + (fk − fk+1 )

Donde Lk−1 es el límite inferior de la clase modal, fk es la frecuencia absoluta


de la clase modal, fk−1 es la frecuencia absoluta inmediatamente inferior a
la en clase modal, fk−1 es la frecuencia absoluta inmediatamente posterior
a la clase modal, ai es la amplitud de la clase.
También se utiliza otra fórmula de la moda que da un valor aproximado de
ésta:
fk+1
Mo = Lk−1 + ak
fk−1 + fk+1

Ejemplo 3.16
Calcular la moda de una distribución estadística que viene dada por la siguiente
tabla:
Intervalos fi
[60, 63) 5
[63, 66) 18
[66, 69) 42
[69, 72) 27
[72, 75) 8
Total 100
La mayor frecuencia que es de 42, se encuentra en el tercer intervalo, entonces
k = 3; luego f3 = 42,la frecuencia anterior fk−1 = f3−1 = f2 = 18, la frecuencia
posterior fk+1 = f3+1 = f4 = 27. La amplitud del tercer intervalo es ak = a3 = 3
y el limite inferior de la clase modal es Lk−1 = L3−1 = L2 = 66. Entonces la moda

Alfredo Yerman Cortes Verbel.


3.4. MODA. 86

será
f3 − f3−1
Mo = L3−1 + a3
(f3 − f3−1 ) + (f3 − f3+1 )
42 − 18
= 66 + 3
(42 − 18) + (42 − 27)
= 67,8

Los intervalos tienen distinta amplitud


fi
En primer lugar tenemos que hallar las alturas dadas por la formula hi = ai .
La clase modal es la que tiene mayor altura. Luego aplicamos la formula

hk − hk−1
Mo = Lk−1 + ak
(hk − hk−1 ) + (hk − hk+1 )

La fórmula de la moda aproximada cuando existen distintas amplitudes es:

hk+1
Mo = Lk−1 + ak
hk−1 + hk+1

Ejemplo 3.17
En la siguiente tabla se muestra las calificaciones (Insuficiente, básico,aceptable
y sobresaliente) obtenidas por un grupo de 50 alumnos. Calcular la moda.

fi hi
[0, 5) 15 3
[5, 7) 20 10
[7, 9) 12 6
[9, 10) 3 3
Total 50

La clase modal es la del segundo intervalo luego k = 2

h2 − h2−1
Mo = L2−1 + a2
(h2 − h2−1 ) + (h2 − h2+1 )
10 − 3
= 5+ 2
(10 − 3) + (10 − 6)
= 6,33

Alfredo Yerman Cortes Verbel.


3.4. MODA. 87

Ejemplo 3.18
En una encuesta se les preguntó a 16 personas si su hogar era de alquiler o
en propiedad. Las contestaciones fueron: alquiler, alquiler, propiedad, alquiler,
no sabe/no contesta, alquiler, propiedad, alquiler, propiedad, propiedad, alquiler,
alquiler, no sabe/no contesta, alquiler, propiedad, y alquiler. ¿Qué valor representa
el centro de esa distribución?
El objetivo es encontrar el “centro” de la distribución del régimen de propiedad
(alquiler o propiedad). El experimento consiste en seleccionar personas y observar
si su hogar es alquilado o lo tienen en propiedad. La población serán todas las
personas (con hogar) y se tiene una muestra de 16 datos. La variable es nominal,
porque los valores (alquiler/propiedad) son nombres que no se pueden ordenar.
Como la variable es nominal, no se puede utilizar ni la media ni la mediana,
por lo que se utilizará la moda.
Según la distribución de la Tabla 3.10 el mayor ni , que es 9, se corresponde
al alquiler, luego Mo = alquiler.

xi ni
Alquiler 9
Propiedad 5
NS/NC 2
Total 16

Cuadro 3.10: Tabla de frecuencias.

Esto es el centro de la distribución se situaría en la modalidad de alquiler,


por ser la mas frecuente.

3.4.3. Ventajas y desventajas de la moda.


Ventajas.
La moda es un promedio de posición, pues no está definida por una fórmula
algebraica.

En el cálculo de la moda no intervienen todos los valores que toma la variable,


pues solo intervienen los valores más frecuentes.

No se afecta por la presencia de valores atípicos.

Es útil cuando se desea determinar el valor que es típico o característico de


un grupo

Alfredo Yerman Cortes Verbel.


3.5. FRACTILES: CUARTILES, DECILES Y PERCENTILES. 88

Es el promedio más adecuado cuando se encuentre que un valor presenta una


frecuencia grande comparada con las demás

Puede usarse para datos tanto cuantitativos como cualitativos

Desventajas.
No es recomendable utilizarla en distribuciones de frecuencias que tengan
intervalos de amplitud variable

Para conjuntos pequeños de datos su valor no tiene casi utilidad, si es que de


hecho existe.

Solo tiene significado en el caso de una gran cantidad de datos.

No utiliza toda la información disponible.

No siempre existe, si los datos no se repiten

3.5. Fractiles: Cuartiles, Deciles y Percentiles.


Anteriormente se ha visto que la mediana permite dividir a los elementos en dos
grupos de tal forma que en cada grupo queda la mitad de los elementos: la mitad o
el 50 % de los elementos toman un valor menor o igual a la mediana y el otro 50 %
toma un valor mayor o igual a la mediana. Esta idea puede extenderse para dividir
a los elementos en cualquier número determinado de partes iguales. Las cuantilas
o fractiles, son valores del recorrido de la variable que dividen a la distribución en
partes iguales. Los más conocidos son los cuartiles, deciles y percentiles:

3.5.1. Cuartiles.
Son tres valores de la variable que dividen su recorrido en cuatro partes iguales,
dejando en cada parte el 25 % de los elementos. Para dividir en cuatro partes se
requieren tres valores: Q1 o primer cuartil; Q2 o segundo cuartil y Q3 o tercer cuartil.
Q2 coincide con la mediana

Cuartiles para datos no agrupados

Alfredo Yerman Cortes Verbel.


3.5. FRACTILES: CUARTILES, DECILES Y PERCENTILES. 89

Definición 3.9: Cuartiles para datos no agrupados.

Si x1 , x2 , ..., xn son observaciones ordenados en forma ascendente de la va-


riable X ,entonces para t = 1, 2, 3 tenemos

Qt = x 25t(n+1) = x t(n+1)
100 4

Es importante considerar que si el cálculo no corresponde con la posición


exacta entonces se usa interpolación lineal. En el caso en que la posición
no corresponda exactamente con la posición la interpolación se realiza de
la siguiente forma:  
t x( tn +1) − x tn
4 4
Qt = x tn + (3.1)
4 4

Cuartiles para datos agrupados.

Definición 3.10: Cuartiles para datos agrupados.

Cuando los datos se encuentran agrupados en una tabla de frecuencias de m


intervalos, primero se debe ubicar el intervalo donde se sabe se encontrará
el cuartil, es decir, un intervalo tal que la frecuencia porcentual acumula-
da hasta él sea al menos 25t % y la frecuencia porcentual acumulada hasta
el intervalo anterior a él sea inferior al 25t %. Es decir se ubica la menor
frecuencia acumulada que supere a tn 4 . Si se denota por Ik a tal intervalo,
donde k indica el número del intervalo en donde se encuentra esta frecuen-
cia; entonces.
tn
− Fk−1
Qt = Lk−1 + 4 ak
fk
Donde: Lk−1 es el límite inferior del intervalo que contiene al cuartil, Fk−1 es
la frecuencia absoluta acumulada hasta el intervalo anterior al intervalo que
contiene al cuartil; Fk es la frecuencia absoluta del intervalo que contiene
al cuartil y ak es la amplitud del intervalo que contiene al cuartil.

Alfredo Yerman Cortes Verbel.


3.5. FRACTILES: CUARTILES, DECILES Y PERCENTILES. 90

3.5.2. Diagramas de cajas y bigotes

Figura 3.3: Diagrama Cajas y Bigotes

Un diagrama de cajas y bigotes es una manera conveniente de mostrar visual-


mente grupos de datos numéricos a través de sus cuartiles.
Las líneas que se extienden paralelas a las cajas se conocen como « bigotes
», y se usan para indicar variabilidad fuera de los cuartiles superior e inferior.
Los valores atípicos se representan a veces como puntos individuales que están en
línea con los bigotes. Los diagramas de cajas y bigotes se pueden dibujar vertical
u horizontalmente.
Normalmente utilizado en estadísticas descriptivas, los gráficos de cajas y bi-
gotes son una excelente forma de examinar rápidamente uno o más conjuntos de
datos gráficamente. Aunque parezcan primitivos en comparación con un Histograma
o un Gráfico de Densidad, tienen la ventaja de ocupar menos espacio, lo cual es útil
cuando se comparan distribuciones entre muchos grupos o conjuntos de datos.
Estas son algunas de las observaciones que se puede hacer al ver un diagrama
de cajas y bigotes:

Cuáles son los valores clave, tales como: el promedio, el percentil 25 medio,
etc.

Si hay valores atípicos y cuáles son sus valores.

Si los datos son simétricos.

Alfredo Yerman Cortes Verbel.


3.5. FRACTILES: CUARTILES, DECILES Y PERCENTILES. 91

Cuán estrechamente se agrupan los datos.

Si los datos están sesgados y si es así, en qué dirección.

Figura 3.4: Descripción de un diagrama cajas y bigotes

Construcción gráficas de cajas y bigotes


Como ya se dijo una gráfica de este tipo consiste en una caja rectangular;
donde los lados más largos muestran el recorrido intercuartílico. Este rectángulo
está dividido por un segmento vertical que indica donde se posiciona la mediana
y por lo tanto su relación con los cuartiles primero y tercero(recordemos que el
segundo cuartil coincide con la mediana). Esta caja se ubica a escala sobre un
segmento que tiene como extremos los valores mínimo y máximo de la variable. Las
lineas que sobresalen de la caja se llaman bigotes. Estos bigotes tienen tienen un
límite de prolongación, de modo que cualquier dato o caso que no se encuentre
dentro de este rango es marcado e identificado individualmente.

Alfredo Yerman Cortes Verbel.


3.5. FRACTILES: CUARTILES, DECILES Y PERCENTILES. 92

Figura 3.5: Distribución de frecuencias, que representan las edades de un grupo de


20 personas.

Ejemplo 3.19: Distribución de Edades


Utilizamos la distribución de frecuencias, que representan la edad de un colectivo
de 20 personas.36 - 25 - 37 - 24 - 39 - 20 - 36 - 45 - 31 - 31-39 - 24 - 29 - 23 -
41 - 40 - 33 - 24 - 34 - 40.
Ordenar Los Datos
Para calcular los parámetros estadístico, lo primero es ordenar la distribución:
20 - 23 - 24 - 24 - 24 - 25 - 29 - 31 - 31 - 33 - 34 - 36 - 36 - 37 - 39 - 39 40 -
40 - 41 - 45.
Calcular los cuartiles
Q1 , el cuartil Primero es el valor mayor que el 25 % de los valores de la
distribución. Como N = 20 resulta que N4 = 5; el primer cuartil es la media
aritmética de dicho valor y el siguiente:
24 + 25
Q1 =
2
= 24, 5

Q2 , el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el


valor de la variable que ocupa el lugar central en un conjunto de datos ordenados.
Como N2 = 10; la mediana es la media aritmética de dicho valor y el siguiente:

me = Q 2
33 + 34
=
2
= 33, 5

Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75 % de los valores de la


distribución. En nuestro caso, como 3N 4 = 15, resulta

39 + 39
Q2 =
2
= 39

Dibujar la caja y bigotes

Alfredo Yerman Cortes Verbel.


3.5. FRACTILES: CUARTILES, DECILES Y PERCENTILES. 93

Veamos la figura 3.5


El bigote de la izquierda representa al colectivo de edades (Xmín , Q1 ).
La primera parte de la caja a (Q1 , Q2 ),
La segunda parte de la caja a (Q2 , Q3 )
El bigote de la derecha viene dado por (Q3 , Xmáx ).
Información del diagrama
Podemos obtener abundante información de una distribución a partir de estas
representaciones. Veamos:

La parte izquierda de la caja es mayor que la de la derecha; ello quiere


decir que las edades comprendidas entre el 25 % y el 50 % de la población
está más dispersa que entre el 50 % y el 75 %.

El bigote de la izquierda (Xmín , Q1 ) es más corto que el de la derecha; por


ello el 25 % de los más jóvenes están más concentrados que el 25 % de los
mayores.

El rango intercuartílico = Q3 − Q1 = 14, 5; es decir, el 50 % de la población


está comprendido en 14, 5 años.

Figura 3.6: Tomado de Montt, A. (2013, octubre 20). Matemáticas, Estadística, Galli-
nas y Alberto Montt. | Matemolivares. http://matemolivares.blogia.com/2013/102001-
matematicas-estadistica-gallinas-y-alberto-montt..php

Alfredo Yerman Cortes Verbel.


3.5. FRACTILES: CUARTILES, DECILES Y PERCENTILES. 94

Ejemplo 3.20: Comparación entrenamientos de un corredor


Un corredor entrena para una determinada carrera y se toman los tiempos que
necesita para recorrer los 200 m, durante 10 días consecutivos (cada día se toman
varios tiempos y se calculan mediana, cuartiles, valores mínimo y máximo). Ob-
servamos que el desplazamiento de las gráficas de caja hacia la izquierda indica
que el entrenamiento ha dado resultado, ya que se tardan menos segundos en
recorrer la misma distancia, siendo la diferencia entre el máximo y el mínimo
menor, como así también la diferencia intercuartílica.

Figura 3.7: Comparación entrenamientos de un corredor

3.5.3. Deciles.
Son nueve valores de la variable que dividen su recorrido en diez partes iguales;
dividen a los elementos en 10 grupos iguales, dejando en cada grupo el 10 % de los
elementos. Se requieren nueve valores para dividir en 10 grupos, que son denotados
D1 , D2 , ..., D9 o decil 1, decil 2,. . . , decil 9. D5 coincide con la mediana

Deciles para datos no agrupados.

Alfredo Yerman Cortes Verbel.


3.5. FRACTILES: CUARTILES, DECILES Y PERCENTILES. 95

Definición 3.11: Deciles para datos no agrupados.

Si x1 , x2 , ..., xn son observaciones ordenados en forma ascendente de la va-


riable X ,entonces para t = 1, 2, 3, ..., 9 tenemos

Dt = x 10tn = x tn
100 10

Deciles para datos agrupados.

Definición 3.12: Deciles para datos agrupados.

Cuando los datos se encuentran agrupados en una tabla de frecuencias de


m intervalos, primero se debe ubicar el intervalo donde se sabe se encontrar
á el decil, es decir, un intervalo tal que la frecuencia porcentual acumulada
hasta él sea al menos 10t % y la frecuencia porcentual acumulada hasta
el intervalo anterior a él sea inferior al 10t %. Es decir se ubica la menor
frecuencia acumulada que supere a 10 tn
. Si se denota por Ik a tal intervalo,
donde k indica el número del intervalo en donde se encuentra esta frecuencia,
entonces.
tn
10 − Fk−1
Dt = Lk−1 + ak
fk
Donde: Lk−1 es el límite inferior del intervalo que contiene al decil, Fk−1 es
la frecuencia absoluta acumulada hasta el intervalo anterior al intervalo que
contiene al decil; Fk es la frecuencia absoluta del intervalo que contiene al
decil y ak es la amplitud del intervalo que contiene al decil.

3.5.4. Percentiles.
Son noventa y nueve valores de la variable que dividen su recorrido en cien
partes iguales, es decir dividen a los elementos en cien grupos iguales, dejando en
cada grupo el 1 % de los elementos. Se requieren noventa y nueve valores, denotados
P1 , P2 , ..., P99 o percentil 1, percentil 2, percentil 3,. . . , percentil 99.

Alfredo Yerman Cortes Verbel.


3.5. FRACTILES: CUARTILES, DECILES Y PERCENTILES. 96

Percentiles para datos no agrupados.

Definición 3.13: Percentiles para datos no agrupados.

Si x1 , x2 , ..., xn son observaciones ordenados en forma ascendente de la va-


riable X ,entonces para t = 1, 2, 3, ..., 99 tenemos

Pt = x tn
100

Percentiles para datos agrupados.

Definición 3.14: Percentiles para datos agrupados.

Cuando los datos se encuentran agrupados en una tabla de frecuencias de m


intervalos, primero se debe ubicar el intervalo donde se sabe se encontrará el
percentil, es decir, un intervalo tal que la frecuencia porcentual acumulada
hasta él sea al menos t % y la frecuencia porcentual acumulada hasta el
intervalo anterior a él sea inferior al t %. Es decir se ubica la menor frecuencia
acumulada que supere a 100 tn
. Si se denota por Ik a tal intervalo, donde
k indica el número del intervalo en donde se encuentra esta frecuencia,
entonces.
tn
100 − Fk−1
Pt = Lk−1 + ak
fk
Donde: Lk−1 es el límite inferior del intervalo que contiene al percentil, Fk−1
es la frecuencia absoluta acumulada hasta el intervalo anterior al intervalo
que contiene al percentil; Fk es la frecuencia absoluta del intervalo que con-
tiene al percentil y ak es la amplitud del intervalo que contiene al percentil.

Ejemplo 3.21
Para hallar los cuartiles del conjunto de datos 2, 5, 3, 6, 7, 4, 9;

Primero ordenamos los datos de menor a mayor, x1 = 2, x2 = 3, x3 = 4, x4 =


5, x5 = 6, x6 = 7, x7 = 9

Luego buscamos el lugar que ocupa cada cuartil

Q1 = x 1·(7+1) = x2 = 3
4
Q2 = x 2·(7+1) = x4 = 5
4
Q3 = x 3·(7+1) = x6 = 7
4

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 97

Figura 3.8: Relación entre cuartiles, deciles y percentiles

3.6. Evaluación por competencias


3.6.1. Ejercicios de aplicación
1. En un supermercado trabajan 30 personas con un sueldo medio mensual de
180 dólares. ¿Cuánto ganan mensualmente entre todos?.
2. En una oficina el sueldo medio mensual es de 250 dólares. Si entre todos
los empleados de la oficina ganan 4,500 dólares ¿Cuántos empleados son en
total?
3. Un niño tiene en su bolsillo 7 monedas de 25 centavos, otro tiene 11 monedas
de 10 centavos. Si un tercer niño tiene 15 monedas de 5 centavos; mientras
que un cuarto tiene 3 monedas de un dólar. ¿Cuál es la cantidad media de
dinero que tienen entre los cuatro?.
4. Están reunidos cuatro amigos cuya edad media es 23 años y se incorpora
un nuevo amigo cuya edad es de 43 años. ¿Cuál es la nueva edad media del
grupo?.
5. En una oficina en que laboran 9 empleados el sueldo medio mensual es de
1,200 dólares. El próximo mes se jubilará un empleado que gana 800 dólares y
uno que gana 2,000; mientras que la empresa contratará a un nuevo empleado
joven al que pagará 400 dólares mensuales. ¿Cuál será entonces el nuevo
sueldo medio mensual de la empresa?.
6. El peso medio de 5 señoritas es de 98 libras, mientras que el peso medio de
12 varones es de 110 libras.¿Cuál es el peso medio de las 17 personas?
7. Un grupo de clase formado por 30 varones y 20 señoritas tiene en matemática
una nota media de 6.2. Si la nota media de las señoritas es de 6.8. ¿Cuál es
la media de los varones?.

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 98

8. Seis familiares viven en las ciudades que se detallan en el siguiente diagrama


(las distancias entre ciudad y ciudad aparecen en kilómetros). Ver figura 3.9

Figura 3.9: ¿Dónde deberán hacerlo para que el número medio de kilómetros reco-
rridos por todos sea mínimo?

Si desean reunirse en la casa de uno cualquiera de ellos, para celebrar juntos


la navidad.

a) ¿Dónde deberán hacerlo para que el número medio de kilómetros reco-


rridos por todos sea mínimo?.
b) ¿En qué lugar el número medio de kilómetros recorridos por todos sería
máximo?

9. En un examen calificado del 0 al 10, 3 personas obtuvieron 5 de nota, 5


personas obtuvieron 4 de nota, y 2 personas obtuvieron 3 de nota. Calcular
la mediana. En un examen calificado del 0 al 10, 3 personas obtuvieron 5 de
nota, 5 personas obtuvieron 4 de nota, y 2 personas obtuvieron 3 de nota.
Calcular la moda.

10. Unos grandes almacenes disponen de un parqueo para sus clientes. Los si-
guientes datos que se refieren al número de horas que permanecen en el
parqueo una serie de vehículos: 4 -4 -2 -4 -5 -3 -6 -3 -5 -3-2 -1 -3 -7 -3 -1
-5 -1 -7 -2 -5 -2 -4 -7 -3 -6 -2 -2 -4 -1 -6 -4 -3 -3 -4-5 -4 -3 -2 -4-3 -2 -4
-4 -3 -6 -6 -4 -5 -5 -4 -5 -5 -1 -7 -4 -4 -3 -6 -5. Se pide:

a) Obtener la tabla de frecuencias para ese conjunto de datos. Interpretar


la tabla.
b) Determinar e interpretar el tercera cuartil y el percentil 42 %.
c) Calcular el tiempo medio de permanencia de los vehículos en el parqueo.
Interpretar el resultado y los elementos que intervienen.

11. Se ha pasado un test de 80 preguntas a 600 personas. El número de respuestas


correctas se refleja en la siguiente tabla:

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 99

Respuestas correctas Numero de Personas


[0, 10) 40
[10, 20) 60
[20, 30) 75
[30, 40) 90
[40, 50) 105
[50, 60) 85
[60, 70) 80
[70, 80) 65

Cuadro 3.11

a) Calcular la media.
b) Calcula la mediana, los cuartiles y los percentiles 20 y 85.
c) ¿Cuál es el percentil de una persona que tiene 65 respuestas correctas?

12. En una gasolinera estudian el número de vehículos que repostan a lo largo


de un día, obteniendo:

Horas [0, 4) [4, 8) [8, 12) [12, 16) [16, 20) [20, 24)
N° de Vehiculos 8 14 110 120 150 25

Cuadro 3.12: Calcular Me y Q3 .

Calcular Me y Q3
13. Observados los alquileres de un conjunto de despachos se ha obtenido:

Alquileres en millones fi
[0, 15) 17
[15, 30) 130
[30, 45) 180
[45, 60) 30
[60, 75) 10
[75, 90) 5

Cuadro 3.13: Calcula la moda y la mediana.

Calcula la moda y la mediana.

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 100

14. El índice de masa corporal (IMC) es el peso de una persona en kilogramos


dividido por el cuadrado de la estatura en metros. Es una manera fácil y
económica para detectar categorías de peso que pueden provocar problemas
de salud. Para los niños y adolescentes, el IMC es específico con respecto
a la edad y el sexo, y con frecuencia se conoce como el IMC por edad. En
los niños, una gran cantidad de grasa corporal puede provocar enfermedades
relacionadas con el peso y otros problemas de salud. Tener bajo peso también
puede poner a uno en riesgo de problemas de salud. Un IMC alto puede indicar
una grasa corporal elevada. El IMC no mide la grasa corporal directamente,
pero el IMC se correlaciona con medidas más directas de la grasa corporal.

Peso(K g)
IMC =
estatura2 (mts2 )

Las tablas de crecimiento percentil del IMC6 por edad son indicadores que
se utilizan con mayor frecuencia para medir el tamaño y los patrones de
crecimiento de niños y adolescentes en los Estados Unidos. Las categorías
del nivel de peso del IMC por edad y sus percentiles correspondientes se
muestran en la siguiente tabla.

Categoría de estado de peso Rango percentil


Bajo peso Menos del percentil 5
Peso saludable Percentil 5 hasta por debajo del percentil 85
Sobrepeso Percentil 85 hasta por debajo del percentil 95
Obesidad Igual o mayor al percentil 95

Cuadro 3.14: Categorías de estado de peso según el percentil

Vea el siguiente ejemplo de cómo algunas muestras de números de IMC deben


interpretarse para un varón de 10 años.(ver figura 3.10)
Calcule su IMC y a partir de las gráficas de percentiles del índice de masa
corporal por edad niñas (figura 3.11) o percentiles del índice de masa corporal
6
Después de calcular el IMC para niños y adolescentes, se muestra como un percentil que proviene
de una gráfica o calculadora de percentiles disponible a continuación. Estos percentiles expresan el
IMC de un niño en relación con los niños estadounidenses que participaron en encuestas nacionales
de 1963-65 a 1988-944. El peso y la estatura cambian durante el crecimiento y el desarrollo, al igual
que su relación con la grasa corporal. Debido a esto, el IMC de un niño debe interpretarse en relación
con otros niños del mismo sexo y edad

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 101

Figura 3.10: Percentiles por edad para el indice de masa corporal de varones de 2
a 20 años

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 102

por edad niños (figura 3.12) identifique el rango de percentil en que usted se
encuentra y su categoría de estado de peso; interprete el resultado.

15. A partir de las gráficas de percentiles de estatura por edad y peso por edad
para niñas y para niños (ver figura 3.13 y 3.14) ubique e indique en que
percentil de estatura por edad y peso por edad se encuentra usted;interprete
el resultado.

3.6.2. Evaluando saberes


Las siguientes preguntas son preguntas de selección múltiple con única res-
puesta, TIPO I. Este tipo de preguntas consta de un enunciado y cuatro opciones de
respuesta identificadas con las letras a, b, c, d . Lea detenidamente cada pregunta
y rellene el paréntesis de la respuesta correcta (solo una).
RESPONDA LAS PREGUNTAS DE LA 36 A LA 8 CON BASE EN LA SIGUIENTE
INFORMACIÓN
Psicología, una carrera cada vez más ligada al mundo organizacional7

Si bien no se tienen datos de la realidad en empleabilidad y remuneraciones


de los psicólogos por especialidad, la página Mi Futuro señala que un titulado en
esta materia tiene un 78, 9 % de ser contratado antes de cumplir un año de egreso.
Al segundo año la cifra se eleva hasta el 87, 8 %, lo que refleja la necesidad del
mercado por estos profesionales.
En cuanto a los salarios, el estudio del portal ligado al Ministerio de Educación
indica que en promedio al año de labores un psicólogo puede percibir 528 mil pesos
mensuales. En el mismo período en los extremos, es decir entre el 10 % que más gana
y el 10 % con menores rentas, los números son de 780 mil y 250 mil, respectivamente.
A los cinco años de experiencia se nota un incremento en todos los segmentos,
siendo la renta promedio 815 mil pesos al mes, mientras que el decil con mejor
sueldo llega a los 1, 3 millones. En la otra punta el salario alcanza a los 377 mil. [...]
7
Tomado de http://noticias.universia.cl/vida-universitaria/reportaje/2012/02/23/913298/psicologia-
carrera-cada-vez-mas-ligada-mundo-organizacional.html

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 103

2 a 20 años: Niñas Nombre


Percentiles del Índice de Masa Corporal por edad # de Archivo

Fecha Edad Peso Estatura IMC* Comentarios


IMC

35

34

33

32

95
31

30
*Para calcular el IMC: Peso (kgs) ÷ Estatura (cm) ÷ Estatura (cm) x 10.000
o Peso (lbs) ÷ Estatura (pulgadas) ÷ Estatura (pulgadas) x 703 29

IMC 28
90

27 27
26 85 26
25 25

24 75 24

23 23

22 22
50
21 21

20 20
25
19 19
10
18 5
18

17 17

16 16

15 15

14 14

13 13

12 12

kgs/m
2
EDAD (AÑOS) kgs/m
2

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Alfredo Yerman Cortes Verbel.
Publicado el 30 de mayo del 2000 (modificado el 16 de octubre del 2000).
FUENTE: Desarrollado por el Centro Nacional de Estadísticas de Salud en colaboración con el
Centro Nacional para la Prevención de Enfermedades Crónicas y Promoción de Salud (2000).
http://www.cdc.gov/growthcharts

Figura 3.11: Percentiles por edad para el indice de masa corporal de niñas de 2 a
20 años
3.6. EVALUACIÓN POR COMPETENCIAS 104

2 a 20 años: Niños Nombre


Percentiles del Índice de Masa Corporal por edad # de Archivo

Fecha Edad Peso Estatura IMC* Comentarios


IMC

35

34

33

32

31

30
*Para calcular el IMC: Peso (kgs) ÷ Estatura (cm) ÷ Estatura (cm) x 10.000 95
o Peso (lbs) ÷ Estatura (pulgadas) ÷ Estatura (pulgadas) x 703 29

IMC 28
90
27 27
26 85 26
25 25
75
24 24

23 23
50
22 22

21 21
25
20 20
10
19 19
5
18 18

17 17

16 16

15 15

14 14

13 13

12 12

kgs/m
2
EDAD (AÑOS) kgs/m
2

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Alfredo Yerman Cortes Verbel.
Publicado el 30 de mayo del 2000 (modificado el 16 de octubre del 2000).
FUENTE: Desarrollado por el Centro Nacional de Estadísticas de Salud en colaboración con el
Centro Nacional para la Prevención de Enfermedades Crónicas y Promoción de Salud (2000).
http://www.cdc.gov/growthcharts

Figura 3.12: Percentiles por edad para el indice de masa corporal de niños de 2 a
20 años
3.6. EVALUACIÓN POR COMPETENCIAS 105

2 a 20 años: Niñas Nombre


Percentiles de Estatura por edad y Peso por edad # de Archivo

12 13 14 15 16 17 18 19 20
Estatura de la Madre Estatura del Padre cm pul.
Fecha Edad Peso Estatura IMC*
EDAD (AÑOS) 76
190
74
185
72 E
180 S
70
97 175 T
68 A
*Para calcular el IMC: Peso (kgs)÷ Estatura (cm) ÷ Estatura (cm) x 90
170 T
10.000 o Peso (lbs) ÷ Estatura (pulgadas) ÷ Estatura (pulgadas) x 703 75 66 U
pul. cm 3 4 5 6 7 8 9 10 11 50
165 R
64 A
160 25 160
62 62
155 10 155
60 3
60
150 150
58
145
56
140 105 230
54
135 100 220
E
52
S 130 95 210
T 50
A 125 90 200 97
T 48 190
120 85
U
46 180
R 115 80
A 44 170
110 90 75
42 160
105 70
150 P
40 75 E
100 65 140
38 S
95 60 130 O
50
36 90 55 120
25
34 85 50 110
10
32 80 3 45 100
30
40 90
80 35 35 80
70 70
30 30
P 60 60
E 25 25
S 50 50
O 20 20
40 40
15 15
30 30
10 10
lbs kgs EDAD (AÑOS) kgs lbs
2 3 4 5 6 7 8 9 Alfredo
10 11 12 13 14 Yerman
15 16 17 18Cortes
19 20Verbel.
Publicado el 30 de mayo del 2000 (modificado el 21 de noviembre del 2000).
FUENTE: Desarrollado por el Centro Nacional de Estadísticas de Salud en colaboración con el
Centro Nacional para la Prevención de Enfermedades Crónicas y Promoción de Salud (2000).
http://www.cdc.gov/growthcharts

Figura 3.13: Percentiles de Estatura por edad y Peso por edad de niñas de 2 a 20
años
3.6. EVALUACIÓN POR COMPETENCIAS 106

2 a 20 años: Niños Nombre


Percentiles de Estatura por edad y Peso por edad # de Archivo

12 13 14 15 16 17 18 19 20
Estatura de la Madre Estatura del Padre cm pul.
Fecha Edad Peso Estatura IMC*
EDAD (AÑOS) 76
95
190
74
90
185
75
72 E
180 S
50 70
175 T
25 68 A
*Para calcular el IMC: Peso (kgs)÷ Estatura (cm) ÷ Estatura (cm) x 170 T
10.000 o Peso (lbs) ÷ Estatura (pulgadas) ÷ Estatura (pulgadas) x 703 10 66 U
pul. cm 3 4 5 6 7 8 9 10 11 5 165 R
64 A
160 160
62 62
155 155
60 60
150 150
58
145
56
E 140 105 230
S 54
135 100 220
T
A
52
130 95 95 210
T 50
U 125 90 200
90
R 48 190
A
120 85
46 180
115 80
75
44 170
110 75
42 160
105 50 70
150 P
40
100 65 140 E
25
38 S
95 60 130 O
10
36 90 5 55 120
34 85 50 110
32 80 45 100
30
40 90
80 35 35 80

P 70 70
30 30
E 60 60
S 25 25
O 50 50
20 20
40 40
15 15
30 30
10 10
lbs kgs EDAD (AÑOS) kgs lbs
2 3 4 5 6 7 8 Alfredo
9 10 11 12 13 14 Yerman
15 16 17 18Cortes
19 20Verbel.
Publicado el 30 de mayo del 2000 (modificado el 21 de noviembre del 2000).
FUENTE: Desarrollado por el Centro Nacional de Estadísticas de Salud en colaboración con el
Centro Nacional para la Prevención de Enfermedades Crónicas y Promoción de Salud (2000).
http://www.cdc.gov/growthcharts

Figura 3.14: Percentiles de Estatura por edad y Peso por edad de niños de 2 a 20
años
3.6. EVALUACIÓN POR COMPETENCIAS 107

Respecto al tipo de contrato que se ofrece, muchas piden un tiempo de prueba antes
de pasar a una relación contractual indefinida. Los años de experiencia solicitados
varían según la responsabilidad del puesto y van desde uno a los 5 años. Por las
fechas en que nos encontramos también es fácil dar con ofertas para quienes deseen
hacer su práctica profesional.[...] Respecto al tipo de contrato que se ofrece, muchas
piden un tiempo de prueba antes de pasar a una relación contractual indefinida.
Los años de experiencia solicitados varían según la responsabilidad del puesto y
van desde uno a los 5 años.

1. El percentil del 90 % (P90 ) de los sueldos de un psicólogo pasado un año su


titulación es de:

a) 250,000 pesos
b) 780,000 pesos
c) 377,000 pesos
d) 528,000 pesos

2. De acuerdo al texto anterior podemos decir que

a) en promedio solo el 78 % de los psicólogos puede conseguir empleo.


b) el 87, 8 % de los psicólogos consigue empleo antes de los dos años de
graduado.
c) El 8, 9 % de los graduados de psicología demora consigue empleo después
de un año de haberse graduado
d) el 87, 8 % de los psicólogos consigue empleo dos años después de obtener
el titulo.

3. Podemos afirmar que el sueldo promedio mensual de un psicólogo al año de


haberse graduado es de

a) 1,300,000 pesos
b) 528,000 pesos
c) 377,000 pesos
d) más de un salario mínimo

4. El percentil del 10 % (P10 ) de los sueldos de un psicólogo un año después de


graduado equivale a:

a) 780,000 pesos
b) 250,000 pesos

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 108

c) 377,000 pesos
d) 1,300,000 pesos

5. Sería correcto afirmar que:

a) El rango del tiempo de experiencia solicitado a un psicógo antes de


contratarlo de forma indefinida es de 1 años
b) El tiempo promedio de experiencia solicitado a un psicógo antes de con-
tratarlo de forma indefinida es de 5 años
c) El tiempo promedio de experiencia solicitado a un psicógo antes de con-
tratarlo de forma indefinida es de 1 años
d) El rango del tiempo de experiencia solicitado a un psicógo antes de
contratarlo de forma indefinida es de 4 años

6. El sueldo promedio ganado por un psicólogo pasado cinco años de su gra-


duación es de:

a) 815,000 pesos
b) 377,000 pesos
c) 528,000 pesos
d) 780,000 pesos

7. ¿Cuál es el noveno decil (decil del 90 %; D9 ) del sueldo de un psicólogo, después


de cinco años de su titulación?

a) 780,000 pesos
b) 1,300,000 pesos
c) 377,000 pesos
d) 815,000 pesos

8. el valor de 377,000 pesos equivale a el

a) decil del 90 % de los sueldos de un psicólogo después de 5 años de


titulado.
b) decil del 10 % de los sueldos de un psicólogo después de 5 años de
titulado.
c) decil del 90 % de los sueldos de un psicólogo después de 1 años de
titulado.
d) decil del 10 % de los sueldos de un psicólogo después de 1 años de
titulado.

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 109

RESPONDA LAS PREGUNTAS DE LA 42 A LA 43 CON BASE EN LA SI-


GUIENTE INFORMACIÓN
La distribución de frecuencia siguiente, representa los pesos en kilogramos
de una muestra de paquetes transportados por una compañía aérea:

Peso(K g) fi
[10 − 11) 1
[11 − 12) 4
[12 − 13) 6
[13 − 14) 8
[14 − 15) 12
[15 − 16) 11
[16 − 17) 8
[17 − 18) 7
[18 − 19) 6
[19 − 20) 2

9. De los datos anteriores podemos decir que la muestra es

a) 15.20 kg
b) 65
c) 15.13
d) 14.80

10. De los datos anteriores podemos decir que la moda es

a) 15.20 kg
b) 6.5
c) 15.13
d) 14.80

WISC IV TEST DE INTELIGENCIA PARA NIÑOS8


8
Tomado de http://www.libreriapaidos.com/9789501263466/WISC+IV+TEST+DE+INTELIGENCIA+PARA+NIÑOS/

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 110

Puntuación Desviación
Percentil
Escalar Tipica
145 +3 99,9
140 +2 2/3 99,6
135 +2 1/3 99
130 2 98
125 +1 2/3 95
120 +1 1/3 91
115 +1 84
110 2/3 75
105 1/3 63
100 0 (Media) 50
95 −1/3 37
90 −2/3 25
85 −1 16
80 −1 1/3 9
75 −1 2/3 5
70 −2 2
65 −2 1/3 1
60 −2 2/3 0, 4
55 −3 0, 1

El W ISC − IV es un instrumento clínico completo que evalúa la inteligen-


cia de niños y adolescentes. El test ofrece un Cociente Intelectual Total (CIT)
y puntuaciones compuestas en dominios específicos (Índice de Comprensión
Verbal, de Razonamiento Perceptivo, de Memoria Operativa y Velocidad de
Procesamiento). Los resultados obtenidos sirven para la planificación de tra-
tamientos y la toma de decisiones en el campo clínico y educativo, y puede
brindar información de gran valor para la evaluación neuropsicológica y para
la investigación. En la siguiente tabla se puede ver la correspondencia entre
las puntuaciones compuestas, desviaciones a la media y percentiles en los
Índices del WISC-IV

11. De acuerdo a la información proporcionada anteriormente podemos afirmar


que un niño que obtenga una puntuación escalar de 125

a) esta por debajo de la media


b) se encuentre por encima del 95 % de los demás infantes
c) es un niño com problemas cognitivos

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 111

d) esta 35 percentiles encima de la media


12. La estatura media de los hombres y las mujeres varia con el tiempo, con el
objeto de conocer la estatura media de los estudiantes colombianos varones
fueron seleccionados aleatoriamente 4000 estudiantes de distintas facultades
y medidas sus estaturas,. En el caso anterior podemos identificar la muestra
como:

a) 4000 estudiantes cartageneros


b) estudiantes cartageneros de las facultades de psicología
c) 4000 estudiantes cartageneros varones
d) todos los estudiantes cartageneros

13. En las ultimas elecciones de alcalde de Cartagena se contrataron varias fir-


mas encuestadoras para realizar una estimación del posible resultado. Una de
las firmas pregunta a una muestra de 50,000 personas, seleccionadas alea-
toriamente de la población, su intención de voto, agrupándose sus respuesta
en:
Porcentaje de votos del partido P
Porcentaje de votos del partido Q
Porcentaje de votos del partido R
Porcentaje de personas que no votarán
Porcentajes de votos en blanco o nulos
En el anterior caso la población es

a) Todos los cartageneros con derecho a votar


b) Colombianos mayores de 18 años aptos para votar
c) Porcentaje de votos del partido P
d) Porcentaje de votos del partido R

14. La eficacia en la gestión de los concejos directivos de las empresas es un


tema importante. Por ello se ha planteado un estudio de opinión con el objeto
de indagar si la impresión sobre eficacia guarda algún tipo de relación con
la categoría profesional de los trabajadores. Para ello, las opiniones de 200
encuestados se dividieron, de acuerdo con sus respuestas, en mala, regular
y buena. Los encuestados pertenecían a las siguientes categorías profesiona-
les : Aprendices , trabajadores sin especializar, trabajadores especializados,
mandos intermedios y directivos. En el anterior caso podemos identificar la
población como:

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 112

a) 200 trabajadores a los que se le ha pedido su opinión


b) miembros del consejo directivo
c) todos los trabajadores de la empresa
d) Trabajadores sin especializar y especializados

15. En la siguiente gráfica, la cantidad de adultos que sufren de estrés es:

Figura 3.15: Enfermedades que se padecen de acuerdo al grupo etareo

a) 4
b) 3
c) 1
d) 8

16. Se ha realizado una encuesta en 30 hogares en la que se les pregunta el


no de individuos que conviven en el domicilio habitualmente. Las respuestas
obtenidas han sido tabuladas:
Cuadro 3.15: Distrubución de frecuencias de individuos que conviven en el domicilio

Nº de Personas fi fir Fi Fir


0 6 0, 1 6 0, 1
1 13 0, 22 19 0, 32
2 8 0, 13 27 0, 45
3 5 0, 08 32 0, 53
4 13 0, 22 45 0, 75
5 7 0, 12 52 0, 87
6 8 0, 13 60 1

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 113

¿Qué proporción o porcentaje de hogares está compuesta por 5 miembros?

a) 7 %
b) 12 %
c) 52 %
d) 87 %

17. De acuerdo al Cuadro 3.15 podemos decir que:

a) en el 75 % de los hogares conviven cuatro o menos personas


b) en el 53 % de los hogares conviven tres personas
c) en el 13 % de los hogares conviven dos personas o menos
d) en en 7 hogares conviven 5 personas o menos

18. Un corredor entrena para una determinada carrera y se toman los tiempos
que necesita para recorrer los 100 m, durante 10 dìas consecutivos (cada día
se toman varios tiempos y se calculan mediana, cuartiles, valores mínimo y
máximo)

Figura 3.16: Comparación entrenamientos de un corredor

es posible inferir de la anterior gráfica que :

a) los datos mostrados indican que los valores del tiempo tomados por el
entrenador son son decrecientes
b) el desplazamiento de las gráficas de caja hacia la izquierda indica que
el entrenamiento ha dado resultado, ya que se tardan menos segundos
en recorrer la misma distancia.

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 114

c) el desplazamiento de las gráficas de caja hacia la derecha en la parte


inferior indica que el entrenamiento no ha dado resultado, ya que se
tardan más segundos en recorrer la misma distancia.
d) los datos mostrados indican que los valores del tiempo tomados por el
entrenador son son crecientes

19. Sea la variable Religión que se profesa [Codificación: 0: Católica; 1: Protes-


tante; 2: Otra; 3: Ninguna], de la que se han obtenido datos para una muestra
de 50 personas, cuya distribución de frecuencias se muestra a continuación:

Cuadro 3.16: Variable : Religión que se profesa

X1 fi fir
0 13 0, 21
1 23 0, 37
2 15 0, 24
3 10 0, 16
1

Del anterior conjunto de datos del cuadro 3.16 podemos decir que

a) son homogeneos
b) heterogeneos
c) con simetria central
d) con asimetria central

20. La razón de variación de los datos del cuadro 3.16 es

a) 0, 98
b) 0, 95
c) 0, 37
d) 0, 62

21. En caso de asimetría, los valores de la media X , de la mediana Mdn y de la


moda Mo difieren.

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 115

Figura 3.17: Asimetria

para la figura 5.1 tenemos que:

a) X > Mdn ≥ Mo
b) X < Mdn ≤ Mo
c) X = Mdn = Mo
d) X = Mdn ≥ Mo

22. En caso de asimetría, los valores de la media X , de la mediana Mdn y de la


moda Mo difieren.

Figura 3.18: Asimetria

para la figura 3.18 tenemos que:

a) X > Mdn ≥ Mo
b) X < Mdn ≤ Mo
c) X = Mdn = Mo
d) X = Mdn ≥ Mo

23. Dada la variable estatura (E) medida en dos grupos A y B tenemos que
E A = 1, 56, E B = 1, 56 y RA = 4, RB = 0, 5 podemos decir que

a) en el grupo A los datos de las estaturas son mas homogeneos

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 116

b) en el grupo B los datos de las estaturas son mas heterogeneos


c) en el grupo A los datos de las estaturas son mas heterogeneos que los
datos del grupo B
d) en el grupo B los datos de las estaturas son mas heterogeneos que los
datos del grupo A

24. A partir de los datos del cuadro (??) tenemos que

a) RIC = 2
b) RIC = 1
c) RIC = 8
d) RIC = 4

25. A partir de los datos del cuadro (??) tenemos que

a) RSIC = 2
b) RSIC = 1
c) RSIC = 8
d) RSIC = 4

26. Dado el siguiente diagrama de caja y bigotes (Ver figura 3.19)

Figura 3.19: Distribución de frecuencias, que representan las edades de un grupo


de 20 personas.

tenemos que

El bigote de la izquierda representa al colectivo de edades (Xmin , Q1 )


La primera parte de la caja a (Q1 , Q2 ),
La segunda parte de la caja a (Q2 , Q3 )
El bigote de la derecha viene dado por (Q3 , Xmax ).

a partir de lo anterior la conclusión errada es:

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 117

a) El RIC = Q3 − Q1 = 14, 5; es decir, el 50 % de la población está com-


prendido en 14, 5 años.
b) El bigote de la izquierda (Xmin , Q1 ) es más corto que el de la derecha;
por ello el 25 % de los más jóvenes están más concentrados que el 25 %
de los mayores.
c) La parte izquierda de la caja es mayor que la de la derecha; ello quiere
decir que las edades comprendidas entre el 25 % y el 50 % de la población
está más dispersa que entre el 50 % y el 75 %.
d) El RIC = Q3 − Q1 ; es decir, el 50 % de la población está comprendido en
33, 5 años.

27. Tras haber recogido datos de estatura (E) para un grupo de n = 500 sujetos,
se ha obtenido que la media es igual a E = 170 cm y la desviación estandar
es igual a σ = 9 cm; Sabiendo que la distribución de la variable se ajusta a
la curva normal: ¿entre que valores de estatura están el 68 % central de los
sujetos?

a) entre 161 y 179


b) entre 170 y 500
c) entre 68 % y 99,7 %
d) entre 115, 6 y 169, 4

28. De acuerdo a los datos del ejercicio anterior tenemos que

a) C V = 5, 2
b) C V = 1, 8
c) C V = 0, 052
d) C V = 0, 018

29. A partir de los datos de la figura 5.1 podemos decir que:

a) los datos son homogeneos


b) los datos son heterogeneos
c) el 50 % de los datos tiene tendencia hacia la derecha
d) el 50 % de los datos tiene tendencia hacia la izquierda

30. Las edades de un grupo de estudiantes son: 10,11,10,11,10,11,12,10,11,12,12,12,10,11.


Este conjunto de datos es:

a) bimodal.

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 118

b) unimodal.
c) amodal.
d) plurimodal.

31. Para la calificación final de una asignatura de estadística, se tendrán en


cuenta:

Nota del examen final: 70 %


Trabajos y ejercicios: 20 %
Asistencia: 10 %

Un alumno que tuvo 6,0 en el examen final; 7,0 en trabajos; y, asistió todos
los días a clase, por lo tanto tuvo 10,0 en asistencia, ¿cuál es su nota final?

a) 7, 6.
b) 6,6.
c) 66.
d) 2,2.

32. El consumo diario de gasolina del carro de Luis en una semana está dado en
el cuadro 3.17; y su consumo promedio semanal es de 8 litros por cada 100
kilometros. De esto podemos decir que el consumo de gasolina el día domingo
fue de:

a) 7,5 100km .
lts

b) 12 100km
lts
.
c) 7 100lkms .
lts

d) 11 100km
lts
.

33. El conjunto de datos en los que la media y la mediana no coinciden es:

a) 3,3,3,5,5,5,8,8.
b) 3,3,5,5,7,7,12.
c) 3,4,5,6,7,8.
d) 3,4,5,6,7.

34. En un examen calificado de 0 a 10, 3 personas obtuvieron 5 de nota, 5 perso-


nas obtuvieron 4 de nota, y 2 personas obtuvieron 3 de nota. La calificación
promedio es:

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 119

a) 4,0.
b) 3,6.
c) 4,1.
d) 3,3.

35. Del siguiente conjunto de datos 3, 3, 5, 5, 6, 6, 7, 7 podemos decir que:

a) están ordenados en forma descendente.


b) no tiene moda.
c) el promedio es 5.
d) la mediana es 5.

36. Un corredor entrena para una determinada carrera y se toman los tiempos
que necesita para recorrer los 200 m, durante 10 días consecutivos (cada día
se toman varios tiempos y se calculan mediana, cuartiles, valores mínimo y
máximo.) Observamos en la figura 3.20a que el desplazamiento de las gráficas
de caja hacia la izquierda indica que el entrenamiento:

a) ha dado resultado, ya que se tardan más segundos en recorrer la misma


distancia, siendo la diferencia entre el máximo y el mínimo mayor, como
así también la diferencia intercuartílica.
b) no ha dado resultado, ya que se tardan mas segundos en recorrer la
misma distancia, siendo la diferencia entre el máximo y el mínimo mayor,
como así también la diferencia intercuartílica.
c) no ha dado resultado, ya que se tardan menos segundos en recorrer la
misma distancia, siendo la diferencia entre el máximo y el mínimo menor,
como así también la diferencia intercuartílica.
d) ha dado resultado, ya que se tardan menos segundos en recorrer la
misma distancia, siendo la diferencia entre el máximo y el mínimo menor,
como así también la diferencia intercuartílica.

RESPONDA LAS PREGUNTAS DE LA 37 A LA 41 CON BASE EN LA GRÁ-


FICA DE LA FIGURA 3.20b

37. De la figura 3.20b, el curso o cursos donde se presentó la calificación más


alta fue:

a) 11 − 02 con una calificación mediana de 3, 0.


b) 11 − 02 y 11 − 03 con una calificación mediana de 5.

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 120

c) 11 − 03 con una calificación mediana de 3, 5.


d) 11 − 02 y 11 − 03 con una calificación de 5, 0.

38. De la figura 3.20b el curso con la nota mediana Q2 más baja fue:

a) 11 − 02 con Q1 = 2,0.
b) 11 − 03 con Q2 = 0,0.
c) 11 − 02 con Q1 = 1,0.
d) 11 − 03 con Q2 = 3,5.

39. Sabiendo que la asignatura de estadística se aprueba con una nota superior
3,0; de la figura 3.20b podemos afirmar que el

a) 50 % de los estudiantes reprobó estadística en 11 − 01.


b) 25 % de los estudiantes reprobó estadística en 11 − 02.
c) 50 % de los estudiantes reprobó estadística en 11 − 03.
d) 25 % de los estudiantes reprobó estadística en 11 − 03.

40. De la figura 3.20b:

a) el 50 % de los estudiantes de 11 − 02 tiene calificaciones entre 3,8 y 5,0


.
b) el 50 % de los estudiantes de 11 − 01 tiene calificaciones entre 3,0 y 5,0
.
c) con relación a 11 − 01, 11 − 02 tiene mejores calificaciones por encima
del tercer cuartil.
d) con relación a 11 − 02, 11 − 01 tiene mejores calificaciones por encima
del tercer cuartil.

41. Definimos el rango intercuatilico como RIC = Q3 − Q1 De la figura 3.20b


tenemos que el RIC de 11 − 01 es:

a) 1, 5.
b) 3, 5.
c) 3,0.
d) 5, 3.

RESPONDA LAS PREGUNTAS DE LA 42 A LA 43 CON BASE EN LA GRÁ-


FICA DE LA FIGURA 3.5

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 121

(a) Tiempos realizados duran-


te el entrenamiento, recorriendo (b) Calificaciones obtenidas por estudiantes de grado
200 mts 11 en la asignatura de estadística

Figura 3.20: Diagramas de caja y bigotes

42. La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir
que las edades comprendidas entre el :

a) 20 y el 24,5 de la población está más dispersa que entre el 39 y el 45.


b) 50 % y el 25 % de la población está más dispersa que entre el 50 % y el
75 %.
c) 25 % y el 50 % de la población está más dispersa que entre el 50 % y el
75 %.
d) 20 y el 24,5 de la población está menos dispersa que entre el 39 y el 45.

43. El rango intercuartílico quiere significar que:

a) la parte central de la población está comprendida alrededor de 33, 5


años.
b) más de la población está comprendida en 14, 5 años.
c) el 50 % de la población está comprendido en 33, 5 años.
d) el 50 % de la población está comprendido en 14, 5 años.

Alfredo Yerman Cortes Verbel.


3.6. EVALUACIÓN POR COMPETENCIAS 122

Días Litros por cada 100 kilómetros


lunes 7
martes 8
miercoles 7
jueves 8
viernes 7
sabado 8
domingo

Cuadro 3.17: Consumos de gasolina semanales

Alfredo Yerman Cortes Verbel.


123
124
4. MEDIDAS DE
DISPERSIÓN.

Los pobres nunca serán modernos.


Se comunican por anécdotas, no por
estadísticas.

Carlos Monsiváis Aceves

Carlos Monsiváis Aceves (Ciudad de México, 4 de mayo de 1938-Ciudad de México,


19 de junio de 2010) fue un escritor y periodista mexicano. Desde muy joven colaboró
en suplementos culturales y medios periodísticos mexicanos. Estudió en la Facultad
de Economía y en la Facultad de Filosofía y Letras de la Universidad Nacional
Autónoma de México, y teología en el Seminario Teológico Presbiteriano de México.
Asistió al Centro de Estudios Internacionales de la Universidad de Harvard en 1965.
Gran parte de su trabajo lo publicó en periódicos, revistas, suplementos, semanarios
y otro tipo de fuentes hemerográficas. Colaboró en diarios mexicanos como Nove-
dades, El Día, Excélsior, Unomásuno, La Jornada, El Universal, Proceso, la revista
Siempre!, Fractal, Eros, Personas, Nexos, Letras Libres, Este País, la Revista de la
Universidad de México, entre otros. Fue editorialista de varios medios de comuni-
cación.
Sus posiciones políticas y su perspectiva crítica lo llevaron, desde el inicio de su
carrera periodística, a dar cuenta de todos aquellos fenómenos literarios, sociales
y culturales que implicaban un desacato al autoritarismo, al orden establecido y al
conservadurismo. De ahí su interés en el movimiento estudiantil de 1968, los ídolos
populares (El Santo, Cantinflas), el movimiento feminista, las figuras contestatarias
de izquierda y los personajes o acontecimientos que en algún sentido implicaban un
avance de las ideas progresistas y un rechazo a toda posición autoritaria. Promovió
los derechos de las minorías sociales, la educación pública y la lectura. Apoyó
abiertamente la lucha por la diversidad sexual y los derechos de los animales.
Fue un firme partidario de la despenalización del aborto y luchó en contra de la
tauromaquia, lo que le generó muchos detractores en los sectores conservadores.

Alfredo Yerman Cortes Verbel.


4.1. MEDIDAS DE DISPERSIÓN. 125

4.1. Medidas de Dispersión.


En diversos textos de Estadística se hace referencia a la dispersión o variabilidad
como la razón de ser de esta disciplina. En efecto, si no existiese heterogeneidad o
dispersión en las variables que estudiamos, sería muy fácil resumir la información
de las mismas, no haciendo ninguna falta los métodos estadísticos.
La dispersión en los valores de una variable puede deberse a diferentes causas,
a las cuales se suele hacer referencia como fuentes de variabilidad de los datos
en la variable. Por ejemplo, la variabilidad en las calificaciones de Análisis de los
estudiantes del grado décimo en septiembre (ver histograma en figura 4.1), ¿a qué
puede deberse? En este caso, una fuente de variabilidad fundamental será el co-
nocimiento y dominio de la materia. Es de esperar que diferencias individuales en
este aspecto sean la principal causa de la dispersión existente en las calificaciones
de la asignatura.

Figura 4.1: Histograma de frecuencia de grado décimo

Ahora bien, suponiendo que todos los alumnos hubieran tenido el mismo dominio y
nivel de conocimientos de la asignatura, ¿es de esperar que las notas hubiesen sido
las mismas?. Otras posibles fuentes de variabilidad: lo bien que se haya dormido

Alfredo Yerman Cortes Verbel.


4.1. MEDIDAS DE DISPERSIÓN. 126

la noche antes del examen, la capacidad para afrontar situaciones estresantes, la


habilidad para responder al tipo de preguntas planteadas en el examen (objetivas,
abiertas. . . ), la fiabilidad y validez del instrumento de medida (el examen), cómo nos
haya sentado el desayuno o comida previa al examen, etc.

Ejemplo 4.1
Los siguientes polígonos de frecuencias suavizados muestran gráficamente la dis-
tribución de una misma variable (X) en dos grupos distintos de sujetos (A y B),
¿cuál de los dos grupos tiene mayor variabilidad en dicha variable?

Figura 4.2: ¿cuál de los dos grupos tiene mayor variabilidad en dicha variable?

El objetivo del estudio de los parámetros estadísticos es obtener información


resumida del conjunto de datos en los que estamos interesados. Ya hemos resumido
nuestros datos en un número, por ejemplo la media. Pero ¿es representativo ese
valor?

Ejemplo 4.2
Supongamos que dos alumnos han realizado cinco exámenes cada uno. Para
evaluarlos elegimos hacer la media de las cinco notas que han obtenido. Las
notas han sido:
ALUMNO 1: 4- 5- 5- 5- 6. Media = 5
ALUMNO 2: 1- 2- 5- 8- 9. Media = 5
Si vemos los dos tendrían la misma nota, lo que nos haría pensar que los dos
alumnos son similares, pero si observamos sus notas hay una gran diferencia
entre ambos. El alumno 1 tiene unas notas muy homogéneas, muy próximas a la
media mientras que el segundo tiene unos resultados muy dispares.

Alfredo Yerman Cortes Verbel.


4.1. MEDIDAS DE DISPERSIÓN. 127

Para poder analizar bien sus resultados necesitaríamos otro parámetro que nos
mida esa variabilidad. Estamos hablando de las medidas de dispersión.

Ejemplo 4.3
La caja de un kiosco registra las siguientes entradas en miles de pesos, a lo largo
de dos semanas correspondientes a épocas distintas del año

1ª semana 2ª semana
Lunes 10 30
Martes 20 40
Miercoles 30 50
Jueves 50 50
Viernes 60 60
sabado 80 60
Domingo 100 60
Total 350 350

Cuadro 4.1: La media y la mediana de ambas distribuciones es de 50

La media y la mediana de ambas distribuciones coinciden (el valor de ambas


es 50 en los dos casos) y, sin embargo, las consecuencias que se podrían derivar
de una y otra tabla son bien distintas.

Las medidas de dispersión son parámetros estadísticos que nos informan sobre
la variabilidad de los datos, es decir, si la distribución de los datos es más o me-
nos homogénea y por tanto nos dan una medida sobre la representatividad de los
parámetros de centralización (moda, mediana o media)
A continuación se presentan una serie de índices estadísticos y representaciones
gráficas orientados a describir cuál es la dispersión de una variable.

4.1.1. Rango.
El rango se suele definir como la diferencia entre los dos valores extremos que
toma la variable. Es la medida de dispersión más sencilla y también, por tanto, la
que proporciona menos información. Además, esta información puede ser errónea,
pues el hecho de que no influyan más de dos valores del total de la serie puede
provocar una deformación de la realidad.

Alfredo Yerman Cortes Verbel.


4.1. MEDIDAS DE DISPERSIÓN. 128

Definición 4.1: Rango.

Sea xi con 1 ≤ i ≤ n, n valores de una variable, entonces

Rango = Max {xi } − Min {xi }

Ejemplo 4.4
Comparemos, por ejemplo, estas dos series:

Serie 1: 1- 5- 7- 7- 8- 9- 9- 10- 17

Serie 2: 2- 4- 6- 8- 10- 12- 14- 16- 18

Ambas series tienen rango 16, pero están desigualmente agrupadas, pues mien-
tras la primera tiene una mayor concentración en el centro, la segunda se distri-
buye uniformemente a lo largo de todo el recorrido.

En lo que respecta a la interpretación del rango, tanto éste como el resto de


índices de variabilidad que se van a tratar a continuación (exceptuando, parcialmen-
te, el coeficiente de variación) ofrecen resultados que no tienen una interpretación
directa en términos absolutos -¿qué significa un rango de 4 o un rango de 10, mucha
o poca dispersión? - El único caso en que la interpretación de estos índices es ab-
soluta es cuando dan igual a 0, indicando la ausencia de variabilidad en los datos
de la variable -caso por otra parte bastante excepcional. Valores mayores que 0
indicarán dispersión en los datos, tanto mayor cuanto mayor sea ese valor, pero sin
existir un techo que nos permita establecer interpretaciones en términos absolutos.
Ahora bien, sí que es posible con los mismos realizar interpretaciones en términos
relativos, por ejemplo, establecer en dos muestras de las que se tiene datos en una
misma variable, cuál de los dos tiene una mayor dispersión en sus datos o, también,
comparar la dispersión de los datos de una misma variable medida en dos momentos
temporales distintos. No olvidar que no tendrá sentido comparar estos índices de
dispersión cuando se obtengan para variables diferentes -tan solo una salvedad a
esta última afirmación:: cuando se trate de variables que estén expresadas en las
mismas unidades y que tenga sentido comparar (por ejemplo, las variables ingresos
y gastos mensuales para una muestra de consumidores)

Alfredo Yerman Cortes Verbel.


4.1. MEDIDAS DE DISPERSIÓN. 129

4.1.2. El rango Intercuartil.

Definición 4.2: Rango intercualtil. (RIC)

El rango o amplitud intercuartil (RIC) se obtiene como diferencia entre el


tercer y primer cuartil

RIC = Q3 − Q1

Una variante del mismo es el conocido como amplitud o rango semi-intercuartil

Definición 4.3: Rango Semi-Intercuartil. (RSIC)

Q3 − Q1
RSIC =
2

4.1.3. La varianza y la desviación típica.


En teoría, la desviación puede referirse a cada una de las medidas de tendencia
central: media, mediana o moda; pero el interés se suele centrar en la medida de
la desviación con respecto a la media, que llamaremos desviación media.

Definición 4.4: Desviación Media. (DM)

La desviación Media puede definirse como la media aritmética de las desvia-


ciones de cada uno de los valores con respecto a la media aritmética de la
distribución, y se indica así: Sea xi con 1 ≤ i ≤ n, n valores de una variable
Pn
|xi − x|
DM = i=1
n
En el caso en que la DM se obtenga a partir de una distribución de frecuen-
cias
Pn
fi |xi − x|
DM = i=1
n
fi es al frecuencia de cada valor xi .
La DM para datos agrupados en clases (intervalos) esta dada por
Pn
fi |ci − x|
DM = i=1
n
donde ci es la marca de clase o punto medio de la clase

Alfredo Yerman Cortes Verbel.


4.1. MEDIDAS DE DISPERSIÓN. 130

La desviación media viene a indicar el grado de concentración o de dispersión


de los valores de la variable. Si es muy alta, indica gran dispersión; si es muy baja
refleja un buen agrupamiento y que los valores son parecidos entre sí.
La desviación media se puede utilizar como medida de dispersión en todas aque-
llas distribuciones en las que la medida de tendencia central más significativas haya
sido la media. Tratándose de una buena opción, la DM ha sido ampliamente descon-
siderada en la práctica, básicamente por resultar poco manejable a nivel algebraico
en demostraciones matemáticas. Sin embargo, para las mismas distribuciones es
mucho más significativa la desviación típica, que estudiaremos a continuación, y
eso hace que el uso de la desviación media sea cada vez más restringido.

4.1.4. Varianza.
La Varianza es una medida de dispersión que se utiliza para representar la
variabilidad de un conjunto de datos respecto de la media aritmética de los mismo.
Así, se calcula como la suma de los residuos elevados al cuadrado y divididos entre
el total de observaciones. No obstante, se trata de una medida que también puede
calcularse como la desviación típica al cuadrado.
Fue Ronald Fisher1 , un matemático, físico, biólogo y estadístico de nacionalidad
inglesa, quien, en el año 1918, introdujo el término de varianza en uno de sus
estudios sobre biometría. Al mismo también, también fue el primero en introdujo los
estudios sobre el análisis de esta medida de la dispersión y también un prominente
eugenista2 en la parte temprana de su vida.
La varianza es una medida de dispersión ampliamente utilizada en los sectores
1
Ronald Aylmer Fisher (Londres, Reino Unido, 17 de febrero de 1890 – Adelaida, Australia, 29
de julio de 1962) fue un estadístico y biólogo que usó la matemática para combinar las leyes de
Mendel con la selección natural, de manera que ayudó así a crear una nueva síntesis del Darwinismo
conocida como la síntesis evolutiva moderna. Desarrolló el análisis de la varianza para analizar los
inmensos datos de sus cultivos desde 1840, y donde en los próximos años estableció su reputación como
bioestadístico. También fue uno de los mayores fundadores de la genética de poblaciones. Resumió
el principio de Fisher, propuso el denominado modelo de selección sexual runaway y la hipótesis
del hijo sexy, e ideó la ecuación de Fisher, el valor reproductivo y la desigualdad de Fisher. Anders
Hald le llamó un genio quién, casi a solas, creó las fundaciones por la ciencia moderna estadística,
mientras Richard Dawkins lo nombró el biólogo más grande desde Darwin. Fisher fue el padre de la
estadística moderna y diseño experimental. Dio a investigadores de la biología y la medicina con sus
herramientas más importantes, y también con la versión moderna del teorema central de la biología.
Geoffrey Miller dijo de él: Para los biólogos, fue un arquitecto de la síntesis moderna que utilizó
modelos matemáticos para integrar las leyes de Mendel con las teorías de la selección biológica de
Charles Darwin. Para los psicólogos, Fisher fue el inventor de varias pruebas estadísticas que se
deben usar siempre que sea posible en las revistas psicológicas. Para los granjeros, fue el fundador
de investigaciones en la agricultura, y salvó a millones de morir de hambre a través de programas
racionales de cultivo.
2
Eugenesia: filosofía social que defiende la mejora de los rasgos hereditarios humanos mediante
diversas formas de intervención manipulada y métodos selectivos de humanos

Alfredo Yerman Cortes Verbel.


4.1. MEDIDAS DE DISPERSIÓN. 131

de la economía y las finanzas, interpretándose como el riesgo de que el rendimiento


de algún procedimiento en concreto sea distinto del rendimiento esperado de dicho
procedimiento, esta junto con la desviación estándar -ambas medidas muy relacio-
nadas entre sí- son las medidas de dispersión de datos por excelencia, sobre todo
en el mundo de las finanzas.

Definición 4.5: Varianza. Sx 2

Sea xi con 1 ≤ i ≤ n, n valores de una variable. Se define la varianza como:


Pn 2
2 i=1 (xi − x)
Sx =
n
En el caso en que la varianza se obtenga a partir de una distribución de
frecuencias tenemos

Pn
2 i=1 fi (xi − x)2
Sx =
n

Ejemplo 4.5: Tiempo empleado en completar un laberinto.


Para la variable Tiempo empleado en completar un laberinto por una muestra de
20 ratas tenemos

Tiempo (seg) fi
9 3
10 8
11 6
12 2
13 1

Cuadro 4.2: Tiempo empleado por una rata en completar un laberinto

El promedio esta dado por:

9 · 3 + 10 · 8 + 11 · 6 + 12 · 2 + 13 · 1
x =
20
= 10, 5 seg

Alfredo Yerman Cortes Verbel.


4.1. MEDIDAS DE DISPERSIÓN. 132

la varianza será:
3(9 − 10,5)2 + 8(10 − 10,5)2 + 6(11 − 10,5)2 + 2(12 − 10,5)2 + 1(13 − 10,5)2
sx 2 =
20
2
= 1,05 seg

4.1.5. Desviación estándar.


Al calcular la varianza de una variable, las unidades del valor resultante son
el cuadrado de la unidad de medida de la variable en cuestión, lo cual complica
la interpretación del mismo. La desviación típica/estándar , al obtenerse como raíz
cuadrada de la varianza, ya no tiene este inconveniente pues la unidad en que se
exprese será la misma que la de la variable a partir de la que se haya obtenido.

Definición 4.6: Desviación Estándar


La desviación estándar se define como la raíz cuadrada de la media de los
cuadrados de las desviaciones con respecto a la media de la distribución. Es
decir

s
Pn
i=1 (xi − x)2
sx =
n

Ejemplo 4.6
El cálculo de la desviación estándar para la variable Tiempo empleado en com-
pletar un laberinto del ejemplo anterior es:
s
3(9 − 10,5)2 + 8(10 − 10,5)2 + 6(11 − 10,5)2 + 2(12 − 10,5)2 + 1(13 − 10,5)2
sx =
20
p
= 1,05
= 1,02 seg

Alfredo Yerman Cortes Verbel.


4.1. MEDIDAS DE DISPERSIÓN. 133

Figura 4.3: Caricatura de Rayma Suprani. Tomada de NOELIAGOROD.


(2016, junio 25). FIN DE SEMANA DIVERTIDO CON DATOS! @noeliagorod.
https://noeliagorod.com/2016/06/25/fin-de-semana-divertido-con-datos-2/ . Rayma
es una de las caricaturistas más destacadas de Venezuela. Miembro de la asociación
Cartooning for Peace, ha sido merecedora del Premio de la Sociedad Interamerica-
na de Prensa (2005) y del Pedro León Zapata como Mejor Dibujante de Venezuela
(2000 y 2009). Durante 19 años publicó una caricatura diaria en uno de los princi-
pales periódicos de Venezuela, El Universal, hasta que tuvo que abandonar el país
en 2014, como tantos millones de venezolanos, cuando su trabajo se hizo incómodo
para el medio en el que estaba y para los jefes de la revolución.

4.1.6. Coeficiente de variación.


La varianza o la desviación típica nos permiten comparar la dispersión de dife-
rentes distribuciones de frecuencias obtenidas para una misma variable en diferen-
tes grupos de sujetos. Por ejemplo, las desviaciones típicas de las variables Peso_G1
(=4,18) y Peso_G2 (=14,55) evidencia la diferente variabilidad de la variable Peso
en los dos grupos en que ha sido medida (ver datos originales debajo de la tabla
de estadísticos).

Alfredo Yerman Cortes Verbel.


4.1. MEDIDAS DE DISPERSIÓN. 134

Nombre variable N Mínimo Máximo Rango Media Desv. típ. CV


Peso_G1 5 70 81 11 75 4, 18 5, 57
Peso_G2 5 59 94 35 75, 2 14, 55 19, 35
PesoElef_G3 5 4800 5100 300 4960 119, 37 2, 40
PesoElef_G4 5 4200 6800 2600 5180 1028, 1 19, 85
Altura_G5 5 1, 68 1, 77 0, 09 1, 72 , 036 2, 12
Altura_G6 5 1, 45 1, 98 0, 53 1, 74 0, 227 13, 04

Cuadro 4.3

Peso_G1 (kg.): {73, 77, 81, 74, 70}

Peso_G2 (kg.): {65, 94, 86, 72, 59}

PesoElef_G3 (kg.): {4800, 4950, 5100, 4900, 5050}

PesoElef_G4 (kg.): {4200, 5500, 6800, 4500, 4900}

Altura_G5 (m.): {1,70, 1,72, 1,77, 1,75, 1,68}

Altura_G6 (m.): {1,45, 1,56, 1,98, 1,91, 1,80}

Esa misma diferencia en variabilidad también se puede observar en los datos


de los dos grupos en que fue medida la variable Altura (Altura_G5 y Altura_G6),
poniéndose de manifiesto como los valores de la desviación estándar están intrín-
secamente vinculados a la escala de medida de la variable considerada. Así, para
la variable Altura son aparentemente bajos los valores de sx , en comparación con
los obtenidos para la variable Peso (Peso_G1 y Peso_G2), aun cuando en el grupo
G6 existe una dispersión considerable en los valores observados de Altura, tal como
se pone de manifiesto si observamos los datos originales de esta variable para ese
grupo. Parece obvio que no resulta coherente comparar la dispersión de variables
de diferente naturaleza con coeficientes que se expresan en las mismas unidades
que las de las variables.
Incluso la comparación de la variabilidad para diferentes subgrupos en una mis-
ma variable puede resultar desacertada en algunos casos al hacerla con la desvia-
ción típica, en concreto, cuando se trate de subgrupos con medias bastante distintas
en la variable en cuestión. Ello es debido a que suele haber en las variables una
asociación entre la posición de los datos y su dispersión: posición mayor =>varia-
bilidad mayor. A modo de ejemplo, si miramos en la tabla las desviaciones típicas
para la variable Peso medida en dos grupos de elefantes (PesoElef_G3 y PesoE-
lef_G4), se observa como son valores muy elevados, por lo menos en comparación
con los obtenidos con los dos grupos de personas. Sin embargo, si nos fijamos en los

Alfredo Yerman Cortes Verbel.


4.1. MEDIDAS DE DISPERSIÓN. 135

datos originales correspondientes a PesoElef_G3 , se pone de manifiesto como, en


realidad, se trata de un conjunto de datos muy homogéneo para lo que sería de es-
perar para una muestra de elefantes. Conclusión, si comparáramos las desviaciones
típicas correspondientes a PesoElef_G3 y Peso_G2 podríamos llegar a conclusiones
totalmente equívocas.
Este problema de la comparación de la variabilidad de subgrupos con medias
bien distintas puede soslayarse a través de un índice propuesto por K. Pearson,
el coeficiente de variación (C V ), el cual relativiza el peso de la desviación típica
dividiéndola por la media (en consecuencia, no tiene unidades)

Definición 4.7: Coeficiente de Variación


El coeficiente de variación, también denominado como coeficiente de varia-
ción de Pearson, es una medida estadística que nos informa acerca de la
dispersión relativa de un conjunto de datos. Se define como la relación entre
la desviación típica de una muestra y su media, esto es:
sx
CV =
x
A mayor valor del coeficiente de variación mayor heterogeneidad de los
valores de la variable; y a menor CV., mayor homogeneidad en los valores
de la variable. Por ejemplo, si el CV es menor o igual al 30 %, significa
que la media aritmética es representativa del conjunto de datos, por ende
el conjunto de datos es "Homogéneo". Por el contrario, si el CV supera al
30 %, el promedio no será representativo del conjunto de datos (por lo que
resultará "Heterogéneo").

Ejemplo 4.7
Pensemos en una población de elefantes y otra de ratones. La población de ele-
fantes tiene un peso medio de 5.000 kilogramos y una desviación típica de 400
kilogramos. La población de ratones tiene un peso medio de 15 gramos y una
desviación típica de 5 gramos. Si comparáramos la dispersión de ambas pobla-
ciones mediante la desviación típica podríamos pensar que hay mayor dispersión
para la población de elefantes que para la de los ratones.
Sin embargo al calcular el coeficiente de variación para ambas poblaciones,
nos daríamos cuenta que es justo al contrario.
400
Elefantes: = 0,08
5000
5
Ratones: = 0,33
15
Si multiplicamos ambos datos por 100, tenemos que el coeficiente de variación

Alfredo Yerman Cortes Verbel.


4.2. EVALUACIÓN POR COMPETENCIAS 136

para los elefantes es de apenas un 8 %, mientras que el de las ratones es de un


33 %. Como consecuencia de la diferencia entre las poblaciones y su peso medio,
vemos que la población con mayor dispersión, no es la que tiene una mayor
desviación típica.

4.2. Evaluación por competencias


4.2.1. Ejercicios de aplicación
1. Un entrenador de fútbol necesita contratar a un delantero, y observa des-
de hace algún tiempo a dos jugadores, que en los últimos 8 encuentros del
campeonato registraron las siguientes cantidades de goles:

Bascuñán 2 1 0 3 2 1 2 3
Zúñiga 4 0 1 2 0 4 2 1

Cuadro 4.4: Registro de goles

El entrenador decide contratar al que registre mayor regularidad en las ano-


taciones de ambos jugadores, y para eso usará como recurso el Coeficiente de
Variación de Pearson. ¿A cuál de los dos jugadores debería entonces contratar?

2. La concentración de alcohol en la sangre de 15 conductores en estado de


ebriedad e implicados en accidentes mortales en un condado de los Estados
Unidos fue: 0, 27 - 0, 17- 0, 17 - 0, 16 - 0, 13 - 0, 24 - 0, 9 - 0, 24 - 0, 14 - 0, 16
- 0, 12 - 0, 16 - 0, 21 - 0, 17 - 0, 18
Calcular: Media aritmética, Desviación media y coeficiente de variación de
estas 15 mediciones.

3. Un agrónomo prueba un nuevo fertilizante para el crecimiento de las plantas.


Para probar su efectividad realiza el siguiente experimento. Mide el tallo de
16 plantas, luego a 8 de ellas le aplica el fertilizante. Al cabo de un tiempo,
mide el crecimiento del tallo de todas ellas, obteniendo las siguientes medidas
(en cms)

Con fertilizante 4 5 4 3 6 5 6 2
Sin fertilizante 3 4 3 5 3 8 5 4

Cuadro 4.5: Crecimiento de tallo de una planta con y sin fertilizante

Alfredo Yerman Cortes Verbel.


4.2. EVALUACIÓN POR COMPETENCIAS 137

El agrónomo considera efectivo el fertilizante si el crecimiento del tallo de la


muestra con fertilizante es más homogéneo que el de la muestra sin fertili-
zante, y para eso usará como recurso el Coeficiente de Variación de Pearson.
¿Es realmente efectivo?
4. Se aplica una misma prueba de Matemática a dos cursos A y B de un mismo
nivel. En A el promedio fue de 5,4 y con desviación estándar 0,8. Mientras
que en el curso B el promedio fue de 5,0 y la desviación estándar 1,2. Luis es
alumno del cuarto A y obtuvo nota 5,8 en la prueba, en tanto, Pedro alumno del
cuarto B obtuvo calificación 5,5. ¿Cuál de los dos logró mejor nota en relación
a su curso?
5. Se muestra las edades de hombres y mujeres que trabajan en una empresa.
Hombres: 22 - 25 - 30 - 45 - 36 - 41 - 56 - 27 - 29 - 36 - 40- 38 -45 -
26 - 49 - 52 - 28 - 46 - 24 - 55 - 34 - 47 - 22- 51-46 - 27 - 58 - 37 - 42
- 50 - 38 - 52 - 41 -37 - 28- 43.
Mujeres: 32 - 24 - 19 - 21 - 30 - 36 - 27 - 32 -29 -30 -42 - 27 - 33 - 38
- 25 - 28 - 31 -45 - 36 - 28-35 - 26- 41-23.

a) Calcular el promedio de edad en ambos grupos.


b) ¿Cuál de los dos grupos presenta MAYOR homogeneidad en sus edades?

6. Se quiere estimar el número de peces que habitan en un lago, para lo cual se


extrae una muestra de 210 peces, se marcan y se devuelven al lago. Después
de unos minutos se extra otra muestra de 70 peces, de los cuales 32 estaban
marcados. ¿Cuántos peces habitan en el lago, aproximadamente?
P
7. . Se definen: n = Total de datos; x = Media aritmética; xi = suma de los
datos; sx = desviación estándar; CV = coeficiente de variación. Complete la
siguiente tabla de mediciones para las 3 muestras y ordénelas desde la menos
homogénea a la más homogénea.
P
n xi x sx CV
Muestra 1 24 8,0 2,08
Muestra 2 69 4,6 0,18
Muestra 3 50 428 2,74

Cuadro 4.6: Complete la siguiente tabla de mediciones

8. En un conjunto de números hay veinte cuatros, cuarenta cincos, treinta seises,


y P sietes. Se sabe que el promedio de todos ellos es 5, 3

Alfredo Yerman Cortes Verbel.


4.2. EVALUACIÓN POR COMPETENCIAS 138

a) ¿Cuántos sietes contiene el conjunto?


b) ¿Cuál es el coeficiente de variación de los números?

4.2.2. Evaluando saberes

Alfredo Yerman Cortes Verbel.


139
5. MEDIDAS DE 140

APUNTAMIENTO Y
ASIMETRÍA.

Ahora bien, basta con dirigirse a las


últimas “Estadísticas Vitales” del
Ministerio de Salud de Argentina
(2018) para constatar que, de las
257 muertes maternas anuales,
apenas 19 correspondieron a
abortos inducidos. Ese año, la
población femenina fue 22.797.803,
lo cual significa que la muerte por
aborto afecta al 0, 00008 % de las
mujeres argentinas.. Toda vida es
sagrada y toda muerte es una
tragedia, pero nadie podría
argumentar seriamente, en vista de
estos números, que nos
encontramos frente a un problema
crucial de salud pública

Agustín Laje Arrigonia


a
Tomado de Laje, A.(2020, noviembre
18). Otra vez el aborto en Argentina, por
Agustín Laje—EL LIBERAL. El Liberal.
https://www.elliberal.com/otra-vez-el-
aborto-en-argentina-por-agustin-laje/

Agustín Laje es un escritor, politólogo y youtuber argentino; es uno de los autores


de ‘El Libro Negro de la Nueva Izquierda’, un best seller de habla hispana en
Amazon y uno de los representantes de la nueva derecha latinoamericana. Sin lugar
a duda, Laje se ha convertido en una figura controversial a lo largo y ancho de las
redes sociales hispanohablantes. Su persona pública es recordada por defender
sus ideas conservadoras ante periodistas, panelistas e interlocutores con ahínco y
solidez argumental -algo que hasta sus más acérrimos contradictores admiten-. Su

Alfredo Yerman Cortes Verbel.


5.1. ASIMETRÍA Y CURTOSIS. 141

contenido es consultado y citado por un público conservador que considera tener


pocos referentes teóricos de su lado.
Una frase que me gusta mucho y que muchas veces uso es que el izquierdismo es
la religión laica de los resentidos sociales. Es una frase que a mucha gente que le
ha gustado también y la han hecho meme, entonces yo la repito a veces.
[...]
Otro concepto que estoy usando mucho es el de generación idiota. Hablan de la
generación de cristal o de la generación débil, pero creo que la palabra idiota
calza mucho mejor. Cuando uno empieza a rastrear qué significaba el idiota en
la Antigüedad clásica, cuando rastreas qué significaba el idiota en el medioevo y
cuando te vas a leer textos donde hablan del idiota en la modernidad industrial, ves
que hay un hilo conductor enorme entre eso que se caracterizó desde hace mucho
tiempo como idiota y lo que hoy queremos decir cuando criticamos a la generación
actual.1

Agustín Laje.

5.1. Asimetría y Curtosis.


Las medidas de apuntamiento y asimetría nos permiten identificar la forma en
que se separan o aglomeran los valores de acuerdo a su representación gráfica.
Estas medidas describen la manera como los datos tienden a reunirse de acuerdo
con la frecuencia con que se hallen dentro de la información. Su utilidad radica
en la posibilidad de identificar las características de la distribución sin necesidad
degenerar el gráfico. Sus principales medidas son la Asimetría y la Curtosis. Es-
tas medidas permiten saber las características de su asimetría y homgeneidad sin
necesidad de representarlos gráficamente.

Figura 5.1: Tipos de asimetría


1
Tomado de Meza Díaz, E. (2022, mayo 1). Agustín Laje en charla con Infobae du-
rante su paso por la Feria del Libro de Bogotá: “Soy un músico frustrado”. infobae.
https://www.infobae.com/america/colombia/2022/05/01/agustin-laje-responde-el-cuestionario-proust-
en-su-paso-por-la-filbo-2022-soy-un-musico-frustrado/

Alfredo Yerman Cortes Verbel.


5.2. ASIMETRÍA. 142

5.2. Asimetría.
Esta medida nos permite identificar si los datos se distribuyen de forma uniforme
alrededor del punto central (Media aritmética). La asimetría presenta tres estados
diferentes (ver figura 5.1), cada uno de los cuales define de forma concisa como
están distribuidos los datos respecto al eje de asimetría. Se dice que la asimetría
es positiva cuando la mayoría de los datos se encuentran por encima del valor de la
media aritmética, la curva es Simétrica cuando se distribuyen aproximadamente la
misma cantidad de valores en ambos lados de la media y se conoce como asimetría
negativa cuando la mayor cantidad de datos se aglomeran en los valores menores
que la media.

(a) Distribución sesgada hacia la izquierda:


los datos se concentran hacia la izquierda de
la distribución

(b) Distribución sesgada hacia la derecha: Los (c) Distribuciones asimetricas: No pre-
datos se concentran hacia la derecha de la senta uniformidad dn la distribución de
distribución los datos

Figura 5.2: Distribuciones asimétricas

Alfredo Yerman Cortes Verbel.


5.2. ASIMETRÍA. 143

Relación entre media, mediana y moda

(a) Distribución sesgada a (b) Distribución sesgada a (c) Distribución de frecuen-


la izquierda. la derecha. cia simétrica.

Figura 5.3: Relación entre media, mediana y moda.

En una distribución sesgada a la izquierda, la moda es menor a la mediana,


y esta a su vez menor que la media. Mo < Me < x. Cuando una distribución de
frecuencia es simétrica, la media, mediana y moda coinciden en su valor. En el
caso de una distribución binomial simétrica, es necesario calcular el promedio de
las modas. Mo = Me = x. En una distribución sesgada a la derecha la relación
se invierte, la moda es mayor a la mediana, y esta a su vez mayor que la media.
Mo > Me > x.

5.2.1. Coeficiente de asimetría de Fisher.

Definición 5.1: Coeficiente de asimetría de Fisher.


Si x1 representa cada uno de los valores que toma la variable aleatoria, x
la media de la muestra y ni la frecuencia de cada valor, definimos g1 el
coeficiente de asimetría de Fisher como:
1 Pn 3
i=1 (xi − x) ni
g1 =  n
 23
1 Pn 2
n i=1 (x 1 − x) ni

y evalúa la proximidad de los datos a su media. El coeficiente de asimetría


de Fisher se puede expresar tambien como:
Pn 3
i=1 (xi − x)
g1 =
n (sx )3

Alfredo Yerman Cortes Verbel.


5.2. ASIMETRÍA. 144

donde sx es la desviación estándar

La anterior ecuación la podemos interpretar de la siguiente manera:


g1 = 0 Se acepta que la distribución es Simétrica, es decir, existe aproxi-
madamente la misma cantidad de valores a los dos lados de la media. Este
valor es difícil de conseguir por lo que se tiende a tomar los valores que son
cercanos ya sean positivos o negativos ±0,5.
g1 > 0 La curva es asimétricamente positiva por lo que los valores setienden
a reunir más en la parte izquierda que en la derecha de la media.
g1 < 0 La curva es asimétricamente negativa por lo que los valores se tienden
a reunir más en la parte derecha de la media.
Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la
distancia que separa la aglomeración de los valores con respecto a la media.

Día 1 2 3 4 5 6 7 8 9 10
Tiempo (minutos) 39 29 43 52 39 44 40 31 44 35

Cuadro 5.1: Tiempos registrados por un empleado de una empresa de transporte


para llegar a su trabajo.

Ejemplo 5.1
Los tiempos registrados por un empleado de una empresa de transporte para
llegar a su trabajo, son consignados en la siguiente tabla, (Ver cuadro 5.1). Se
quiere identificar si existe alguna concentración de interés en las frecuencias de
sus tiempos de llegada utilizando el coeficiente de asimetría de Fisher para poder
prepararse ante posibles eventualidades.
Para estimar el Coeficiente de Asimetría de Fisher se debe calcular primero
el promedio y la desviación estándar de los tiempos de llegada al trabajo:
Para el promedio tenemos:
10
1 X
x T iempo = xi
10
i=1
39 + 29 + 43 + 52 + 39 + 44 + 40 + 31 + 44 + 35
=
n
396
=
10
= 39,6

Alfredo Yerman Cortes Verbel.


5.2. ASIMETRÍA. 145

Para la desviación estándar tenemos:

v
u 10
u1 X 2
Sx = t xi − x T iempo
10
i=1
s
(39 − 39,6)2 + (29 − 39,6)2 + · · · + (44 − 39,6)2 + (35 − 39,6)2
=
10
r
412,4
=
10
p
= 41,25
= 6,42

Ahora el coeficiente de asimetría sería


P10 3
i=1 xi − x T iempo
g1 =
10 · 6,42
(39 − 39,6)3 + (29 − 39,6)3 + (43 − 39,6)3 · · · (35 − 39,6)3
=
10 · 6,42
191, 52
=
64,2
= 2, 98

5.2.2. Coeficiente de asimetría de Pearson.

Definición 5.2: Coeficiente de asimetría de Pearson.


El coeficiente de asimetría de Pearson Asp mide la diferencia entre la media
y la moda respecto a la dispersión del conjunto X = (x1 , x2 , · · · , xn ).

x − Mo
Asp =
Sx

Su interpretación es similar a la del coeficiente de Fisher, siendo nulo para una


distribución simétrica (en ese caso media y moda coinciden) y tanto más positivo,
o negativo, cuando más sesgada este la distribución hacia la derecha, o hacia la
izquierda.
Se trata de un índice adimensional (no tiene unidades de medida) que se aplica
a distribuciones unimodales. Cuando la distribución es simétrica, la media y la moda

Alfredo Yerman Cortes Verbel.


5.2. ASIMETRÍA. 146

coinciden, por lo que el numerador se anula y el valor de Ass = 0. En distribuciones


con asimetría positiva, la media es mayor que la moda, por lo que Asp > 0. Por
otro lado, cuando la asimetría es negativa, el valor de la moda es superior al de la
media y Asp < 0. i.e.

Si Aps < 0: la distribución tiene una asimetría negativa, puesto que la media
es menor que la moda.

Si Aps = 0: la distribución es simétrica.

Si Aps > 0: la distribución tiene una asimetría positiva, ya que la media es


mayor que la moda.

5.2.3. Coeficiente de asimetría de Bowley.


Se define el coeficiente de Bowley como un método para la definición de asime-
tría en una serie de datos. Está basado en la posición de los cuartiles y la mediana,
y utiliza la siguiente expresión:
En una distribución simétrica el tercer cuartil estará a la misma distancia de la
mediana que el primer cuartil.

Definición 5.3: Coeficiente de asimetría de Bowley.

El coeficiente de asimetría de Bowley AsB toma como referencia los cuartiles


para determinar si la distribución es simétrica o no. Para aplicar este coefi-
ciente, se supone que el comportamiento de la distribución en los extremos
es similar. Sea el conjunto X = (x1 , x2 , · · · , xN ), la asimetría de Bowley es:

Q3 + Q1 − 2Me
AsB =
Q − 3 − Q1

Dado que la mediana Me es lo mismo que el segundo cuartil, por lo tanto


la fórmula anterior se puede escribir como:

Q3 + Q1 − 2Q2
AsB =
Q − 3 − Q1

Si AsB < 0: la distribución tiene una asimetría negativa, puesto que la dis-
tancia de la mediana al primer cuartil es mayor que al tercero.

Si AsB = 0: la distribución es simétrica, ya que el primer y tercer cuartil están


a la misma distancia de la mediana.

Alfredo Yerman Cortes Verbel.


5.3. CURTOSIS. 147

Si AsB > 0: la distribución tiene una asimetría positiva, ya que la distancia


de la mediana al tercer cuartil es mayor que al primero.

5.3. Curtosis.
Esta medida determina el grado de concentración que presentan los valores
en la región central de la distribución. Por medio del Coeficiente de Curtosis, po-
demos identificar si existe una gran concentración de valores (Leptocúrtica), una
concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica)

Definición 5.4: Coeficiente de Curtosis.


Si xi representa cada uno de los valores que toma la variable aleatoria, x
la media de la muestra y ni la frecuencia de cada valor, definimos g2 el
coeficiente de curtosis como:
1 Pn 4
i=1 (xi − x) ni
g2 =  n
2 − 3
1 Pn 2
n i=1 (x i − x) ni

La curtosis (o apuntamiento) es una medida de forma que mide cuán escar-


pada o achatada está una curva o distribución. Se puede definir tambien por
la formula:

Pn
i=1 (xi − x)4 ni
g2 =
n (sx )4

La anterior ecuación la podemos interpretar de la siguiente manera:

g2 = 0 la distribución es Mesocúrtica: Al igual que en la asimetría esbastante


difícil encontrar un coeficiente de Curtosis de cero (0), por lo que sesuelen
aceptar los valores cercanos (±0,5 aprox).

g2 > 0 la distribución es Leptocúrtica

g2 < 0 la distribución es Platicúrtica

Alfredo Yerman Cortes Verbel.


5.3. CURTOSIS. 148

Figura 5.4: Tipos de curtosis

Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 =


±0,5) y un coeficiente de Curtosis de (g2 = ±0,5), se le denomina Curva Normal.
Este criterio es de suma importancia ya que para la mayoría de los procedi-
mientos de la estadística de inferencia se requiere que los datos se distribuyan
normalmente. La principal ventaja de la distribución normal radica en el supuesto
que el 95 % delos valores se encuentra dentro de una distancia de dos desviaciones
estándar dela media aritmética (ver figura 5.5); es decir, si tomamos la media y le
sumamos dos veces la desviación y después le restamos a la media dos desvia-
ciones, el 95 % de los casos se encontraría dentro del rango que compongan estos
valores

Figura 5.5: Curva normal

Alfredo Yerman Cortes Verbel.


5.3. CURTOSIS. 149

Figura 5.6: Amadeo Artacho (MatematicasCercanas) [@ matescercanas] (23 ene.


2017) Los comentaristas de fútbol y su pasión por las estadísticas. (viñeta de
Alberto Montt) # matematicas # futbol [Tweet] [Imagen adjunta]. Twitter. https:
//twitter.com/matescercanas/status/823674454492516352

Alfredo Yerman Cortes Verbel.


5.4. EVALUACIÓN POR COMPETENCIAS 150

5.4. Evaluación por competencias


5.4.1. Ejercicios de aplicación
1. Si dos Trabajadores ejecutan la misma labor pero el Trabajador A, lo hace
en un tiempo promedio de 1 hora con una desviación estándar de 5 min y
el trabajador B, hace el trabajo en un tiempo promedio de 45 min y una
desviación estándar de 5 min. ¿Cuál trabajador es más homogéneo realizando
la labor? , por que?

2. Sea AP el coeficiente de asimetría de Pearson, AP :

Si AP ≤ −1, los datos están muy sesgados negativamente.


Si −1,0 < AP ≤ −0,5, los datos tiene sesgo moderado negativo.
Si −0,5 < AP ≤ 0,5, los datos son razonablemente simétricos, siendo
que si AP = 0 la distribución es simétrica.
Si 0,5 < AP ≤ 1,0, los datos tiene sesgo moderado positivo.
Si 1,0 < AP , los datos están muy sesgados positivamente.

El promedio de las edades de los cartageneros que se han vacunado contra


la fiebre amarilla es de 35,7 años; la edad en la que más se vacunan los
cartageneros es a los 22,5 años y la desviación estándar es de 17,86 años.
Calcular AP e indicar que tipo de sesgo tiene.

3. Un estudiante quiere conocer si los profesores de IESAS, prefieren dictar cla-


ses con ropa formal o con ropa informal. Para ello, realiza una encuesta a 120
profesores de la institución educativa elegidos de forma aleatoria. Identificar:
población, muestra y varible aleatoria.

4. El analista de investigación para la empresa de corretaje de acciones Sidde


Financial, desea comparar la dispersión de las razones precio - rendimiento
en un grupo de acciones comunes, con la dispersión de sus rendimientos
sobre inversión. Para las razones precio - rendimiento la media es 10,9 y la
desviación estándar 1,8. El rendimiento medio sobre inversión es 25 % y la
desviación estándar 5,2 %.
Calcular los coeficientes de variación de las razones precio - rendimiento, y
el rendimiento sobre inversión e identificar cuan tiene mayor variación:

Alfredo Yerman Cortes Verbel.


5.4. EVALUACIÓN POR COMPETENCIAS 151

Figura 5.7: Distribución de edades de un grupo de estudiantes de una escuela


primaria

5. De acuerdo a la figura 5.11 calcular el total de datos

6. De acuerdo a la figura 5.11,calcular la edad promedio.

7. De acuerdo a la figura 5.11, calcular la moda.

8. De acuerdo a la figura 5.11, calcular la mediana.

9. De acuerdo a la figura 5.11, calcular el coeficiente de asimetria de fisher e


indicar que tipo de asimetría presenta.
La figura 5.8 representa un diagrama de caja y bigotes que muestra los minutos
que tarda en hacer efecto un medicamento en una población determinada.

10. De la figura 5.8, ¿A qué porcentaje de la población había hecho efecto al cabo
de 30 minutos?:

11. De De la figura 5.8, ¿Al cabo de cuántos minutos había hecho efecto al 50 %
de la población?. :

12. De De la figura 5.8, ¿cuántos minutos tardó en hacer efecto a toda la población?
:

Alfredo Yerman Cortes Verbel.


5.4. EVALUACIÓN POR COMPETENCIAS 152

Figura 5.8: Minutos que tarda en hacer efecto un medicamento en una población

13. De De la figura 5.8, ¿A qué porcentaje había hecho efecto a los 55 minutos?:
14. Miguel obtuvo la siguiente información a partir de un conjunto de datos de
las edades de las personas que fueron a la piscina un sábado por la mañana:
valor mínimo: 7
Q1 = 10
Q2 = 15
Q3 = 22
valor máximo: 31
Realizar el diagrama de caja y bigotes que represente esta situación
15. Las tres curvas de la figura 5.17 representan los resultados de un examen
aplicado a tres grupos de alumnos de una misma asignatura. ¿cuál es grupo
cuyas calificaciones se representan una curva bastante homogénea, en donde
la mayoría obtuvo una calificación muy cercana al promedio?¿ cual es el grupo
con curva que indica una mayor heterogeneidad , que probablemente contiene
estudiantes promedio, algunos alumnos más aventajados y seguramente otro
tanto menos atentos. ?

Figura 5.9: Resultados de una evaluación aplicada a tres grupos A,B y C

Alfredo Yerman Cortes Verbel.


5.4. EVALUACIÓN POR COMPETENCIAS 153

16. ¿Qué otra conclusión podemos sacar de la gráfica de la figura 5.17?


La gráfica de la figura 5.22 representa la distribución de las edades de un
grupo de personas a las que se les aplico una encuesta sobre el uso de redes
sociales.

Figura 5.10: Distribución de edades de un grupo de personas a las que se les aplico
una encuesta

17. La distribución de las edades de la gráfica de la figura 5.22 ¿ que tipo de


asimetría presenta?:

18. ¿Qué otra conclusión podemos sacar de la gráfica de la figura 5.22?

5.4.2. Evaluando saberes


1. Si dos Trabajadores ejecutan la misma labor pero el Trabajador A, lo hace
en un tiempo promedio de 1 hora con una desviación estándar de 5 min y
el trabajador B, hace el trabajo en un tiempo promedio de 45 min y una
desviación estándar de 5 min. ¿Cuál trabajador es más homogéneo realizando
la labor?

a) el trabajador A dado que tiene un coeficiente de variación de 8,3 %


b) el trabajador B dado que tiene un coeficiente de variación de 11,1 %
c) el trabajador B dado que el trabajador A tiene un coeficiente de variación
de mayor.
d) el trabajador A dado que el trabajador B tiene un coeficiente de variación
de mayor.

Alfredo Yerman Cortes Verbel.


5.4. EVALUACIÓN POR COMPETENCIAS 154

2. Sea AP el coeficiente de asimetría de Pearson, AP :

Si AP ≤ −1, los datos están muy sesgados negativamente.


Si −1,0 < AP ≤ −0,5, los datos tiene sesgo moderado negativo.
Si −0,5 < AP ≤ 0,5, los datos son razonablemente simétricos, siendo
que si AP = 0 la distribución es simétrica.
Si 0,5 < AP ≤ 1,0, los datos tiene sesgo moderado positivo.
Si 1,0 < AP , los datos están muy sesgados positivamente.

El promedio de las edades de los cartageneros que se han vacunado contra


la fiebre amarilla es de 35,7 años; la edad en la que más se vacunan los
cartageneros es a los 22,5 años y la desviación estándar es de 17,86 años.
De acuerdo a lo anterior podemos decir que:

a) la distribución de las edades de los cartageneros está muy sesgada


positivamente, dado que AP = 3,25.
b) la distribución de las edades de los cartageneros tiene sesgo moderado
positivo, dado que AP = 0,73.
c) la distribución de las edades de los cartageneros está muy sesgada
negativamente, dado que AP = −2,31.
d) la distribución de las edades de los cartageneros tiene sesgo moderado
negativo, dado que AP = −0, 73.

3. El analista de investigación para la empresa de corretaje de acciones Sidde


Financial, desea comparar la dispersión de las razones precio - rendimiento
en un grupo de acciones comunes, con la dispersión de sus rendimientos
sobre inversión. Para las razones precio - rendimiento la media es 10,9 y la
desviación estándar 1,8. El rendimiento medio sobre inversión es 25 % y la
desviación estándar 5,2 %. Al Comparar los coeficientes de variación de las
razones precio - rendimiento, y el rendimiento sobre inversión tenemos que:

a) Existe mayor dispersión en el precio-rendimiento cuyo valor es 20, 8 %.


en relación al rendimiento-inversión con su valor de 16, 51 %.
b) tanto el precio-rendimiento como el rendimiento-inversión, presentan la
misma variación dado que tiene el mismo coeficiente de variación.
c) Existe menor dispersión en el precio-rendimiento cuyo valor es 16, 51 %
en relación al rendimiento-inversión con su valor de 20, 8 %.
d) tanto el precio-rendimiento como el rendimiento-inversión, presentan la
distinta variación aunque tienen el mismo coeficiente de variación.

Alfredo Yerman Cortes Verbel.


5.4. EVALUACIÓN POR COMPETENCIAS 155

RESPONDA LAS PREGUNTAS DE LA 4 A LA 9 CON BASE EN LA SIGUIEN-


TE INFORMACIÓN (Ver figura 5.11).

Figura 5.11: Distribución de edades de un grupo de estudiantes de una escuela


primaria

4. De acuerdo a la figura 5.11 tenemos que el total de datos que se tienen es


de:

a) 21 datos.
b) 7 datos.
c) 6 datos.
d) 150 datos.

5. De acuerdo a la figura 5.11, la edad promedio es de:

a) 8,3 años.
b) 21 años.
c) 7,1 años.
d) 8 años.

6. La edad mediana:

a) 6 años.
b) 21 años.
c) 7 años.

Alfredo Yerman Cortes Verbel.


5.4. EVALUACIÓN POR COMPETENCIAS 156

d) 8 años.

7. De acuerdo a la figura 5.11, la moda de las edades es de:

a) 6 años.
b) 21 años.
c) 7 años.
d) 3 años.

8. De acuerdo a la figura 5.11, la moda de las edades es de:

a) 6 años.
b) 21 años.
c) 7 años.
d) 3 años.

9. La distribución de datos de la figura 5.11 es

a) simétrica.
b) asimetrica positiva.
c) asimetrica negativa.
d) antisesgada.

RESPONDA LAS PREGUNTAS DE LA 10 A LA 13 CON BASE EN LA GRÁ-


FICA DE LA FIGURA 5.12
La figura 5.12 representa un diagrama de caja y bogotes que muestra los
minutos que tarda en hacer efecto un medicamento en una población deter-
minada.

Figura 5.12: Minutos que tarda en hacer efecto un medicamento en una población

Alfredo Yerman Cortes Verbel.


5.4. EVALUACIÓN POR COMPETENCIAS 157

10. De la figura 5.12, ¿A qué porcentaje de la población había hecho efecto al


cabo de 30 minutos?:

a) 100 %.
b) 85 %.
c) 30 %.
d) 0 %.

11. De De la figura 5.12, ¿Al cabo de cuántos minutos había hecho efecto al 50 %
de la población?. :

a) 100 minutos.
b) 85 minutos.
c) 80 minutos.
d) 55 minutos.

12. De De la figura 5.12, ¿cuántos minutos tardó en hacer efecto a toda la pobla-
ción? :

a) 140 minutos.
b) 130 minutos.
c) 100 minutos.
d) 75 minutos.

13. De De la figura 5.12, ¿A qué porcentaje había hecho efecto a los 55 minutos?:

a) 75 %.
b) 55 %.
c) 50 %.
d) 25 %.

14. Miguel obtuvo la siguiente información a partir de un conjunto de datos de


las edades de las personas que fueron a la piscina un sábado por la mañana:

valor mínimo: 7
Q1 = 10
Q2 = 15
Q3 = 22

Alfredo Yerman Cortes Verbel.


5.4. EVALUACIÓN POR COMPETENCIAS 158

valor máximo: 31

Miguel dibujó un diagrama de caja y bigotes usando los datos. ¿Cuál de los
siguientes es el diagrama que dibujó Miguel?:

Figura 5.13: a)

Figura 5.14: b)

Figura 5.15: c)

Alfredo Yerman Cortes Verbel.


5.4. EVALUACIÓN POR COMPETENCIAS 159

Figura 5.16: d)

15. Un estudiante quiere conocer si los profesores de IESAS, prefieren dictar


clases con ropa formal o con ropa informal. Para ello, realiza una encuesta a
120 profesores de la institución educativa elegidos de forma aleatoria. De la
anterior situación podemos identificar como:

a) • Población: conjunto de todos los profesores de IESAS.


• Muestra: 120 profesores de IESAS.
• variable cuantitativa: tipo de ropa que prefieren los profesores.
b) • Población: conjunto de todos los profesores de IESAS.
• Muestra: 120 profesores de IESAS.
• variable cualitativa: tipo de ropa que prefieren los profesores.
c) • Población: 120 profesores de IESAS..
• Muestra: conjunto de todos los profesores de IESAS
• variable cualitativa: tipo de ropa que prefieren los profesores.
d) • Población: 120 profesores de IESAS.
• Muestra: conjunto de todos los profesores de IESAS.
• variable cuantitativa: tipo de ropa que prefieren los profesores.

16. Las tres curvas de la figura 5.17 representan los resultados de un examen
aplicado a tres grupos de alumnos de una misma asignatura. De lo anterior
podemos inferir que:

Figura 5.17: Resultados de una evaluación aplicada a tres grupos A,B y C

Alfredo Yerman Cortes Verbel.


5.4. EVALUACIÓN POR COMPETENCIAS 160

a) hay muchos mas estudiantes en el grupo A que en el grupo B.


b) El resultado promedio del grupo A es mayor al resultado promedio del
grupo C .
c) los resultados del grupo C con curva platicurtica,indican una menor hete-
rogeneidad en el grupo, que probablemente contiene estudiantes prome-
dio, algunos alumnos más aventajados y seguramente otro tanto menos
atentos.
d) El grupo cuyas calificaciones se representa por la curva A leptocúrtica,
es bastante homogéneo, la mayoría obtuvo una calificación promedio o
cercana.

17. Se han medido los tiempos requeridos por un grupo de conductores de 4


empresas para desplazarse entre dos ciudades. la gráfica que representa una
mayor heterogeneidad en el grupo y un comportamiento platicurtico es:

Figura 5.18: a)

Figura 5.19: b)

Alfredo Yerman Cortes Verbel.


5.4. EVALUACIÓN POR COMPETENCIAS 161

Figura 5.20: c)

Figura 5.21: d)

RESPONDA LAS PREGUNTAS DE LA 18 A LA 20 CON BASE EN LA SI-


GUIENTE INFORMACIÓN
La gráfica de la figura 5.22 representa la distribución de las edades de un
grupo de personas a las que se les aplico una encuesta sobre el uso de redes
sociales.

Alfredo Yerman Cortes Verbel.


5.4. EVALUACIÓN POR COMPETENCIAS 162

Figura 5.22: Distribución de edades de un grupo de personas a las que se les aplico
una encuesta

18. De la gráfica de la figura 5.22 podemos decir que:

a) la distribución de datos es positiva y la edad promedio a quienes se les


aplicó la encuesta es próxima a 30 años.
b) la distribución de datos es positiva y la edad promedio a quienes se les
aplicó la encuesta es 50 años.
c) la distribución de datos es negativa y la edad promedio a quienes se les
aplicó la encuesta es 50 años.
d) la distribución de datos es negativa y la edad promedio a quienes se les
aplicó la encuesta es 30 años.

19. De la gráfica de la figura 5.22 podemos decir que la encuesta fue aplicada a :

a) menos de 10 personas de 50 años.


b) 20 personas de 50 años.
c) 30 personas de 20 años.
d) mas de 40 personas de 10 años.

20. La distribución de las edades de la gráfica de la figura 5.22 es:

a) positiva.
b) negativa.
c) curtosis.
d) platicurtica.

Alfredo Yerman Cortes Verbel.


163
164

6. CORRELACIÓN Y
REGRESIÓN LINEAL.

Para entender los pensamientos de


Dios debemos estudiar las
estadísticas, dado que éstas son las
medidas de su voluntad.

Florence Nightingale

Florence Nightingale
(Florencia, 12 de mayo de 1820-Londres, 13 de agosto de 1910), fue una enfermera,
escritora y estadística británica, considerada precursora de la enfermería profesional
contemporánea y creadora del primer modelo conceptual de enfermería. Desde muy
joven destacó en matemáticas, y culminó sus estudios y aplicó sus conocimientos de
estadística a la epidemiología y a la estadística sanitaria. Fue la primera mujer ad-
mitida en la Royal Statistical Society británica, y miembro honorario de la American
Statistical Association. Pese a las reticencias de sus padres, Florence Nightinga-
le consiguió convencerlos en 1840 de que la dejaran estudiar matemáticas y, más
tarde, enfermería. Aprendió aritmética, geometría y álgebra, y dedicó un tiempo a
dar clases particulares a niños en estas materias. En el Museo Británico se pueden
leer planes de lecciones con su letra, incluidos problemas de cuentos basados en la
vida de los niños a los que estaba enseñando, donde muestra preocupación por la
educación de las niñas. Durante la guerra de Crimea en 1854, dirigió a un grupo de
enfermeras que lograron descender la tasa de mortalidad de los heridos británicos
del 40 % al 2 %, recopilando datos estadísticos y cambiando las pésimas condiciones
higiénicas en las que se encontraban.
Su trabajo con las estadísticas médicas fue tan impactante que en 1858 fue elegida
como miembro de la Sociedad de Estadística de Inglaterra. Fue una de las pioneras
en la representación gráfica de datos, ya que inventó coloridos diagramas de áreas
polares. Aunque no fue la primera persona que utilizó diagramas, es posible que sí
fuera la primera en utilizarlos para persuadir a las autoridades de la necesidad de
introducir cambios. Durante la Guerra Civil estadounidense, Nightingale fue con-
sultora sobre salud del ejército del gobierno de Estados Unidos. También asesoró a

Alfredo Yerman Cortes Verbel.


165

la oficina de guerra británica sobre la atención médica del ejército en Canadá. Sus
actividades matemáticas incluían determinar la velocidad promedio del transporte
en trineo y calcular el tiempo necesario para transportar a los enfermos a través
de las inmensas distancias de Canadá. De fe anglicana, creía que Dios la había
inspirado para ser enfermera. Alcanzó fama mundial por sus trabajos precursores
de enfermería en la asistencia a los heridos durante la guerra de Crimea. A partir
de ese momento fue conocida como «la dama de la lámpara», por su costumbre de
realizar rondas nocturnas con una lámpara para atender a sus pacientes. En 1883,
la reina Victoria le otorgó la Real Cruz Roja, y en 1907 se convirtió en la primera
mujer en recibir la Orden de Mérito del Reino Unido. En 1908, le fueron otorgadas
las Llaves de la Ciudad de Londres. El juramento Nightingale efectuado por los
enfermeros al graduarse, fue creado en su honor en 1893. El Día Internacional de
la Enfermería se celebra en la fecha de su cumpleaños.

Figura 6.1: Diagrama de las causas de mortalidad elaborado por Florence Nightin-
gale.

Alfredo Yerman Cortes Verbel.


6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 166

6.1. Correlación lineal y Regresión lineal simple.


La correlación lineal y la regresión lineal simple son métodos estadísticos que
estudian la relación lineal existente entre dos variables. Antes de profundizar en
cada uno de ellos, conviene destacar algunas diferencias:
La correlación cuantifica como de relacionadas están dos variables, mientras
que la regresión lineal consiste en generar una ecuación (modelo) que, ba-
sándose en la relación existente entre ambas variables, permita predecir el
valor de una a partir de la otra.

El cálculo de la correlación entre dos variables es independiente del orden o


asignación de cada variable a X e Y , mide únicamente la relación entre ambas
sin considerar dependencias. En el caso de la regresión lineal, el modelo varía
según qué variable se considere dependiente de la otra (lo cual no implica
causa-efecto).

A nivel experimental, la correlación se suele emplear cuando ninguna de las


variables se ha controlado, simplemente se han medido ambas y se desea
saber si están relacionadas. En el caso de estudios de regresión lineal, es
más común que una de las variables se controle (tiempo, concentración de
reactivo, temperatura. . . ) y se mida la otra.

Por norma general, los estudios de correlación lineal preceden a la generación


de modelos de regresión lineal. Primero se analiza si ambas variables están
correlacionadas y, en caso de estarlo, se procede a generar el modelo de
regresión.

6.1.1. Correlación lineal


El principal objetivo de la regresión simple es construir un modelo funcional
y = f (x) que explique lo mejor posible la relación entre dos variables X (variable
independiente) e Y (variable dependiente) medidas en una misma muestra. Gene-
ralmente, el modelo construido se utiliza para realizar inferencias predictivas de Y
en función de X en el resto de la población. Pero aunque la regresión garantiza que
el modelo construido es el mejor posible, dentro del tipo de modelo elegido (lineal,
polinómico, exponencial, logarítmico, ver cuadro 6.3.), puede que aún así, no sea un
buen modelo para hacer predicciones, precisamente porque no haya relación de ese
tipo entre X e Y . Así pues, con el fin de validar un modelo para realizar predicciones
fiables, se necesitan medidas que nos hablen del grado de dependencia entre X e
Y , con respecto a un modelo de regresión construido. Estas medidas se conocen
como medidas de correlación. Dependiendo del tipo de modelo ajustado, habrá dis-
tintos tipos de medidas de correlación. Así, si el modelo de regresión construido

Alfredo Yerman Cortes Verbel.


6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 167

(a) Cuando X crece, Y crece. Casi to- (b) Cuando X crece, Y decrece. Ca-
dos los puntos pertenecen a los cua- si todos los puntos pertenecen a los
drantes primero y tercero. cuadrantes segundo y cuarto.

Figura 6.2: Interpretación geometrica de la covarianza Sxy

es una recta, hablaremos de correlación lineal; si es un polinomio, hablaremos de


correlación polinómica; si es una función exponencial, hablaremos de correlación ex-
ponencial, etc. En cualquier caso, estas medidas nos hablarán de lo bueno que es el
modelo construido, y como consecuencia, de si podemos fiarnos de las predicciones
realizadas con dicho modelo.
Para estudiar la relación lineal existente entre dos variables continuas es ne-
cesario disponer de parámetros que permitan cuantificar dicha relación. Uno de
estos parámetros es la covarianza, que indica el grado de variación conjunta de dos
variables aleatorias.

Definición 6.1: Covarianza Muestral


Sea x̄ e ȳ la media de cada variable y xi e yi el valor de las variables para la
observación i, N el total de datos. se define la Covarianza Muestral notada
por C ov(X , Y ) o Sxy como:
Pn
(xi − x̄)(yi − ȳ)
C ov(x, y) = Sxy = i=1
n−1

Ejemplo 6.1
Supongamos que los resultados de medir a 8 estudiantes en las variables horas
de estudio empleadas en la asignatura de estadística (X) y su nota en la misma
de 0 a 10 (Y) están en el cuadro 6.1. La covarianza esta dada por

Alfredo Yerman Cortes Verbel.


6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 168

Estudiante X Y (x − x̄) (y − ȳ) (x − x̄)(y.ȳ)


1 4 3 −3,25 −3,75 12,19
2 5 5 −2,25 −1,75 3,94
3 7 8 −0,25 1,25 −0,31
4 12 10 4,75 3,25 15,44
5 10 9 2,75 2,25 6,19
6 9 9 1,75 2,25 3,94
7 8 8 0,75 1,25 0,94
8 3 2 −4,75 −4,75 22,56
P
Promedio = 62,51

Cuadro 6.1: La variable X representa las horas de estudio de la asignatura estadís-


tica y Y la calificación obtenida.

Pn
i=1 (xi
− x̄)(yi − ȳ)
C ov(x, y) = Sxy =
n−1
62,51
=
7
= 8,93

Supongamos que la nota en la asignatura de estadística se hubiera medido en


una escala de 0 a 20 por ejemplo, si el examen constara de 20 preguntas en lugar
de la escala de 0 a 10 del ejemplo anterior 6.1; si mantenemos las mismas notas
previas, es decir, teniendo igual rendimiento por alumno que antes pero en esta
última escala, las puntuaciones hubieran sido , por ejemplo, 5 en una escala de 0 a
10 se corresponde con una de 10 en la escala de 0 a 20. En esta nueva escala de
la variable Y , la medida de covariación entre las dos variables será 17,85 (El lector
podrá verificar este dato fácilmente). Este valor casi dobla el de antes (17,85 > 8,93).
Esto NO quiere decir que el grado de asociación entre X e Y resulta superior en
este segundo caso, cuando sabemos que las puntuaciones de Y son las mismas que
antes pero medidas en otra escala. La explicación está en la amplitud de la escala
de medición de la segunda de nuestras variables.
La medida de la covariación entre dos variables depende del tipo de escala
utilizada. Cuanto más alto es el rango de variación de las escalas más alto es el re-
sultado de la covariación entre los datos manteniendo equivalente las puntuaciones
de los sujetos en la nueva escala respecto a la original. Es por eso que necesitamos,
para establecer comparativas entre datos provenientes de diferentes escalas (o de
diferentes investigaciones) y para los mismos conceptos o temas, de una medida de
covariación que no dependa de ellas. Esta medida es la correlación de Pearson.

Alfredo Yerman Cortes Verbel.


6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 169

Coeficiente de Correlación lineal de Pearson


El estimador muestral más utilizado para evaluar la asociación lineal entre dos
variables X e Y es el coeficiente de correlación de Pearson (r). Se trata de un
índice que mide si los puntos tienen tendencia a disponerse en una línea recta.
Puede tomar valores entre 1 y −1. Representado el primero un valor de correlación
perfecta positiva entre las variables y el último de correlación perfecta negativa. Un
valor de r = 0 significa la ausencia total de correlación entre las variables. (Ver
cuadro 6.2.)

Definición 6.2: Coeficiente de Correlación lineal de Pearson


El Coeficiente de Correlación lineal de Pearson se nota r y se define como la
covarianza muestral entre X e Y dividida por el producto de las desviaciones
típicas de cada variable; i.e.:

Sxy
r =
Sx Sy
Pn
i=1 (xi− x̄)(yi − ȳ)
! rP !
r = r Pn
(x − x̄) 2 n
(y − ȳ) 2
i=1 i i=1 i
(n − 1)
n−1 n−1

Propiedades del coeficiente de correlación de Pearson r.

No tiene dimensión, y siempre toma valores en [−1, 1].

Si las variables son independientes, entonces r = 0, pero el inverso no tiene


por qué ser cierto.

Si existe una relación lineal exacta entre X e Y , entonces r valdría 1 (relación


directa) ó −1 (relación inversa).

Si r > 0, esto indica una relación directa entre las variables (es decir, que si
aumentamos X , también aumenta Y ).

Si r < 0, la correlación entre las variables es inversa (si aumentamos una, la


otra disminuye).

Alfredo Yerman Cortes Verbel.


6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 170

Figura 6.3: r = ±1 es lo mismo que decir que las observaciones de ambas variables
están perfectamente alineadas. El signo de r, es el mismo que el de SX Y , por tanto
nos indica el crecimiento o decrecimiento de la recta. La relación lineal es tanto
más perfecta cuanto r está cercano a ±1.

Interpretación
Valor
Dirección Rango Fuerza
r = −1 Perfecta
−1 < r ≤ −0,8 Muy fuerte
−0,8 < r ≤ −0,6 Fuerte
−1 ≤ r < 0 Negativa
−0,6 < r ≤ −0,4 Moderada
−0,4 < r ≤ −0,2 Débil
−0,2 < r ≤ 0 Muy débil
r=0 No hay relación
0 < r ≤ 0,2 Muy débil
0,2 < r ≤ 0,4 Débil
0,4 < r ≤ 0,6 Moderada
0<r≤1 Positiva
0,6 < r ≤ 0,8 Fuerte
0,8 < r < 1 Muy fuerte
r=1 Perfecta

Cuadro 6.2: Interpretación de coeficiente de correlación de Pearson.

Alfredo Yerman Cortes Verbel.


6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 171

Definición 6.3: Coeficiente de determinación r 2

Dado el coeficiente de correlación lineal de Pearson, notamos por r 2 al coefi-


ciente de determinación. El coeficiente de determinación puede interpretarse
como la proporción de variabilidad de Y que es explicada por X . Mide la
proximidad de la recta ajustada a los valores observados de Y .

Propiedades del Coeficiente de determinación de Pearson r 2

0 ≤ r 2 ≤ 1.

no tiene unidades.

r 2 = 0 indica que existe independencia en la relación lineal planteada por el


modelo de regresión.

r = 1 indica dependencia funcional.

Por tanto, cuanto mayor sea r 2 , mejor será el modelo de regresión.


r 2 simboliza la cantidad de variabilidad explicada por X en la determinación
de los valores de Y . O dicho de otra forma, la proporción de la variabilidad de los
valores de Y que es debida al efecto de X . Mientras que r proporciona la información
sobre el sentido de la correlación (positiva o negativa), r 2 informa sobre su fuerza.
Así que un valor de r = −0,9 se corresponde con un r 2 = 0,81 (el mismo coeficiente
de determinación que para una r = 0,9). La diferencia entre los dos casos es el
sentido en que X afecta a Y .

Ejemplo 6.2
A continuación calculamos el valor del coeficiente de correlación lineal de Pearson
r para el conjunto de datos del ejemplo anterior 6.1 (primero para las notas de
examen en la escala de 0 a 10). Tenemos que las varianzas están dadas por .

s
Pn
− x̄)2
i=1 (xi
Sx =
n−1
r
67,5
=
7
≈ 3,10

Alfredo Yerman Cortes Verbel.


6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 172

s
Pn
− ȳ)2
i=1 (yi
Sy =
n−1
r
63,49
=
7
≈ 3,01

Finalmente, el coeficiente de correlación de Pearson valdrá:


Sxy
r =
Sx Sy
8,93
=
(3,1)(3,01)
= 0,95

Este es un valor de correlación muy fuerte positivo. Ello indica que cuantas más
horas de estudio se emplee para estudiar la materia más altas son las notas
obtenidas.

Ejemplo 6.3
A continuación calculamos r para los datos en el caso en que los datos Y se
toman en la escala de 0 a 20 (Ver ejemplo 6.1)

s
Pn
− x̄)2
i=1 (xi
Sx =
n−1
r
67,5
=
7
≈ 3,10

s
Pn
− ȳ)2
i=1 (yi
Sy =
n−1
r
254
=
7
≈ 6,02

Finalmente, r valdrá:

Alfredo Yerman Cortes Verbel.


6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 173

Figura 6.4: r = −0, 276

Sxy
r =
Sx Sy
17,85
=
(3,1)(6,02)
= 0,95

Observemos cómo el coeficiente de correlación entre X e Y no varía cambiando


la escala en que se puntúa Y . Tanto en el primer caso (escala de 0 a 10) como
en el segundo (escala de 0 a 20) el valor de r es 0,955.

Ejemplo 6.4
En la Figura 6.4 se presenta el diagrama de dispersión entre el índice de masa
corporal, medida de obesidad que se obtiene de dividir el peso en kilogramos por
la altura en metros al cuadrado, y el colesterol HDL en un estudio realizado a
533 individuos. A simple vista, se aprecia un cierto grado de dependencia lineal
negativa entre ambas variables; esto es, el colesterol HDL tiende a decrecer
conforme aumenta el índice de masa corporal. Esta apreciación visual se confirma
mediante el cálculo del coeficiente de correlación muestral de Pearson que indica
una asociación lineal negativa moderada entre el índice de masa corporal y el
colesterol HDL.

Alfredo Yerman Cortes Verbel.


6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 174

6.1.2. Según un estudio estadístico las cigüeñas traen a los bebés.


¿Será esto cierto?
Todos sabemos perfectamente que los bebés no vienen al mundo después de un
largo viaje pilotado por cigüeñas, sino que vienen como resultado de la unión de un
óvulo y un espermatozoide. Esto es cierto, pero que un estudio que afirma que las
cigüeñas traen a los bebés de París también lo es. Pero, aún sabiendo que esto es
imposible, ¿cómo es que alguien ha obtenido resultados en una investigación para
poder afirmar tal locura?.
Porque no todo lo que leemos, aunque lleve el adjetivo de “científico”, realmente
lo es. Sobre todo, cuando una sola investigación está demostrando algo tan revolu-
cionario. Pero estos son los titulares que venden y en que cierto modo son ciertos,
en las siguientes líneas te explicamos el por qué.
Historias de la ciencia: Cigüeñas con bebés, niños miopes y premios Nobel
golosos.

Cuando una persona realiza diferentes estudios estadísticos hay una regla que
siempre debe de tener en cuenta: correlación no implica causalidad, es decir,
no implica una relación causa-efecto. Explicado de forma más sencilla, dos cosas
pueden estar relacionadas o variar conjuntamente sin que ninguna sea la causa de
la otra.

“La ignorancia afirma o niega


rotundamente; la ciencia duda.”
Voltaire.
Un reciente estudio estadístico observó una cierta coincidencia entre el número
de parejas de cigüeñas y el número de nacimientos anuales de bebés (humanos)
en 17 países europeos. En estadística se calcula un valor, llamado coeficiente de
correlación, para expresar el grado de coincidencia entre dos variables, que en
este caso son, para cada uno de los países estudiados, el número de parejas de
cigüeñas y el número de bebés nacidos. El valor del coeficiente de correlación
obtenido en este estudio no era demasiado alto, pero tampoco muy bajo; es decir,
parecía cumplirse que cuantas más parejas de cigüeñas, mayor número de bebés.
Estas y otras inferencias estadísticas, también mal interpretadas, parecían apoyar
la absurda hipótesis de que la causa de los nacimientos de bebés era su transporte
y entrega por parte de parejas de cigüeñas, como cuenta la leyenda (aunque no se
decía nada de si procedían de París).

Alfredo Yerman Cortes Verbel.


6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 175

Figura 6.5: Tomado de Gigi. (2015, verano 5). Imágenes y Carteles de CIGUENA.
Desmotivaciones.es. http://desmotivaciones.es/carteles/ciguena

Alfredo Yerman Cortes Verbel.


6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 176

Un ejemplo de estudio más serio (publicado en la prestigiosa revista Nature), en


el que una fuerte correlación se interpreta como causalidad, es el de la miopía en
los niños en relación con la luz ambiental con la que duermen. Los datos recogidos
por los autores mostraban que los niños que dormían con más luces encendidas
eran los que más miopía padecían, y a partir de ello se podía formular la hipótesis
de que altos niveles de luz ambiental durante el sueño provocaba el desarrollo de
miopía (para probar esta relación causal habría que encontrar el mecanismo biofí-
sico que relacionase ambas circunstancias, algo seguramente muy complejo). Pero
otros autores propusieron enseguida una explicación causal mucho más plausible,
introduciendo una nueva variable en el estudio: existía una fuerte correlación entre
padres miopes e hijos también miopes, sustentada en muchos más estudios y con
una probable causa genética; los padres miopes tendían a dejar luces encendidas
en la casa durante la noche, precisamente por sus problemas de visión. Es decir, la
causa común de la miopía de los niños y de las luces nocturnas era la miopía de
los padres.
Un último ejemplo muy llamativo, publicado también en una prestigiosa revista,
The New England Journal of Medicine, relacionaba el consumo de chocolate con la
mejora de la capacidad cognitiva. Las dos variables empleadas en el estudio eran el
consumo de chocolate per cápita y el número de premios Nobel recibidos por cada
millón de habitantes en diferentes países, y la correlación entre ambas resultaba
muy alta. La conclusión era, por tanto, que la causa de una mayor capacidad cogni-
tiva en los habitantes de ciertos países era su mayor consumo de chocolate. Como
se ha puesto de manifiesto en análisis posteriores, parece mentira que el autor de
este estudio no valorase la posibilidad de que ambas variables sean consecuencia
de una causa común (y no una la causa de la otra), como por ejemplo el diferente
nivel de vida de cada país. En realidad, seguramente serán muchas circunstancias,
relacionadas de formas muy complejas, las que influyan en la capacidad cognitiva
de la población. El efecto del chocolate en la cognición se asocia a unas sustancias
llamadas flavonoides, pero ¿por qué no se estudiaron los patrones de consumo de
otros alimentos que también contienen flavonoides, como el té o el vino tinto? Y, en
cualquier caso, ¿realmente la capacidad cognitiva de la población se puede medir
por el número de premios Nobel conseguidos? 1
Muchos estudios dan por cierta la influencia de una variable en el resultado
sin tener en cuenta todas las demás variables que pueden estar contaminando esta
influencia. Así es como llegamos a las conocidas como correlaciones espurias. Las
correlaciones espurias o relaciones espurias se producen cuando dos variables
que no tienen una relación causal pueden llevar a pensar a alguien que sí la
tienen.
1
Tomado de Díaz, Ó. M. (s/f). Historias de la ciencia: Cigüeñas con bebés, niños miopes y premios
Nobel golosos. Intef.es. Recuperado el 6 de febrero de 2023, de https://formacion.intef.es/?

Alfredo Yerman Cortes Verbel.


6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 177

Es decir, las correlaciones espurias son una relación matemática en la cual


dos acontecimientos no tienen conexión lógica, aunque se puede implicar que la
tienen debido a un tercer factor no considerado aún, llamado “factor de confusión” o
“variable escondida”. Un ejemplo sería afirmar que, en los alumnos de los colegios
españoles a mayor estatura, mayor conocimiento de la situación política. Esto puede
ser así, pero igual la variable escondida de la edad también tiene algo que ver.
¿Cómo saber si un estudio cuenta con la validez suficiente?
Cuando se lee que se ha demostrado que la lechuga previene el cáncer o el café
lo beben las personas con mayor inteligencia, se debe pensar que detrás de esta
asociación puede haber una interpretación deformada de los cálculos estadísticos,
dando lugar así a conclusiones totalmente falsas. Pero, entonces, ¿cómo saber si lo
que leo es cierto? En definitiva, ¿cómo saber si el estudio del que habla cualquier
artículo cuenta con la validez suficiente?
Conviene estar muy atento a todo lo que se lee. También se podría tener en
cuenta las siguientes preguntas:

¿Podría interpretarse el estudio de modo que se llegue a conclusiones dife-


rentes? Si es así, la causalidad no puede aplicarse.

¿Hay alguna deficiencia metodológica en el estudio que haya que tener en


cuenta a la hora de sacar conclusiones? Por ejemplo, hablar de que las mujeres
que toman café en el desayuno son más inteligentes y no incluir a hombres
para demostrar que a ellos no les sucede, o no incluir a mujeres que desayunan
otra cosa -como grupo control- para demostrar que efectivamente es el café y
no simplemente el hecho de desayunar.

¿Pueden aplicarse los resultados del estudio a otros grupos? Si afirmas que
son las cigüeñas las que traen a los bebés, ¿esto sucede solo en las grandes
ciudades o también en la población rural? Con esta pregunta el estudio de las
cigüeñas habría perdido validez.

¿Cómo encaja este trabajo en el conjunto de las investigaciones llevadas a cabo


sobre el tema en cuestión a lo largo del tiempo? Si de repente leemos que un
estudio demuestra que la panceta no sube el colesterol, cuando durante toda
la vida diversos estudios han sugerido lo contrario, como mínimo, sospecha.

¿Se diseñó adecuadamente el estudio para el logro de su finalidad? Desde


tener en cuenta la edad de la muestra para la conclusión o su sexo, como la
aleatorización y el control de variables es muy importante. Esto lo podemos
observar en la metodología del estudio.

¿Quién financia el estudio? Quizás esta es la pregunta más importante. Hay


que buscar que el estudio no sea parcial, es decir, por ejemplo, que no hable

Alfredo Yerman Cortes Verbel.


6.2. REGRESIÓN 178

de las bondades de los yogures y esté patrocinado por una marca de ese
producto.

No hay que dejarse engañar con correlaciones como causalidades o relaciones


espurias como relaciones matemáticas auténticas2 .

6.2. Regresión
La regresión es la parte de la estadística que trata de determinar la posible
relación entre una variable numérica Y , que suele llamarse variable dependiente,
y otro conjunto de variables numéricas, X1 , X2 , X3 , · · · Xn , conocidas como variables
independientes, de una misma población. Dicha relación se refleja mediante un
modelo funcional y = f (x1 , x2 , x3 , · · · , xn ). El caso más sencillo se da cuando sólo
hay una variable independiente X , y entonces se habla de regresión simple. En
este caso el modelo que explica la relación entre X e Y es una función de una
variable y = f (x). Dependiendo de la forma de esta función, existen muchos tipos
de regresión simple, los más comunes aparecen en el cuadro 6.3:

Familia de curvas Ecuación genérica


Lineal y = b0 + b1 x
Cuadrática y = b0 + b1 x + b2 x 2
Cúbica y = b0 + b1 x + b2 x 2 + b3 x 3
Potencia y = b0 x b1
Exponencial y = b0 eb1 x
Logarítmica y = b0 + b1 Ln(x)
b1
Inversa y = b0 +
x
Compuesto y = b0 bx1
Crecimiento y = eb0 +b1 x
b−1
G (Curva-S) y = eb0 + x

Cuadro 6.3: Tipos de regresión lineal simple

Para elegir un tipo de modelo u otro, se suele representar el diagrama de


dispersión , que consiste en dibujar sobre unos ejes cartesianos correspondientes a
las variables X e Y , los pares de valores (xi , yi ) observados en cada individuo de la
muestra.
2
González, L. V. (2017, enero 10). Según un estudio las cigüeñas traen a los bebés. La Mente es
Maravillosa. https://lamenteesmaravillosa.com/segun-estudio-las-ciguenas-traen-los-bebes/

Alfredo Yerman Cortes Verbel.


6.2. REGRESIÓN 179

Ejemplo 6.5
En la figura 6.6 aparece el diagrama de dispersión correspondiente a una muestra
de 30 individuos en los que se ha medido la estatura en cm (X ) y el peso en kg
(Y ). En este caso la forma de la nube de puntos refleja una relación lineal entre
la estatura y el peso.

Figura 6.6: Diagrama de dispersión de Estaturas y Pesos. El punto (179, 85) indicado
corresponde a un individuo de la muestra que mide 179 cm y pesa 85 Kg

Según la forma de la nube de puntos del diagrama, se elige el modelo más


apropiado (figura 6.7), y se determinan los parámetros de dicho modelo para que la
función resultante se ajuste lo mejor posible a la nube de puntos.
El criterio que suele utilizarse para obtener la función óptima, es que la distancia
de cada punto a la curva, medida en el eje Y, sea lo menor posible. A estas distancias
se les llama residuos o errores en Y (ver figura 6.8). La función que mejor se ajusta a
la nube de puntos será, por tanto, aquella que hace mínima la suma de los cuadrados
de los residuos. El cuadrado es para evitar que se compensen los residuos positivos
con los negativos.

Alfredo Yerman Cortes Verbel.


6.2. REGRESIÓN 180

(a) Sin relación. (b) Relación Lineal. (c) Relación polinómica.

(d) Relación exponencial. (e) Relación logarítmica. (f) Relación inversa.

Figura 6.7: Diagramas de dispersión correspondientes a distintos tipos de relaciones


entre variables

Alfredo Yerman Cortes Verbel.


6.2. REGRESIÓN 181

Figura 6.8: Residuos o errores en Y . El residuo correspondiente a un punto (xi , yj )


es la diferencia entre el valor yj observado en la muestra, y el valor teórico del
modelo f (xi ) =, es decir eij = yj − f (xi ).

6.2.1. Rectas de regresión


En el caso de que la nube de puntos tenga forma lineal y optemos por explicar la
relación entre X e Y mediante una recta y = a + bx, los parámetros a determinar
son a (punto de corte con el eje de ordenadas) y b (pendiente de la recta). Los
valores de estos parámetros que hacen mínima la suma de residuos al cuadrado,
determinan la recta óptima. Esta recta se conoce como recta de regresión de Y
sobre X y explica la variable Y en función de la variable X .

Definición 6.4: Modelo de regresión lineal Simple

Dados (x1 , y1 ), (x2 , y2 ), (x3 , y3 ), · · · , (xn , yn ) puntos que relacionan las varia-
bles X e Y . La recta y = a + bx, con los parámetros a y b que mejor se
ajusta al conjunto de puntos que determinan la recta óptima se conoce como
recta de regresión de Y sobre X y esta dada por la expresión:
Sxy
y = ȳ + (x − x̄)
Sx2
En donde x̄ e ȳ denotan las medias muestrales de X e Y (respectivamente),
Sx2 es la varianza muestral de X y Sxy es la covarianza muestral entre X e
Y . Los parámetros a y b están dados por

Alfredo Yerman Cortes Verbel.


6.2. REGRESIÓN 182

Sxy
b =
Sx2
a = ȳ − bx̄

La cantidad b se denomina coeficiente de regresión de Y sobre X ; en algunas


ocasiones se representa por bY /X

El coeficiente de regresión bY /X nos da información sobre el comportamiento de


la variable Y frente a la variable X , de manera que:
Si bY /X = 0, para cualquier valor de X la variable Y es constante (es decir,
no cambia).
Si bY /X > 0, esto nos indica que al aumentar el valor de X , también aumenta
el valor de Y .
Si bY /X < 0 , esto nos indica que al aumentar el valor de X , el valor de Y
disminuye.
Ejemplo 6.6
En la figura 6.9 aparecen las rectas de regresión de Estatura sobre Peso y de
Peso sobre Estatura del ejemplo 6.5.

Figura 6.9: Rectas de regresión de Estatura sobre Peso y de Peso sobre Estatura.
Las rectas de regresión siempre se cortan en el punto de medias (x̄, ȳ).

Alfredo Yerman Cortes Verbel.


6.2. REGRESIÓN 183

(a) Dependencia funcional lineal. (b) Independencia lineal.

Figura 6.10: Distintos grados de dependencia. En el primer caso, la relación es


perfecta. En el segundo caso no existe relación lineal y la pendiente de la recta es
nula.

La pendiente de la recta de regresión de Y sobre X se conoce como coeficiente


de regresión de Y sobre X , y mide el incremento que sufrirá la variable Y por cada
unidad que se incremente la variable X , según la recta. La recta de regresión no
sólo permite formalizar la relación entre las variables estudiadas asignándole un
referente gráfico sino que, lo que es casi más importante, permite predecir valores
de Y a partir de valores de X que no se encuentran inicialmente en la muestra
de partida. A este respecto, sin embargo, conviene apuntar la conveniencia de no
estimar valores de X fuera del rango de medida sobre la que ha versado la muestra
original ya que lo que en principio puede ser una relación de tipo lineal puede no
serlo cuando se exploran medidas de X fuera (hacia arriba o abajo) del rango en
un principio contemplado.

Ejemplo 6.7
En el estudio de la relación entre el índice de masa corporal y el colesterol
HDL, del ejemplo 6.4 resulta natural considerar el índice de masa corporal como
variable independiente X y el colesterol HDL como variable dependiente Y . El
objetivo es, estimar los cambios en el nivel medio del colesterol HDL conforme
aumenta el índice de masa corporal utilizando un modelo de regresión lineal

Alfredo Yerman Cortes Verbel.


6.2. REGRESIÓN 184

Figura 6.11: Recta de ajuste lineal y = 1,69 − 0,023x

simple. Las estimaciones de los parámetros a y b son:

SX Y
b = = −0, 023
Sx2
a = ȳ − bx̄ = 1,9

La constante a = 1, 69 mmol/l es una estimación del valor esperado del colesterol


HDL para un sujeto con un imc igual a 0 kg/m2, extrapolación que carece de
sentido biológico. La pendiente b = −0, 023 estima que, por cada incremento de
1 kg/m2 en el índice de masa corporal, el nivel medio de colesterol HDL disminuye
en 0, 023 mmol/l. La recta de regresión (figura 6.11) estimada del colesterol HDL
sobre el índice de masa corporal es:

y = 1,69 − 0,023x

Esta recta de regresión puede utilizarse para estimar o predecir el valor


esperado del colesterol HDL en función del índice de masa corporal. Por ejemplo,
para un índice de masa corporal de 25 kg/m2 , el modelo estima un nivel medio
de colesterol HDL de

y(25) = 1,69 − 0,023(25)


= 1,11 mmol/l

Alfredo Yerman Cortes Verbel.


6.3. EVALUACIÓN POR COMPETENCIAS 185

Figura 6.12: Tomado de Tropea, J. A. [aletropea]. (2019, noviembre 3). Aho-


ra podés ver mi viñeta “Investigación básica”, de mi blog “Universo a la vis-
ta”, en el Instituto Balseiro, en el PDF del libro “Mecánica clásica - Notas
de clase”. Para verla accedé al PDF en https://t.co/W0vWRhpaoB, y allí a la
página 187 poniendo “Tropea” en “buscar”. pic.twitter.com/tn37gz0dub. Twitter.
https://twitter.com/aletropea/status/1191037458647003138?s=20

6.3. Evaluación por competencias


6.3.1. Ejercicios de aplicación
1. Se determina la pérdida de actividad que experimenta un medicamento desde
el momento de su fabricación a lo largo del tiempo, obteniéndose el siguiente
resultado (Cuadro 6.4)

Tiempo (años) 1 2 3 4 5
Actividad restante 96 84 70 58 52

Cuadro 6.4: Porcentaje de perdida de actividad de un medicamento

Alfredo Yerman Cortes Verbel.


6.3. EVALUACIÓN POR COMPETENCIAS 186

se desea calcular

a) La relación fundamental(recta de regresión) entre actividad restante y


tiempo transcurrido.
b) ¿En qué porcentaje disminuye la actividad cada año que pasa?
c) ¿Cuándo tiempo debe pasar para que el fármaco tenga una actividad
del 80 %? ¿Cuándo será nula la actividad? ¿Son igualmente fiables estas
predicciones?

2. Al realizar un estudio sobre la dosificación de un cierto medicamento, se


trataron 6 pacientes con dosis diarias de 2 mg, 7 pacientes con 3 mg y otros
7 pacientes con 4 mg. De los pacientes tratados con 2 mg, 2 curaron al cabo
de 5 días, y 4 al cabo de 6 días. De los pacientes tratados con 3 mg diarios, 2
curaron al cabo de 3 días, 4 al cabo de 5 días y 1 al cabo de 6 días. Y de los
pacientes tratados con 4 mg diarios, 5 curaron al cabo de 3 días y 2 al cabo
de 5 días. Se pide:

a) Calcular la recta de regresión del tiempo de curación con respecto a la


dosis suministrada.
b) Calcular el coeficiente de regresión. Interpretar los resultados.
c) Determinar el tiempo esperado de curación para una dosis de 5 mg
diarios. ¿Es fiable esta predicción?.
d) ¿Qué dosis debe aplicarse si queremos que el paciente tarde 4 días en
curarse? ¿Es fiable la predicción?.

6.3.2. Evaluando saberes

Alfredo Yerman Cortes Verbel.


187
188

7. TÉCNICAS DE
CONTEO.

No se puede dirigir si no se sabe


analizar, y no se puede analizar si
no hay datos verídicos; y si no hay
todo un sistema de recolección de
datos confiables, sin mentiras y
globos, si no hay toda una
preparación de un sistema
estadístico y de hombres
habituados a recoger el dato y
transformarlo en números. Esta es
una tarea esencial.

Ernesto Che Guevaraab


a
Guerrillero Heroico, fotografía de Al-
berto Korda tomada el 5 de marzo de
1960.
b
Frase atribuida a Che Gue-
vara, tomad de: Jesús Jank Cur-
belo. (2015, noviembre 22). Más
que números › Cuba › Gran-
ma—Órgano oficial del PCC. Granma.cu.
https://www.granma.cu/cuba/2015-11-
29/mas-que-numeros-29-11-2015-21-
11-21

Che Guevara [Ernesto Guevara]


(Rosario, Argentina, 1928 - Higueras, Bolivia, 1967) Revolucionario iberoamericano.
Junto con Fidel Castro, a cuyo movimiento se unió en 1956, fue uno de los princi-
pales artífices del triunfo de la revolución cubana (1959). Desempeñó luego cargos
de gran relevancia en el nuevo régimen, pero, insatisfecho con la inoperancia de los
despachos y fiel a su propósito de extender la revolución a otros países de Latinoa-
mérica, en 1966 retomó su actividad guerrillera en Bolivia, donde sería capturado y
ejecutado un año después.

Alfredo Yerman Cortes Verbel.


7.1. TÉCNICAS DE CONTEO. 189

Entregada así su vida en la lucha contra el imperialismo y la dictadura, el Che


Guevara se convirtió en el máximo mito revolucionario del siglo XX. Fue de inmediato
un icono de la juventud del Mayo del 68, y su figura ha quedado como símbolo
atemporal de unos ideales de libertad y justicia que, como los héroes de antaño,
juzgó más valiosos que la propia vida. Todavía en nuestros días se exhibe con
frecuencia, en las acciones contestatarias, aquel perfil suyo basado en la célebre
fotografía de Alberto Korda1 .

7.1. Técnicas de Conteo.


Las técnicas de conteo son estrategias matemáticas usadas en probabilidad y
estadística que permiten determinar el número total de resultados que pueden haber
a partir de hacer combinaciones dentro de un conjunto o conjuntos de objetos. Este
tipo de técnicas se utilizan cuando es prácticamente imposible o demasiado pesado
hacer de forma manual combinaciones de diferentes elementos y saber cuántas de
ellas son posibles. Veamos algunas definiciones que se utilizaran más adelante.

7.1.1. Diagrama de Árbol


Un árbol de probabilidad (que veremos a detalle más adelante) es una he-
rramienta que se utiliza para determinar si en realidad en el cálculo de muchas
opciones se requiere conocer el número de objetos que forman parte del espacio
muestral, estos se pueden determinar con la construcción de un diagrama de árbol.

Definición 7.1: Diagrama de árbol

Un diagrama de árbol, es una representación gráfica de todos los posibles


resultados de un experimento junto con sus probabilidades.

Para la construcción de un diagrama en árbol se partirá poniendo una rama


para cada una de las posibilidades. Cada una de estas ramas se conoce como rama
de primera generación.
En el final de cada rama de primera generación se constituye, un nudo del
cual parten nuevas ramas conocidas como ramas de segunda generación, según las
posibilidades del siguiente paso, salvo si el nudo representa un posible final del
experimento (nudo final).
Hay que tener en cuenta que la construcción de un árbol no depende de tener el
mismo número de ramas de segunda generación que salen de cada rama de primera
1
Tomado de Fernández, Tomás y Tamaro, Elena. «Biografia de Che Guevara [Ernesto Guevara]». En
Biografías y Vidas. La enciclopedia biográfica en línea [Internet]. Barcelona, España, 2004. Disponible
en https://www.biografiasyvidas.com/biografia/g/guevara.htm [fecha de acceso: 20 de enero de 2023].

Alfredo Yerman Cortes Verbel.


7.1. TÉCNICAS DE CONTEO. 190

generación.

Ejemplo 7.1
Al lanzar una moneda existen dos posibles resultados: que caiga cruz o que
caiga cara. Veamos el diagrama de árbol que se obtiene al lanzar una moneda
tres veces.
Sello (Sello,Sello, Sello)
Sello
Cara (Sello,Sello, Cara)
Sello
Sello (Sello,Cara, Sello)
Lanzar Cara
una Cara (Sello,Cara, Cara)
moneda
tres Sello (Cara,Sello,Sello)
veces Sello
Cara (Cara,Sello, Cara)
Cara
Sello (Cara,Cara, Sello)
Cara
Cara (Cara,Cara, Cara)
La primera vez que se lanzó la moneda solo se podrían obtener dos resultados.
A partir de este punto, el número de posibles consecuencias se incrementa, pues
en el segundo lanzamiento se pueden presentar cuatro distintos resultados (dos
por cada uno de los anteriores), y en el tercero, ocho.

Ejemplo 7.2
Marcela almuerza en el casino de su trabajo de lunes a viernes, y siempre hay
para la entrada consumé de pollo o papas al ajillo y de plato fuerte pescado sal-
teado, arroz de pollo o carne en bistec ¿Cuántos menús distintos puede escoger?

Para seleccionar un plato de entrada: tiene dos opciones

• Consumé de pollo.
• Papas al ajillo.

Para seleccionar un plato de fuerte: tiene tres opciones.

• Pescado salteado.
• Arroz de pollo.

Alfredo Yerman Cortes Verbel.


7.1. TÉCNICAS DE CONTEO. 191

• Carne en bistec.

Carne en
(Papas al Ajillo,Carne en Bistec)
Bistec

Papas Arroz
(Papas al Ajillo,Arroz de Pollo)
al Ajillo de Pollo

Pescado
(Papas al Ajillo,Pescado Salteado)
Salteado
Opciones
de Menú
Carne en
(Consumé de Pollo,Carne en Bistec)
Bistec

Consumé Arroz
(Consumé de Pollo,Arroz de Pollo)
de Pollo de Pollo

Pescado
(Consumé de Pollo,Pescado Salteado)
Salteado
Al contar las ramas de la segunda elección, se cuentan cuántos posibles menús
hay. En este caso se aprecian seis: 6 = 2 · 3

Cuando se tienen muchas opciones graficar el diagrama de árbol se torna muy


complejo, por eso mas adelante estudiaremos el principio multiplicativo, que simpli-
ficará los cálculos.

7.1.2. Factorial y Productoria

Definición 7.2: Factorial.


El factorial de un entero positivo n , el factorial de n o n factorial, notado
por n!, se define en principio como el producto de todos los números enteros
positivos desde 1 (es decir, los números naturales) hasta n, i.e.

n! = 1 · 2 · 3 · 4 · · · (n − 1) · n

Ejemplo 7.3

5! = 1 · 2 · 3 · 4 · 5 = 120

10! = 1 · 2 · 3 · · · 9 · 10 = 3628800

Alfredo Yerman Cortes Verbel.


7.1. TÉCNICAS DE CONTEO. 192

1! = 1

Teorema 7.1
0! = 1

n! = (n − 1)! · n

Ejemplo 7.4

11! = (11 − 1)! · 11


= 10! · 11
= 3628800 · 11
= 39916800.

Figura 7.1: 12! = 1 · 2 · 3 · 4 · 5 · 6 · 7 · 8 · 9 · 19 · 11 · 12

Alfredo Yerman Cortes Verbel.


7.1. TÉCNICAS DE CONTEO. 193

Definición 7.3: Productoria.


Sea a1 , a2 , a3 , a4 · · · an ∈ R entonces

Y
n
ai = a1 · a2 · a3 · · · + an
i=1

de forma general

Y
n
ai = am · am+1 · am+2 · · · · · an
i=m

Esto se lee: productoria sobre i, desde m hasta n, de a sub-i. La variable i


es el índice de producto al que se le asigna un valor inicial llamado límite
inferior, m. La variable i recorrerá los valores enteros hasta alcanzar el límite
superior, n.
El número de términos a multiplicar es entonces n − m + 1, ya que el primer
sumando es am y el último sumando es an . Necesariamente debe cumplirse
que:m ≤ n. Pudiendo ver además que si m = n entonces:

Y
n Y
m
ai = ai = am
i=m i=m

Ejemplo 7.5

5
Y
i2 = 12 · 22 · 32 · 42 · 52
i=1
= 1 · 4 · 9 · 16 · 25
= 14400

Ejemplo 7.6

6
Y
2i = 21 · 22 · 23 · 24 · 25 · 26
i=1
= 2 · 4 · 8 · 16 · 32 · 64
= 2097152

Alfredo Yerman Cortes Verbel.


7.1. TÉCNICAS DE CONTEO. 194

7.1.3. Regla Multiplicativa.


Este tipo de técnica de conteo, junto con el principio aditivo, permiten compren-
der fácilmente y de forma práctica cómo funcionan elas técnicas de conteo.
Si una operación, llamemosla n1 , puede ocurrir de varias formas, y otra operación,
n2 , puede ocurrir de otras tantas, entonces, los eventos conjuntamente pueden ocurrir
de n1 · n2 formas.
Este principio se utiliza cuando la acción es secuencial, es decir, está conformada
por eventos que ocurren de forma ordenada, como son la construcción de una casa,
el número de placas de vehículos que se pueden elaborar, etc.

Definición 7.4: Regla Multiplicativa

Si una operación se escribe como la relación de k actividades separadas,


donde la actividad i tiene ni formas independientes, con i = 1, · · · , k enton-
ces el número de formas en las que se puede realizar la operación será:

Y
k
ni
i=1

Ejemplo 7.7
Supongamos que un restaurante ofrece 4 entradas, 5 platos principales y 2 pos-
tres. ¿De cuántas formas un cliente puede ordenar una comida?.
Se aplica el principio de multiplicación; tenemos 3 actividades (k = 3), en-
tonces:
Actividad 1: escoger entrada, por tanto el número de formas de la actividad
es n1 = 4.
Actividad 2: escoger plato principal, por tanto el número de formas de la
actividad es n2 = 5.
Actividad 3: escoger postre, por tanto por tanto el número de formas de la
actividad es n3 = 2.
luego hay
3
Y
ni = n1 · n2 · n3
i=1
= 4·5·2
= 40
formas diferentes de ordenar una comida.

Alfredo Yerman Cortes Verbel.


7.1. TÉCNICAS DE CONTEO. 195

Ejemplo 7.8
Una familia tiene 3 niños y 2 niñas.
i) ¿De cuántas formas pueden sentarse en una fila?
ii) ¿Cuántas formas hay si los niños desean sentarse separados de las niñas?
Resolvamos cada caso
i) En total hay 5 niños luego tenemos 5 actividades
• Actividad 1: escoger un niño o niña que se siente en el primer de la
fila; luego por tanto el número de formas u opciones posibles en la
actividad 1 es n1 = 5.
• Actividad 2: escoger un niño o niña que se siente en el segundo puesto
de la fila; luego el número de formas u opciones posibles en la actividad
2 es n2 = 4, dado que uno ya fue ubicado y restan 4.
• Actividad 3: escoger un niño o niña que se siente en el tercer puesto de
la fila; luego el número de formas u opciones posibles en la actividad
es n3 = 3, dado que dos fueron ubicados y restan 3.
• Actividad 4: escoger un niño o niña que se siente en el cuarto puesto
de la fila; luego por tanto el número de formas u opciones posibles en
la actividad 4 es n4 = 2, dado que tres ya fueron ubicados y restan 2.
• Actividad 5: escoger un niño o niña que se siente en el quinto puesto de
la fila; luego el número de formas u opciones posibles en la actividad
1 es n5 = 1. (Dado que cuatro ya fueron ubicados y solo falta uno por
ubicar.
por tanto
5
Y
ni = n1 · n2 · n3 · n4 · n5
i=1
= 5·4·3·2·2·1
= 120
formas diferentes de sentarse en una fila. Este ejemplo también lo podemos
resolver usando el concepto de permutación que veremos en la definición
7.5 y el ejemplo 7.11.
Si desean sentarse separados, hay 2 formas de distribuirlos, primero las
niñas y luego los niños o viceversa, primero los niños y luego las niñas;en
cada caso los niños pueden sentarse de 3! formas diferentes y las niñas de
2! Por lo que hay 3!x2!x2! = 24 formas.

Alfredo Yerman Cortes Verbel.


7.1. TÉCNICAS DE CONTEO. 196

Ejemplo 7.9
¿Cuántas placas de los carros se pueden fabricar en Colombia si estas tienen 3
letras y 3 números?
Para cada letra hay 26 opciones (la ñ no se incluye) y para cada número hay
10 opciones. i.e.

Actividad 1: escoger la primera letra de la placa; aquí se tiene n1 = 26


formas diferentes.

luego se tendrá 26 · 26 · 26 · 10 · 10 · 10 = 263 · 103 = 17576000

Ejemplo 7.10
De acuerdo al ejemplo 7.9 ¿cuántas placas tiene todas sus letras diferentes?.
Puesto que cada casilla de letras no puede repetir letras que ya aparezcan
en la placa, la primera casilla tiene 26 opciones, la segunda tiene 25 opciones
y la tercera 24 opciones; los números no tiene restricciones, entonces se tienen
26 · 25 · 24 · 10 · 10 · 10 = 15600000 formas.

Definición 7.5: El número de permutaciones.

Dado un conjunto finito A de n elementos distintos, se entiende como per-


mutaciones de ellos a las distintas formas en las que pueden ordenarse. El
número de permutaciones (órdenes) distintos de los n elementos es n!, es
decir, el factorial del número de elementos. y se nota

Pn = n!

Ejemplo 7.11
Se requiere acomodar a 8 personas en una mesa de honor y se le solicita que
haga un listado de las diferentes formas de ordenar a las personas. ¿cuántas
formas diferentes existen?.
Para el primer puesto hay 8 opciones, para el segundo, 7, para el tercero 6, y
así sucesivamente. Entonces hay 8 · 7 · 6 · 5 · 4 · 3 · 2 · 1 = 8! Formas de acomodar
a las personas: 40320.

7.1.4. Permutación sin repeticiones.


Una permutación de un conjunto es, en términos generales, una disposición de
sus miembros en una secuencia u orden lineal, o si el conjunto ya está ordenado,
una variación del orden o posición de los elementos de un conjunto ordenado o una

Alfredo Yerman Cortes Verbel.


7.1. TÉCNICAS DE CONTEO. 197

tupla. La palabra "permutación"también se refiere al acto o proceso de cambiar el


orden lineal de un conjunto ordenado. Esto quiere decir que una permutación es
un cambio de la manera en la que se disponen los elementos. En esta técnica de
conteo se considera que existe el orden en la muestra, pero no es posible repetir
ningún elemento de la población en su conformación.

Definición 7.6: Permutación sin repetición.

Se define como permutación a un arreglo ordenado de un conjunto de objetos.


La cantidad Prn se define como el número de permutaciones o acomodos de
r elementos tomados de un conjunto de n elementos distintos.

n!
Prn =
(n − r)!

Prn también suele escribirse como n Pr .

Ejemplo 7.12
Alfredo, Diana e Isaac van a formar un comité para administrar una empresa. Los
cargos que habrá en el comité son: presidente, vicepresidente y secretario. ¿De
cuantas formas se puede constituir el comité?
En este caso se considera que hay un orden jerárquico: presidente, vicepresi-
dente y secretario. Además, una persona no puede ocupar dos cargos, luego, no
es posible la repetición. En este caso n = 3 y r = 3, ya que la población consta
de tres elementos (personas), y en cada muestra se toman los tres. Aplicando la
definición de permutación:

3!
P33 =
(3 − 3)!
3!
=
0!
1·2·3
=
1
6
=
1
= 6

Como este es un ejemplo sencillo, con pocos elementos, se puede organizar una
tabla donde se puedan apreciar las formas de constituir el comité. (ver cuadro
7.1)

Alfredo Yerman Cortes Verbel.


7.1. TÉCNICAS DE CONTEO. 198

Presidente Vicepresidente Secretario


1 Alfredo Diana Isaac
2 Alfredo Isaac Diana
3 Diana Alfredo Isaac
4 Diana Isaac Alfredo
5 Isaac Diana Alfredo
6 Isaac Alfredo Diana

Cuadro 7.1: Formas distintas de constituir los comités del ejemplo 7.12

Ejemplo 7.13
¿De cuantas maneras pueden obtener las medallas de oro, plata y bronce 9 atletas
que participan en un competencia?
En este ejemplo, se pretende formar grupos de 3 individuos con los 9 partici-
pantes. Es decir, para este caso n = 9 y r = 3. Por lo tanto:

9!
P39 =
(9 − 3)!
9!
=
6!
362880
=
720
= 504

7.1.5. Permutación con repeticiones.


Una permutación con repetición consiste en una permutación de m elementos,
de los cuales hay varios que son iguales entre sí. Y por tanto, a la hora de calcular
las distintas formas de ordenar los m elementos hay diferencias con respecto a si
no hubiese elementos iguales.

Definición 7.7: Permutación con repetición.

Sea A un conjunto
Pk de n elementos tales que hay k grupos con ni elementos
idénticos, i=1 ni = n. Llamaremos permutaciones con repetición de esos
n elementos a las posibles agrupaciones que podamos hacer, teniendo en
cuenta que dos elementos de un mismo grupo son indistinguibles. El número

Alfredo Yerman Cortes Verbel.


7.1. TÉCNICAS DE CONTEO. 199

de permutaciones con repetición viene dado por:

n! n!
PRnn1 n2 ···nk = Qk =
i=1 (ni )!
n1 ! · n2 ! · · · nk !

i.e. permutaciones con repetición de n elementos en las que el primer ele-


mento se repite n1 veces, el segundo se repite n2 veces ... y el último se repite
nk veces son los distintos grupos de n elementos que se pueden hacer de for-
ma que en cada grupo, cada elemento aparezca el número de veces indicado
y que dos grupos se diferencian únicamente en el orden de colocación.

Ejemplo 7.14
En una urna hay 9 bolas, 3 blancas, 2 rojas y 4 negras. ¿De cuantas formas
distintas se pueden extraer las bolas de la urna?
Al tener tres bolas blancas, a efectos de ordenación se consideran iguales, lo
mismo ocurre con las rojas y las negras. Las posibles ordenaciones son:

3,2,4 9!
PR9 =
3! · 2! · 4!
362880
=
6 · 2 · 24
362880
=
288
= 1260

Ejemplo 7.15
En una competición deportiva participan 4 equipos de 3 atletas cada uno. ¿De
cuántas formas diferentes pueden llegar los equipos?.
A la hora de elaborar la clasificación por equipos los atletas se consideran
idénticos. El número de posibles clasificaciones es:

3,3,3,3 12!
PR12 =
3! · 3! · 3! · 3!·
479001600
=
6 · 6 · 6 · 6·
479001600
=
1296
= 369600

Alfredo Yerman Cortes Verbel.


7.1. TÉCNICAS DE CONTEO. 200

Ejemplo 7.16
¿Cuántos números de 5 cifras se pueden formar con 1, 1, 1, 2, 2?

3,2 5!
P5 =
3!2!
120
=
12
= 10

Figura 7.2: Steven Arthur Pinker (Montreal, 18 de septiembre de 1954) es un psi-


cólogo experimental, científico cognitivo, lingüista y escritor canadiense. Es pro-
fesor en el Harvard College y titular del “Johnstone Family Professorship” en el
Departamento de Psicología de la Universidad de Harvard. Es conocido por su
defensa enérgica y de gran alcance de la psicología evolucionista y de la teo-
ría computacional de la mente. Sus especializaciones académicas son la percep-
ción y el desarrollo del lenguaje en niños; es conocido por argumentar que el
lenguaje es un instinto o una adaptación biológica modelada por la selección
natural. (Fotografía de De Steven Pinker - Rebecca Goldstein, CC BY-SA 3.0,
https://commons.wikimedia.org/w/index.php?curid=17016088)

7.1.6. Combinatoria sin repetición.


Las agrupaciones combinatorias denominadas combinaciones son las que se
obtienen al seleccionar de un conjunto A de n elementos grupos de r, de tal forma
que cada grupo es diferente de los demás si, y sólo si, contiene algún elemento
diferente, sea cual sea su orden de colocación en el grupo.

Alfredo Yerman Cortes Verbel.


7.1. TÉCNICAS DE CONTEO. 201

Definición 7.8: Combinatoria sin repetición

El número de combinaciones ordinarias (sin repetición) que se pueden formar


con n elementos tomados de r en r se calcula a partir de la siguiente fórmula:
 
n n!
= . (7.1)
r (n − r)! · r!

La expresión 7.1 también se nota por n Cr o por Crn y se llama coeficiente


binomial.

Ejemplo 7.17
En un pelotón militar de 12 soldados, el capitán del ejército quiere formar grupos
de 2 soldados para que se infiltren tras las líneas enemigas por distintos puntos,
¿cuántos grupos distintos podría formar?
Se debe que identificar el número total de elementos. En este caso son n = 12
soldados en total. Como el capitán quiere grupos de 2, ya sabemos cual es nuestra
r = 2. Sabiendo esto, podríamos sustituir en la fórmula y tener el número de
combinaciones de grupos de 2.

 
n n!
=
r (n − r)! · r!
 
12 12!
=
2 (12 − 2)! · 2!
12!
=
(10)! · 2!
1 · 2 · 3 · 4 · 5 · 6 · 7 · 8 · 9 · 10 · 11 · 12
=
(1 · 2 · 3 · 4 · 5 · 6 · 7 · 8 · 9 · 10) · 1 · 2
11 · 12
=
2
= 11 · 6
= 66

Ejemplo 7.18
A una reunión asisten 10 personas y se intercambian saludos entre todos. ¿Cuán-
tos saludos se han intercambiado?.
Tengamos en cuenta que:
No entran todos los elementos. Esto debido a que un saludo lo podemos
analizar como un grupo de dos personas (ya que solo se efectúa entre dos

Alfredo Yerman Cortes Verbel.


7.1. TÉCNICAS DE CONTEO. 202

personas).

No importa el orden. Esto ya que es lo mismo que Juan haya saludado a


María a que María haya saludo a Juan.

No se repiten los elementos. Notemos que el asumir que se repiten es como


pensar que una persona se pudo saludar a sí misma, esto no tendría sentido.

Entonces tenemos para n = 10 y r = 2

 
n n!
=
r (n − r)! · r!
 
10 10!
=
2 (10 − 2)! · 2!
10!
=
(8)! · 2!
1 · 2 · 3 · 4 · 5 · 6 · 7 · 8 · 9 · 10
=
(1 · 2 · 3 · 4 · 5 · 6 · 7 · 8) · 1 · 2
9 · 10
=
2
= 9·5
= 45

7.1.7. Combinatoria con repetición.


La combinatoria con repetición son los diferentes conjuntos que se pueden formar
con n elementos, seleccionados de r en r, permitiendo que estos se puedan repetir.
Cada conjunto se debe diferenciar del anterior en al menos uno de sus elementos
(el orden no importa).

Definición 7.9: Combinatoria con repetición.

Las combinaciones con repetición de n elementos tomados de r en r con


n ≤ r, son los distintos grupos formados por r elementos de manera que:
No entran todos los elementos.
No importa el orden.
Sí se repiten los elementos.
Al número de combinaciones con repetición se de denotará por C Rrn y se
define por:

Alfredo Yerman Cortes Verbel.


7.1. TÉCNICAS DE CONTEO. 203

 
n+r−1 (n + r − 1)!
C Rrn = =
r r!(n − 1)!

Ejemplo 7.19
En una bodega hay cinco tipos diferentes de botellas. ¿De cuántas formas se
pueden elegir cuatro botellas?
Se debe tener en cuenta que No entran todos los elementos. Sólo elije 4, no
importa el orden. Da igual que elija 2 botellas de anís y 2 de ron, que 2 de ron
y 2 de anís y sí se repiten los elementos. Puede elegir más de una botella del
mismo tipo. Entonces para n = 5 y r = 4

 
n+r−1 (n + r − 1)!
C Rrn = =
r r!(n − 1)!
(5 + 4 − 1)! 8!
C R45 = =
4!(5 − 1)! 4! · 4!
1·2·3·4·5·6·7·8
=
1·2·3·4·1·2·3·4
= 5 · 2 · 7 = 70

Ejemplo 7.20
¿Cuántas fichas tiene el juego del dominó?
Una ficha de dominó es un rectángulo en el que hay dos partes, en cada una
de ellas hay una serie de puntos que indican la puntuación de esa parte. Estas
puntuaciones van de blanca (0 puntos) a 6, es decir n = 6. Tenemos pares de
puntuaciones de 0 a 6, es decir r = 2. i.e. el total de fichas será:

 
n+r−1 (n + r − 1)!
C Rrn = =
r r!(n − 1)!
(7 + 2 − 1)! 8!
C R27 = =
2!(7 − 1)! 2! · 6!
1·2·3·4·5·6·7·8
= =
1·2·1·2·3·4·5·6
= 7 · 4 = 28

Alfredo Yerman Cortes Verbel.


7.2. EVALUACIÓN POR COMPETENCIAS 204

7.2. Evaluación por competencias


7.2.1. Ejercicios de aplicación
1. Si se arrojan d dados y m monedas, ¿cuántos resultados diferentes se pueden
elegir?
2. Con los dígitos 1, 2, 3 y 4 forme usando el diagrama de árbol tantos números
de tres dígitos como pueda sin repetir ninguno.
3. Con los dígitos 6 y 2, usando el diagrama de árbol forme tantos números de
tres dígitos como pueda.
4. De cuántas formas pueden quedar clasificados 10 equipos de baloncesto que
participan en un campeonato?.
5. De cuántas maneras se pueden disponer 12 personas en una fila?.
6. De cuántas maneras se pueden disponer 9 estudiantes en una fila?.
7. De cuántas maneras se pueden disponer en una mesa 5 hermanas? ( Manuela,
Claudia, Francisca, Leonor y Patricia).
8. De cuántas maneras pueden quedar clasificados 7 corredores que intervienen
en una carrera?.
9. De cuántas formas pueden quedar clasificados 3 equipos de fútbol que parti-
cipan en un torneo?.
10. Una madre decide llamar a cenar 4 de sus 7 hijos ( Amelia, Bertha, Carolina,
Daniel, Esther, Federico y Gonzalo). De cuantas maneras diferentes puede
llamarlos?.
11. De cuántas maneras se puede seleccionar un equipo de 5 integrantes de un
grupo de 9 personas?.
12. De los 15 mejores estudiantes del grado 7º del colegio Carrasquilla, se quieren
seleccionar 10, para representar al colegio en un concurso de ortografía. De
cuántas maneras diferentes se puede seleccionar este grupo de alumnos?.
13. Se tienen los 4 ases de una baraja y se quieren tomar al azar tres cartas.
Cuántas combinaciones pueden resultar?.
14. Cuántas banderas tricolor se pueden confeccionar con 8 colores?.
15. Una chica tiene en su armario 10 vestidos y quiere elegir 6 para un viaje. De
cuántas maneras puede hacerlo?.

Alfredo Yerman Cortes Verbel.


7.2. EVALUACIÓN POR COMPETENCIAS 205

16. Una madre decide llamar a cenar 3 de sus 9 hijos (Carolina, Daniel, Esther,
Patricia, Federico, Amelia, Bertha, Daniela, y Gonzalo). De cuantas maneras
diferentes puede llamarlos?.

17. ¿Cuántos números diferentes pueden formarse con las cifras del número 458870?

18. En el grado 7º hay 20 alumnos, y se quiere elegir al azar 16 alumnos para


representar al grupo en una competencia de ajedrez. Cuántas combinaciones
pueden resultar?.

19. Se dispone de 12 bebidas distintas para formar combinados. Cuántos combi-


nados distintos se pueden preparar utilizando cada vez 4 de las 12 bebidas?.

20. Un alumno decide presentar 6 de las 10 evaluaciones ( Aritmética, Geometría,


Estadística, Español, Inglés, Religión, Sociales, Biología, Informática, Ética)
que tiene pendiente en su colegio. De cuantas maneras diferentes puede elegir
esas evaluaciones?.

21. De los 11 mejores estudiantes del grado 7º del Carrasquilla, se quieren se-
leccionar 5, para conformar una comisión que participará en un encuentro
intercolegial. De cuántas maneras diferentes se puede seleccionar la comi-
sión?.

22. Una chica tiene en su armario 8 vestidos y quiere elegir 5 para regalárselos
a una amiga. De cuántas maneras puede seleccionarlos?.

23. De cuántas formas pueden quedar clasificados 8 equipos de baloncesto que


participan en un campeonato?.

24. De cuántas maneras se pueden disponer 15 personas en una fila?.

25. De cuántas maneras pueden quedar clasificados 6 corredores que intervienen


en una carrera?.

26. De cuántas formas pueden quedar clasificados 5 equipos de fútbol que parti-
cipan en un torneo?.

27. De cuántas maneras se pueden disponer 14 estudiantes en una fila?.

28. De cuántas maneras se pueden disponer en una mesa 4 hermanas?.

7.2.2. Evaluando saberes

Alfredo Yerman Cortes Verbel.


206
207

8. PROBABILIDAD.

Una no debe perder de vista lo que


quiere conseguir. Por ello he
tratado de no preocuparme por
minucias o cosas insignificantes .

Kimiko Osada Bowman

Kimiko Osada Bowman cómo usar la estadística para mejorar las condiciones
laborales de las personas con discapacidades
Kimiko Osada Bowman nació en Japón en 1927 pero emigró a los Estados Unidos
en 1951. Comenzó estudiando economía doméstica en el Radford College (Virginia)
porque sabía que le resultaría fácil, pero pronto el decano le aconsejó cambiar a
ciencias donde, según él, “tendría mucho mejor futuro”. De modo que acabó cursando
matemáticas y química, y consiguió graduarse solo cinco años después de llegar a
América. Posteriormente consiguió una beca en estadística matemática en el Virgina
Tech, financiada por los Institutos Nacionales de Salud, y, en tres años, acabó un
Máster y un Doctorado en estadística por la reputada institución académica (1963).
Continuó una colaboración de gran éxito durante 45 años con su supervisor de tesis,
Leonard Shenton, que les llevó a publicar avances de gran relevancia estadística
como el método de momentos para la estimación de parámetros poblacionales. Tam-
bién implementaron un algoritmo de series divergentes para grandes computadoras
que, como Shenton reconoció en su momento, “funcionó gracias a la Dra. Bowman”.
Como investigadora senior en el Oak Ridge National Laboratory continuó su trabajo
en estimadores para datos no-normales y, gracias a su asociación profesional con
el Office of Naval Research, combinó su trabajo con viajes frecuentes a su Japón
natal. Después de 50 años de servicio, se jubiló en 1994, aunque seguiría realizando
colaboraciones esporádicas con la organización, donde siempre la recordaron como
una trabajadora incansable y entusiasta.
Bowman fue la autora o coautora de más de 200 artículos científicos y tres libros.
Fue elegida miembro de la American Association for the Advancement of Science
en 1970, miembro de la American Statistical Association en 1976, del International

Alfredo Yerman Cortes Verbel.


8.1. PROBABILIDAD. 208

Statistical Institute en 1978 y del Institute of Mathematical Statistics en 1987. En ese


mismo año, la Universidad de Tokyo le otorgo un doctorado honorario, convirtiéndose
en la primera persona “extranjera” en recibir dicho honor (se había nacionalizado
estadounidense en 1958).
Defensora de los derechos de las personas con discapacidades
Su trabajo estadístico es bien conocido, pero posiblemente su mayor impacto en la
sociedad vino de la mano de su lucha por ayudar a las personas con discapacidades.
Ella misma fue víctima de la polio en su juventud, causándole una parálisis casi total
de la que se recuperaría en gran medida dos años después. Es por ello que trató
de mejorar las condiciones de otras personas investigadoras en su condición desde
su posición como miembro del Comité Asesor sobre Igualdad de Oportunidades en
Ciencia e Ingeniería y del Comité de Personas con Discapacidades que dirigió, am-
bos de la de la National Science Foundation. Gracias a sus informes estadísticos,
consiguió establecer becas que aseguraran la adecuación del alojamiento y equi-
pamiento científico, y así promover el empleo de otras personas con discapacidades
en Academia. Pero su lucha llegó más lejos y dirigió la Comisión Especial de Se-
guimiento Estadístico del Empleo de Personas con Discapacidades para informar al
Comité del Presidente en dichas materias. Tanto fue así, que consiguió influenciar
las preguntas al respecto en el Censo de 2000, para que se vieran reflejadas con
precisión las dificultades de la comunidad.
Murió el 13 de enero de 2019 dejando tras de sí contribuciones fundamentales en
el mundo de la estadística pese a los obstáculos que se encontró en el camino.
Se definía como una “minoría por partida triple”, por ser asiática, mujer y disca-
pacitada, pero le restaba importancia diciendo “Una no debe perder de vista lo
que quiere conseguir. Por ello he tratado de no preocuparme por minucias o cosas
insignificantes”1 .
.

8.1. Probabilidad.
La probabilidad es una medida de la certidumbre de que ocurra un evento. Su
valor es un número entre 0 y 1, donde un evento imposible corresponde a cero y
uno seguro corresponde a uno.
Una forma empírica de estimar la probabilidad consiste en obtener la frecuen-
cia con la que sucede un determinado acontecimiento mediante la repetición de
experimentos aleatorios, bajo condiciones suficientemente estables. En algunos ex-
perimentos de los que se conocen todos los resultados posibles, la probabilidad
1
Tomado de Stadler, M. M. (2021, septiembre 22). Kimiko Bowman o cómo usar la esta-
dística para mejorar las condiciones laborales de las personas con discapacidades. Mujeres
con ciencia. https://mujeresconciencia.com/2021/09/22/kimiko-bowman-o-como-usar-la-estadistica-
para-mejorar-las-condiciones-laborales-de-las-personas-con-discapacidades/

Alfredo Yerman Cortes Verbel.


8.1. PROBABILIDAD. 209

de estos sucesos pueden ser calculadas de manera teórica, especialmente cuando


todos son igualmente probables
La teoría de la probabilidad es la rama de la matemática que estudia los experi-
mentos o fenómenos aleatorios. Se usa extensamente en áreas como la estadística,
la física, la economía (ciencia económica), las finanzas, la ciencia de datos, la In-
vestigación médica, en mediano grado en algunas de las demás ciencias sociales y
en menor grado en la filosofía para conocer la viabilidad de sucesos y la mecánica
subyacente de sistemas complejos.
En cuanto a la historia de la probabilidad, podemos afirmar que este término
surge en en el año 1553 con el escrito realizado por Gerolamo Cardano (1501-
1576), en el que la menciona por primera vez. En cambio, Pierre Fermat (1601-1665)
y Blaise Pascal (1623-1662) son conocidos como los padres de la teoría de la
probabilidad debido las grandes aportaciones que realizaron sobre este campo.
Posteriormente, surgen autores como Abraham de Moivre, el cual asentó las ba-
ses del Teorema Central del Límite. Dicho teorema sería demostrado años más tarde
por Laplace, otro gran contribuyente al desarrollo del conocimiento relacionado con
la probabilidad.
Por último, cabe hacer mención a Andréi Kolmogorov. Fue el creador de la obra
«Los fundamentos de la Teoría de la Probabilidad» en la que expuso la axiomática
de Kolmogorov y le hizo ser reconocido como una eminencia de la probabilidad.

8.1.1. Conceptos básicos de Probabilidad.

Definición 8.1: Aleatoriedad.


La aleatoriedad se refiere a eventos, procesos o modelos en los que algunos
de los resultados son esencialmente imprevisibles, por efectos relacionados
con el azar.

Definición 8.2: Experimento aleatorio.

Un experimento aleatorio es aquel que bajo el mismo conjunto aparente de


condiciones iniciales, puede presentar resultados diferentes, es decir, no se
puede predecir o reproducir el resultado exacto de cada experiencia parti-
cular.

Ejemplo 8.1
Cuando se lanza una moneda, se sabe que solo puede aparecer cara o cruz. Sin
embargo no se puede predecir al momento de lanzar la moneda en cuál lado
caerá.

Alfredo Yerman Cortes Verbel.


8.1. PROBABILIDAD. 210

Ejemplo 8.2
Cuando se lanza un dado se sabe que en la cara superior puede aparecer cual-
quiera de los números 1,2,3,4,5, o 6 pero no se puede predecir cuál aparecerá.

Definición 8.3: Espacio muestral.

Todos los resultados posibles de un experimento aleatorio en su conjunto,


forman el Espacio de la muestra. Se suele notar con la letra S o la letra
griega Ω (Omega mayúscula).

Ejemplo 8.3
Cuando lanzamos un dado se puede obtener cualquier resultado del 1 al 6. Todos
los números posibles que pueden aparecer en la cara superior forman el Espacio
Muestral. El espacio muestral de una tirada de dados es

S = {1, 2, 3, 4, 5, 6}

Definición 8.4: Resultado.


Cualquier elemento posible del espacio muestral S de un experimento alea-
torio se llama Resultado.

Ejemplo 8.4
:

3 es uno de los resultados de lanzar un dado.

Cara es uno de los resultados de lanzar una moneda.

Definición 8.5: Evento aleatorio.


Un evento aleatorio o fuente de sucesos aleatorio es un subconjunto de
un espacio muestral S, es decir, un conjunto de posibles resultados que se
pueden dar en un posible pero muy lejano experimento aleatorio. Los eventos
se suelen notar con la letra E.

Definición 8.6: Suceso.


Es un subconjunto del espacio muestral, A ⊂ Ω Se dice que ocurre un suceso
si ocurre alguno de los sucesos elementales que lo componen.

Alfredo Yerman Cortes Verbel.


8.1. PROBABILIDAD. 211

Cuando se produce un resultado que pertenece al subconjunto E, se dice que


ha ocurrido un suceso. Mientras que, cuando un resultado que no pertenece al
subconjunto E tiene lugar, el Evento no ha ocurrido.

Ejemplo 8.5
Considérese el experimento de lanzar un dado. Aquí el espacio muestral

S = {1, 2, 3, 4, 5, 6}

Sea E el evento de "que aparezca un número menor de 4". Así, el suceso

E = {1, 2, 3}

Si aparece el número 1, se dice que el suceso E ha ocurrido. Del mismo modo, si


los resultados son 2 ó 3, se puede afirmar que se ha producido el Suceso E, ya
que estos resultados pertenecen al subconjunto E.

Figura 8.1: ¿veo la tele o me quedo en la cama?

Ejemplo 8.6
Algunos ejemplos de sucesos:

Al tirar un dado, obtener 5 como puntuación.

Al lanzar 10 monedas, que 7 de ellas den cara.

Ejemplo 8.7
Si el resultado de un experimento consiste en determinar el sexo de un recién

Alfredo Yerman Cortes Verbel.


8.1. PROBABILIDAD. 212

nacido, el espacio muestral está dado por

E = {niña, niño}

Ejemplo 8.8
Si el experimento se trata del lanzamiento de 2 monedas, una después de la otra,
entonces
E = {(cara, cara), (cara, cruz), (cruz, cara), (cruz, cruz)}

Ejemplo 8.9
En el lanzamiento de 3 monedas, una después de la otra, un suceso elemental es

(cruz, cara, cara)

Ejemplo 8.10
En el lanzamiento de 3 monedas, que en la primer moneda salga cara es un
suceso compuesto.

{(cara, cara, cara), (cara, cara, cruz), (cara, cruz, cara), (cara, cruz, cruz)}

Definición 8.7: Suceso seguro.

Un suceso seguro, E, está formado por todos los posibles resultados (es decir,
por el espacio muestral).

Ejemplo 8.11
Que un recién nacido sea niño o niña es un suceso seguro

Definición 8.8: Suceso imposible.

Un suceso imposible, ∅, es el que no tiene ningún elemento.

Ejemplo 8.12
Al tirar un dado obtener una puntuación igual a 7 es un suceso imposible.

Alfredo Yerman Cortes Verbel.


8.1. PROBABILIDAD. 213

Definición 8.9: Eventos mutuamente excluyentes

A y B son eventos mutuamente excluyentes si no pueden ocurrir al mismo


tiempo. Dicho de otra manera, si A ocurrió entonces B no puede ocurrir y
viceversa. Esto significa que A y B no comparten ningún resultado

Ejemplo 8.13
Supongamos que

H = el evento de obtener una cara en el primer lanzamiento seguido de


una cara o una cruz en el segundo lanzamiento.

J = el evento de obtener siempre cruces.

J y H no tienen nada en común así que son mutuamente excluyentes.

8.1.2. Definición de Probabilidad.


La idea de probabilidad es uno de esos conceptos que cualquier ser humano
tiene preaprendiido. Todos tenemos conocimiento intuitivo de lo que supone que
una cosa sea muy difícil que ocurra (acertar en la lotería) o de algo que sea más
fácil que ocurra (lanzar una moneda y que salga cara). Otra cosa es la definición
matemática. Desde el punto de vista formal, el concepto de probabilidad se puede
abordar desde tres puntos de vista diferentes.
Con estas definiciones se pretende expresar de manera objetiva y precisa el
grado de ocurrencia de ciertos resultados de un fenómeno aleatorio.

Definición 8.10: Probabilidad (Definición de Bernoulli).

La probabilidad de un suceso A de un experimento aleatorio se puede definir


como el número al que se aproximan las frecuencias relativas de dicho suce-
so cuando el experimento se repite un número indefinido de veces. i.e. dado
un suceso A que se repite un número de veces, si observamos la frecuen-
cia con que se repite ese suceso, obtendremos las probabilidades asociadas
asignando la frecuencia relativa a cada suceso. Se llama frecuencia absoluta
de un suceso A al número de veces que se verifica A al realizar el experi-
mento un número determinado de veces. Se llama frecuencia relativa de un
suceso A al cociente entre su frecuencia absoluta y el número de veces que
se realiza el experimento, que viene dada por:
fa (A)
fr (A) =
n

Alfredo Yerman Cortes Verbel.


8.1. PROBABILIDAD. 214

donde n el número de veces que se repite el experimento.


Entonces matemáticamente la probabilidad se expresa por:

P(A) = limn→∞ fr (A)


fa (A)
= limn→∞
n

Definición 8.11: Probabilidad (Definición de Laplace).

Si un espacio muestral consta de un número finito de sucesos simples y todos


ellos tienen la misma posibilidad de suceder (equiprobables). Se define la
probabilidad de cualquier suceso A como:

Número de casos favorables


P(A) =
Número de casos posibles

i.e. La probabilidad de cualquier suceso A es igual al cociente entre el número


de resultados favorables o resultados que integran el suceso A y el número
total de elementos o posibles resultados del espacio muestral E.

Definición 8.12: Probabilidad (Definición de Kolmogorov).

Se llama probabilidad asociada al álgebra de Boole a una aplicación A → R


tal que, a cada valor de A le hace corresponder una probabilidad, que verifica
los siguientes axiomas:

Axioma 1: La probabilidad siempre es positiva.

P : A → [0, 1] ⊂ R
A ⊂ E, A ∈ A → 0 ≤ P [A] ≤ 1

Axioma 2: La probabilidad siempre estará ente 0 y 1.

P(∅) = 0
P(E) = 1

Axioma 3: Sea A1 · · · An sucesos tales que son disjuntos dos a dos (es
decir, la intersección es ∅) Ai ∩ Aj = ∅, la probabilidad es la suma de

Alfredo Yerman Cortes Verbel.


8.1. PROBABILIDAD. 215

todas las probabilidades de sucesos.

X
n
P (∪Ai ) = P (Ai )
i=1

Del tercer axioma se desprende que si A = A1 ∪ A2 · · · ∪ An conAi ∩ Aj = ∅ ,


entonces

P[A] = P[A1 ] + P[A2 ] + · · · + P[An ]


X
P [∪Ai ] = P (Ai )

Las definiciones 8.10,8.11 y 8.12 son equivalentes entre tanto que la definición
de Laplace (8.11) sirve para realizar estimaciones sobre las posibilidades de un
suceso que no es muy frecuente, además es más fácil de calcular; esta será la que
trabajaremos de aquí en adelante.

Figura 8.2: Probabilidades de lanzar varios números con dos dados. De Tim Stell-
mach - Trabajo propio using Inkscape and Open Office Draw software., Dominio
público, https://commons.wikimedia.org/w/index.php?curid=1220091

Alfredo Yerman Cortes Verbel.


8.1. PROBABILIDAD. 216

Cuando se trata de experimentos que son aleatorios y bien definidos en un


entorno puramente teórico (como lanzar una moneda justa), la probabilidad puede
describirse numéricamente por el número de resultados deseados, dividido por el
número total de todos los resultados (esto lo veremos a detalle más adelante.). Por
ejemplo, si se lanza una moneda al aire dos veces, se obtendrán resultados de cara-
cara, cara-cruz, cruz-cara y cruz-cruz. La probabilidad de obtener un resultado
de cara-cara es 1 de cada 4 resultados, o, en términos numéricos, 1/4, 0, 25 o
25 %. Sin embargo, en lo que respecta a la aplicación práctica, existen dos grandes
categorías de interpretaciones de la probabilidad que compiten entre sí, y cuyos
partidarios mantienen puntos de vista diferentes sobre la naturaleza fundamental
de la probabilidad:

Los Objetivistas asignan números para describir algún estado de cosas ob-
jetivo o físico. La versión más popular de la probabilidad objetiva es la pro-
babilidad frecuentista, que afirma que la probabilidad de un evento aleatorio
denota la frecuencia relativa de ocurrencia del resultado de un experimento
cuando este se repite indefinidamente. Esta interpretación considera que la
probabilidad es la frecuencia relativa a largo plazo de los resultados. Una
modificación de esto es la probabilidad de propensión, que interpreta la pro-
babilidad como la tendencia de algún experimento a producir un determinado
resultado, incluso si se realiza solo una vez.

Los subjetivistas asignan números por probabilidad subjetiva, es decir, como


un grado de creencia. El grado de creencia se ha interpretado como el precio
al que se compraría o vendería una apuesta que paga 1 unidad de utilidad
si E, 0 si no E. La versión más popular de la probabilidad subjetiva es la
probabilidad bayesiana, que incluye el conocimiento de los expertos así como
datos experimentales para calcular probabilidades.

Relación con el azar y la probabilidad en la mecánica cuántica


En un universo determinista, basado en los conceptos de la mecánica newto-
niana, no habría probabilidad si se conocieran todas las condiciones (demonio de
Laplace2 ), pero hay situaciones en las que la sensibilidad a las condiciones ini-
ciales supera nuestra capacidad de medirlas, es decir, de conocerlas. En el caso
2
En la historia de la ciencia, el demonio de Laplace es la primera articulación publicada de
determinismo causal o científico por Pierre-Simon Laplace en 1814. Según el determinismo de Laplace,
si alguien (el Demonio) supiera la ubicación precisa y momento de cada átomo en el universo, sus
valores pasados y futuros para cualquier tiempo dado serían deducibles de esos datos; podrían ser
calculados de las leyes de mecánica clásica.

Alfredo Yerman Cortes Verbel.


8.1. PROBABILIDAD. 217

de una ruleta, si se conoce la fuerza de la mano y el período de esa fuerza, el


número en el que se detendrá la bola sería una certeza (aunque, como cuestión
práctica, esto probablemente sólo sería cierto en una ruleta que no hubiera sido
exactamente nivelada -como reveló el Casino Newtoniano de Thomas A. Bass). Esto
también supone el conocimiento de la inercia y la fricción de la rueda, el peso,
la suavidad y la redondez de la bola, las variaciones en la velocidad de la mano
durante el giro, etc. Así, una descripción probabilística puede ser más útil que la
mecánica newtoniana para analizar el patrón de resultados de las repetidas tiradas
de una ruleta. Los físicos se enfrentan a la misma situación en la teoría cinética
de los gases, donde el sistema, aunque determinista en principio, es tan complejo
(con el número de moléculas típicamente del orden de magnitud de la constante de
Avogadro, 6, 02 < e < 23) que sólo es posible una descripción estadística de sus
propiedades.
La teoría de la probabilidad es necesaria para describir los fenómenos cuánti-
cos. Un descubrimiento revolucionario de la física de principios del siglo XX fue el
carácter aleatorio de todos los procesos físicos que ocurren a escalas subatómicas
y que se rigen por las leyes de la mecánica cuántica. La función de onda objetiva
evoluciona de forma determinista pero, según la interpretación de Copenhague, se
trata de probabilidades de observar, explicándose el resultado por un colapso de
la función de onda cuando se realiza una observación. Sin embargo, la pérdida del
determinismo en aras del instrumentalismo no contó con la aprobación universal.
Albert Einstein famosamente remarcó en una carta a Max Born: Estoy convencido
de que Dios no juega a los dados. Al igual que Einstein, Erwin Schrödinger, que
descubrió la función de onda, creía que la mecánica cuántica es una aproximación
estadística de una realidad determinista subyacente. En algunas interpretaciones
modernas de la mecánica estadística de la medición, se invoca la decoherencia
cuántica para explicar la aparición de resultados experimentales subjetivamente
probabilísticos.

8.1.3. Propiedades de la Probabilidad.


Sean A,B y C eventos cualquiera de un espacio muestral S:
i) P(φ) = 0.
ii) P(S) = 1.

iii) P(A) = 1 − P A′ .

iv) P (A ∩ B) = P(A) − P A ∩ B ′ .
v) Si los eventos no son mutuamente excluyentes (definición 8.9 ).
a) P(A ∪ B) = P(A) + P(B) − p(A ∩ B).

Alfredo Yerman Cortes Verbel.


8.1. PROBABILIDAD. 218

1. P(A ∪ B ∪ C ) = P(A) + P(B) + P(C ) − P(A ∩ B) − P(A ∩ C ) − P(B ∩ C ) −


P(A ∩ B ∩ C ).

b) Si A ⊆ B → P(A) ≤ P(B).

Figura 8.3: Mientras más se acerca el valor de la probabilidad a 0, disminuye la


posibilidad de que ocurra el evento. Mientras más se acerca el valor a 1, aumenta
la posibilidad de que ocurra. La probabilidad de que ocurra un evento es 0, si es
imposible que ocurra ese evento. Por otro lado, la probabilidad de que ocurra un
evento es 1, si es seguro que ocurrirá ese evento.

Ejemplo 8.14
¿Cuál es la probabilidad de obtener un 5 al lanzar un dado?
Si A es el evento obtener un 5 Al lanzar un dado, primero calculamos el número
total de casos posibles que se dan al lanzar un dado. En este problema, son 6
casos posibles, ya que el dado puede arrojar 1, 2, 3, 4, 5 o 6. Ahora, calculamos
el número de casos favorables. Si lanzamos un dado, tenemos 1 caso en el que
se obtiene 5. Por lo tanto:
Casos favorables 1
P(A) = = = 0, 166.. (8.1)
Total de casos 6
La respuesta sería: 0, 1667 o 16, 67 %.

Alfredo Yerman Cortes Verbel.


8.1. PROBABILIDAD. 219

Figura 8.4: Probabilidad o suerte


Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 220

8.1.4. Cálculo de probabilidad usando Diagrama de árbol.


En la definición 7.1 estudiamos el diagrama de árbol, como se construía y la
utilidad de este para representar gráficamente todos los posibles resultados de
un espacio muestral; veamos ahora la utilidad de este para calcular probabilidades.
Recordemos que un diagrama de árbol se hace de manera que cada resultado (nudo)
se ramifica en nuevos posibles resultados (ramas) hasta llegar a los resultados
finales. Una forma de representar eventos y sus probabilidades asociadas en un
diagrama de árbol esta dado en la figura 8.5

) B1
P (B 1

A1 P (B
2)

B2
)
( A1
P
) B1
P (B 1
P(A2 )
Evento A2 P (B
2)

P B2
(A
3)

) B1
P (B 1

A3 P (B
2)

B2

Figura 8.5: Diagrama de árbol con las probabilidades asociadas

Se debe tener en cuenta que la suma de las probabilidades de todas las ramas
que salen de un nudo debe ser igual a 1.

8.1.5. Construcción de un diagrama de árbol.


Para hacer un diagrama de árbol debes seguir los siguientes pasos:

Alfredo Yerman Cortes Verbel.


8.1. PROBABILIDAD. 221

1. El primer paso para hacer un diagrama de árbol es dibujar una rama por cada
resultado posible. Estas serán las ramas de primera generación.

2. Luego se añade la probabilidad asociada a cada evento a su rama correspon-


diente.

3. El final de cada rama de primera generación es un nudo del cual se deben


representar las ramas de los siguientes posibles sucesos.

4. Al igual que en las primeras ramas, se deben agregar las probabilidades de


los sucesos representados.

5. Repetir los pasos 3 y 4 hasta llegar a los nudos finales, es decir, a los posibles
finales del experimento.

Cabe destacar que el número de ramas de un nivel no tiene por qué ser igual
al número de ramas de un nivel diferente. Asimismo, el número de ramas que salen
de un posible resultado puede variar incluso dentro de un mismo nivel.

Ejemplo 8.15
Dado el lanzamiento de tres monedas independientes, calcular la probabilidad
de obtener cara en los tres lanzamientos.
En el lanzamiento de una moneda solo hay dos posibles resultados, podemos
obtener cara o cruz; sea A : obtener cara en el lanzamiento de la moneda y B :
obtener cruz; por lo tanto, la probabilidad de obtener cara o cruz al lanzar una
moneda es:
1
P(A) = = 0,5
2
1
P(B) = = 0,5
2
procedemos a representar el diagrama de árbol.
Como los lanzamientos de las monedas son independientes, la probabilidad
de sacar cara o cruz siempre será la misma en cada lanzamiento. Por lo tanto,
para construir el diagrama de árbol se deben representar dos ramas (cara y cruz)
con la misma probabilidad por cada lanzamiento que se realiza. Y una vez hemos
hecho el diagrama de árbol solo nos queda determinar la probabilidad de sacar
cara en los tres lanzamientos de monedas. Para calcular la probabilidad de un
posible resultado de un diagrama de árbol se deben multiplicar las probabilidades
de todas las ramas contiguas.

Alfredo Yerman Cortes Verbel.


8.1. PROBABILIDAD. 222

Cara (Cara,Cara, Cara)


)
P (A
1
2
Cara
) P (B
P (A )
1
1 2
2 (Cara,Cara, Cruz)
Cruz
Cara
P (B Cara (Cara,Cruz, Cara)
) )
1
P (A
A)

2 1
P(

2
1

Cruz
2

P (B
)
Lanzar 1
tres 2
Cruz (Cara,Cruz, Cruz)
monedas
Cara (Cruz,Cara, Cara)
indepen- )
dientes P (A
1
2
Cara
P(

) P (B
B)

P (A )
1
2

1
1 2
2 (Cruz, Cara, Cruz)
Cruz
Cruz
P (B Cara (Cruz,Cruz, Cara)
) )
1
P (A
2 1
2
Cruz
P (B
)
1
2
Cruz (Cruz,Cruz,Cruz)
debemos multiplicar todas las probabilidades de obtener cara, ya que son las pro-
babilidades del camino que nos lleva a nuestro resultado deseado.

1 1 1 1
P(C ara, C ara, C ara) = · · = = 0, 125
2 2 2 8
i.e., la probabilidad de conseguir tres veces cara de manera consecutiva es del
12,5

Alfredo Yerman Cortes Verbel.


8.1. PROBABILIDAD. 223

Ejemplo 8.16
En el barrio de Santa Clara solo hay 3 guarderías: en la guardería A van el 60 %
de los niños, en la guardería B el 30 % y en la guardería C el 10 %. Además, en las
tres guarderías el 55 % de los estudiantes son chicas, y el resto chicos. Construir
el diagrama de árbol y calcular las siguientes probabilidades:
Probabilidad de que al seleccionar al azar un estudiante, sea una chica de
la guardería B
Probabilidad de que al seleccionar al azar un estudiante de cualquier guar-
dería sea un chico.
Si la proporción de chicas en todas las guarderías es del 55 %, el porcentaje
de chicos se calcula simplemente restando 1 menos 0,55:
P(C hico) = 1 − 0,55 = 0,45
Ahora que se conocen todas las probabilidades, podemos hacer el diagrama
de árbol:
iña) niña (Guarderia A,Niña)
P (N
Guarderia 55
P (0N,
A iño)
0,45
niño (Guarderia A,Niño)
)
(A
P 6
0,
iña) niña (Guarderia B,Niña)
Estudiantes P(B) P (N
Guarderia 55
en guar- P (0N,
0,3 B iño)
derias 0,45
niño (Guarderia B,Niño)
P
(C
0, )
1
iña) niña (Guarderia C,Niña)
P (N
Guarderia 55
P (0N,
C iño)
0,45
niño (Guarderia C,Niño)
Por lo tanto, la probabilidad de seleccionar aleatoriamente una niña de la
guardería B se calcula de la siguiente manera:
P(chica guardería B) = 0, 30 · 0, 55 = 0, 165

Alfredo Yerman Cortes Verbel.


8.2. EVALUACIÓN POR COMPETENCIAS 224

Por otro lado, para determinar la probabilidad de seleccionar un niño de cualquier


guardería primero debemos hallar la probabilidad de escoger un chico para cada
guardería y luego sumarlas:

P(niño guardería A) = 0,6 · 0,45 = 0,27


P(niño guardería B) = 0,30 · 0,45 = 0,135
P(niño guardería C) = 0,10 · 0,45 = 0,045
P(niño guardería A, B o C) = 0,27 + 0,135 + 0,045 = 0,45

8.2. Evaluación por competencias


8.2.1. Ejercicios de aplicación
8.2.2. Evaluando saberes

Alfredo Yerman Cortes Verbel.


225
9.1. ASIMETRÍA Y CURTOSIS. 226

9. SCRIPTS R.

Los estadistas, como los artistas,


tienen la mala costumbre de
enamorarse de sus modelos.

George E.P. Box

George Edward Pelham Box (18 de octubre de 1919 – 28 de marzo de 2013) fue
un estadístico británico que trabajó en las áreas de control de calidad, análisis de
series temporales, diseño de experimentos, y la inferencia bayesiana, es considerado
como una de las mentes más brillantes de la estadística del siglo XX. Fue autor,
junto con George C. Tiao, del celebrado “Bayesian Inference in Statistical Analysis”
libro de cabecera de muchos estadísticos.

9.1. Asimetría y curtosis.


XZC<

Alfredo Yerman Cortes Verbel.


9.2. EVALUACIÓN POR COMPETENCIAS 227

Figura 9.1: Gráficas de Halloween

9.2. Evaluación por competencias


9.2.1. Ejercicios de aplicación
9.2.2. Evaluando saberes

Alfredo Yerman Cortes Verbel.

También podría gustarte