pdf
Clases presenciales Carpeta / Tema_1_Descriptiva_Univariada_25_26.pdf

733.2 KB Original en Moodle Descargar local


PROBABILIDAD Y ESTADÍSTICA
Prof. Juan José Martín Sotoca
Dep. de Matemática aplicada a las TIC
E.T.S.I.S.I. (Universidad Politécnica de Madrid)
Probabilidad y Estadística
(ETSISI –UPM)
Curso 25-26

Análisis
Estadístico
INTRODUCCIÓN
-Aprendersobrefenómenosfísicosonaturalesconelobjetivodeobtener
conclusionesy,portanto,podertomardecisiones.
•¿Qué es la estadística?.
Fenómeno Real
•¿Por qué estudiamos estadística?
-Eslaramadelasmatemáticasquetratalarecolección,análisise
interpretacióndedatos,asícomoproponerunmodeloprobabilísticoquese
ajusteaesosdatos,yevaluarovalidarlaprecisióndelmodelopropuesto.
Aprendizaje 
sobre el 
fenómeno
Datos
Observados

•La estadística se divide en dos grandes áreas:
1. ESTADÍSTICA DESCRIPTIVA
-Visualización/representación y resumen de datos.
2. ESTADÍSTICA INFERENCIAL.
-Comprendemétodosyprocedimientosinductivosparadeterminar
propiedadesdeunapoblaciónestadística,apartirdeunamuestradeésta.
-Creacióndemodelosenbasealosdatosobservadosconelobjetivode
poderhacerpredicciones.
INTRODUCCIÓN

ESTADÍSTICA DESCRIPTIVA
UNIVARIADA
Prof. Juan José Martín Sotoca
Dep. de Matemática aplicada a las TIC
E.T.S.I.S.I. (Universidad Politécnica de Madrid)
Probabilidad y Estadística
(ETSISI –UPM)
Curso 25-26

•DEFINICIONES.
•REPRESENTACIÓN DE DATOS.
-Tabla de frecuencias.
-Representaciones gráficas.
•MEDIDAS (RESUMEN) DE LOS DATOS.
-Centralización y posición.
-Dispersión.
-Forma.
ÍNDICE
ESTADÍSTICA DESCRIPTIVA UNIVARIADA

Elemento/Individuo: cada uno 
de los miembros de la población.
Muestra: subconjunto de 
individuos de la población.
DEFINICIONES
Población:conjuntodeseres,medidasuobjetosacercadelosquesedesea
tenerinformación.

Cualitativa:Describe una 
cualidad.
Cuantitativa:Toma valores 
numéricos.
Discreta:conjunto numerable 
(enteros).
VARIABLE 
ESTADÍSTICA
Característica que se 
mide/observa en los 
individuos de una 
población.
Continua:Valores en un 
Intervalo.
Ejemplo: la altura, la edad, el 
peso, el sexo, número de 
hermanos, etc.
Ejemplo: color de ojos, 
preferencias, etc.
Ejemplo: altura, peso, etc.
DEFINICIONES

•Haydosmanerasequivalentesdepresentarlainformacióncontenidaenun
conjuntodedatos:
Sex oFrecuencia
Hom bres23
Mujeres32
HombresMujeres
0
6
12
18
24
30
36
REPRESENTACIÓN DE LOS DATOS
REPRESENTACIONES GRÁFICASTABLAS DE FRECUENCIAS
OBJETIVO
Resumir información contenida en los datos para 
facilitar su análisis

TABLA DE FRECUENCIA
•Tablaquemuestralafrecuenciadecadavalorobservado.
•Frecuenciasabsolutas(푭
풊
):Contabilizanelnúmerototaldeelementosparacada
característicaobservada.
•Frecuenciasrelativas(풇
풊
):Eslaproporcióndeindividuosquetienenunadeterminada
característicasobreeltotaldeindividuosdelamuestra.Seobtienedividiendola
frecuenciaabsolutaentreeltotaldeindividuos.
•Frecuenciasacumuladas(푭
풂풄
y풇
풂풄
):Seobtienensumandolasfrecuenciasdelasclases
anteriores.
REPRESENTACIÓN DE LOS DATOS
푓
푖
=
퐹
푖
푁
N es el nº total de individuos
퐹
푎푐
푥=෍
푖≤푥
퐹
푖
푓
푎푐
푥=෍
푖≤푥
푓
푖

•Cuando los Datos son cualitativos o cuantitativos discretos con pocos 
valores distintos →Damos la frecuencia con que aparece en la muestra para 
cada característica.
•Datos cuantitativos continuos o discretos con muchos valores distintos →
Damos la frecuencia con los datos agrupados en clases o intervalos.
TABLA DE FRECUENCIA
REPRESENTACIÓN DE LOS DATOS

0   0   1   1   2   0   3   0   2   4 
2   1   0   5   5   2   2   3   1   1 
1   2   2   4   5   0   3   2   2   2 
2  4   3   1   1   1   0   0   2   3 
1  4   0   0   1   1   2   2   3   2 
3  1   1   0   0   1   2   0   2   2 
0  0   0   0   1   1   4   3   3   2 
1  6   3   1   3   2   1   2   3   0 
1  3   0   2   3   2   1   3   4   0 
6  2   1   3   0   3   1   0   2   2 
EJEMPLO 1
•Sehacontadoelnúmerodehijosde100matrimoniosquellevancasados
másde15años.Obteniendolossiguientesresultados:
TABLA DE FRECUENCIA
REPRESENTACIÓN DE LOS DATOS

Nº de 
hijos
F
i
f
i
F
ac
f
ac
0220.22220.22
1240.24460.46
2260.26720.72
3170.17890.89
460.06950.95
530.03980.98
620.021001
100
1
EJEMPLO 1
TABLA DE FRECUENCIA
REPRESENTACIÓN DE LOS DATOS

•¿Cuántas clases elegir?
Pocas:Sepierdemuchainformacióndelosdatos.
Muchas:Lafrecuenciaresultanteencadaunapuedeser
pequeñaypocoútilparaelestudio
Nº DE 
DATOS
Nº DE 
CLASES
20 -507
50 -7510
75 -10012
Másde 10015
Se suelen elegir 
intervalos de igual 
longitud
TABLA DE FRECUENCIA
REPRESENTACIÓN DE LOS DATOS

•Lossiguientesdatosmuestranlosnivelesdecolesterolenlasangrede40
estudiantesdeprimerañodeunauniversidad.
213173193196220183194200
192200200199178183188193
187181193205196211202213
216206195191171194184191
221212221204204191183227
EJEMPLO 2
TABLA DE FRECUENCIA
REPRESENTACIÓN DE LOS DATOS

•Tabla de frecuencias de los niveles de colesterol en sangre:
Intervalo 
de clase
Frecuencia 
absoluta
Frecuencia 
relativa
170 - 180
3
0.075
180 - 190 
7
0.175
190 - 200
13
0.325
200 - 210
8
0.2
210 - 220
5
0.125
220 - 230
4
0.1
EJEMPLO 2
TABLA DE FRECUENCIA
REPRESENTACIÓN DE LOS DATOS

•Gráficos de frecuencias para datos cualitativos.
•El área de cada sector representa la frecuencia relativa de cada valor.
24,00%
16,00%
10,00%
8,00%
10,00%
16,00%
10,00%
4,00%
2,00%
Diagrama de tarta
0 días
1 día
2 días
3 días
4 días
5 días
6 días
7 días
8 días
9 días
1. Diagrama de tarta o sectores
GRÁFICO DE FRECUENCIA
REPRESENTACIÓN DE LOS DATOS

•Gráficosdefrecuenciasparadatoscuantitativos.
•Cadabarrarepresentaunaclase.Nohayhuecoentrebarras.
2. Histograma
Nº DE 
DATOS
Nº DE 
CLASES
20 -507
50 -7510
75 -10012
Másde 10015
GRÁFICO DE FRECUENCIA
REPRESENTACIÓN DE LOS DATOS

•Lasbasessonigualesalaamplituddecadaclase.
•Laalturacorrespondealafrecuenciaabsolutaorelativadelaclase.
•Marcadeclase:Eselvalormediodecadaclase.
•Rangodelosdatos:Amplitudtotalorecorridodelosdatos.
2. Histograma
GRÁFICO DE FRECUENCIA
REPRESENTACIÓN DE LOS DATOS
RANGO= dato máximo –dato mínimo

El histograma da información sobre:
•La simetría de los datos y la dispersión de los mismos.
-2,6-1,6-0,60,41,42,43,4
0
5
10
15
20
25
30
-0,1
0,3
0,7
1,1
1,5
1,9
2,3
0
4
8
12
16
20
Simétricos
Dispersos
2. Histograma
GRÁFICO DE FRECUENCIA
REPRESENTACIÓN DE LOS DATOS

El histograma da información sobre:
•La forma de la distribución.
-4048121620
0
10
20
30
40
-2
3
8
13
18
23
28
0
3
6
9
12
15
18
Asimétricos a 
la derecha
Asimétricos a la 
izquierda
2. Histograma
GRÁFICO DE FRECUENCIA
REPRESENTACIÓN DE LOS DATOS

El histograma da información sobre:
•Posibles dos poblaciones.
•Si hay valores muy alejados →valores atípicos.
2. Histograma
GRÁFICO DE FRECUENCIA
REPRESENTACIÓN DE LOS DATOS

EJEMPLO 3
TABLA DE FRECUENCIAS
•La variable representa el peso (en gr.) de 191 monedas de 1 €.
Clase 
Límite 
Inferior
Límite 
Superior
MarcaFrecuencia
Frecuencia 
Relativa
 Frecuencia 
Acumulada
Frecuencia 
Relat. 
Acumulada
Menor que 8,89                                                    0000
18.898.988.940000
28.989.079.0340.020940.0209
39.079.169.12270.1414310.1623
49.169.259.21810.42411120.5864
59.259.349.30570.29841690.8848
69.349.439.39200.10471890.9895
79.439.529.4820.01051911
89.529.619.57001911
Mayor que 9,61001911
REPRESENTACIÓN DE LOS DATOS

-Representación de las frecuencias relativas:
Histograma
Peso
porcentaje
8,99,19,39,59,7
0
10
20
30
40
50
HISTOGRAMA
(%)
EJEMPLO 3
REPRESENTACIÓN DE LOS DATOS

Histograma
Peso
porcentaje
8,99,19,39,59,7
0
20
40
60
80
100
-Representación de las frecuencias relativas  acumuladas:
(%)
HISTOGRAMA
EJEMPLO 3
REPRESENTACIÓN DE LOS DATOS

Histograma
Ambos
porcentaje
340344348352356360364
0
5
10
15
20
25
30
Posible presencia 
de 2 poblaciones
•Datoscorrespondientesalaslongitudes(×10
−4
푚)de100clavosdelmismo
tipo,medidospordospersonas,50clavoscadauna,queusaroncalibres
diferentes.
EJEMPLO 4
(%)
×10
−4
푚
REPRESENTACIÓN DE LOS DATOS

Calibre1
Calibre 2
porcentaje
340344348352356360364
46
26
6
14
34
54
•Comparacióndeloshistogramasseparandolosdatossegúnelcalibre
utilizado:
(%)
Calibresdiferentes
0
EJEMPLO 4
REPRESENTACIÓN DE LOS DATOS

•Polígonodefrecuencias
•Serepresentalospuntosmediosdecadaclase(marcas)frentealafrecuenciadela
clasecorrespondienteyseunenestospuntosporlíneasrectas.
•Útilesparacompararconjuntosdedatos.
OTRAS REPRESENTACIONES GRÁFICAS
REPRESENTACIÓN DE LOS DATOS

EJEMPLO 5
Histograma
Peso
porcentaje
8,99,19,39,59,7
0
10
20
30
40
50
Histograma
Peso
porcentaje
8,99,19,39,59,7
0
20
40
60
80
100
•La variable representa el peso (en gr.) de 191 monedas de 1 €.
Polígono de frecuencias 
relativas
Polígono de frecuencias 
acumuladas
(%)
(%)
POLÍGONO DE FRECUENCIAS
REPRESENTACIÓN DE LOS DATOS

•Medidas de centralización y posición
Valor que representa a todo el conjunto de datos: media, mediana, moday cuantiles.
•Medidas de dispersión
Valor que cuantifica cómo están distribuidos los datos  con respecto a la media: varianza
(desviación típica).
•Medidas de forma 
Valores que miden lo simétrica o “apuntada/picuda” que es la distribución de nuestros datos: 
coeficiente de asimetría, coeficiente de apuntamiento (curtosis).
MEDIDAS DE UN CONJUNTO DE DATOS
INTRODUCCIÓN

•Para datos no agrupados la media aritmética de un conjunto de datos 
푥
1
,푥
2
,푥
3
,...푥
푛
 es
 
•Para datos agrupados en tablas de frecuencias:
n
x
=
x
i

ii
i
i
ii
fx=
n
F
x=
n
Fx
=x










MEDIDAS DE CENTRALIZACIÓN
MEDIA ARITMÉTICA
MEDIDAS DE UN CONJUNTO DE DATOS

•Actúa como centro geométrico o como centro de masasdel conjunto de datos.
•Es muy sensible a valores extremos (atípicos).
MEDIAMEDIA
OBSERVACIONES
MEDIDAS DE CENTRALIZACIÓN
MEDIA ARITMÉTICA
MEDIDAS DE UN CONJUNTO DE DATOS

lj푥=
1510+1560+1575+1600+1800
5
=1609
•¿Qué ocurriría si el valor 1800 fuera 6000?.
lj푥=
1510+1560+1575+1600+6000
5
=2449
La medida pierde 
representatividad
EJEMPLO 1
•Una pequeña empresa tiene cinco trabajadores. Sus salarios mensuales son: 1510, 1560, 
1575, 1600 y 1800 Euros. El salario medio es:
MEDIDAS DE CENTRALIZACIÓN
MEDIA ARITMÉTICA
MEDIDAS DE UN CONJUNTO DE DATOS

•Es un valor que divide a los datos en dos grupos con el mismo número de individuos.
•Es conveniente cuando los datos son asimétricos (muy heterogéneos). 
•No es sensible a valores extremos.
•Para calcularla:
•ordenamos los datos de menor a mayor.
•si el número de datos es impar, la mediana es el dato del medio
•si el número de datos es par, la mediana es la media de los datos centrales.
MEDIANA
MEDIDAS DE CENTRALIZACIÓN
MEDIDAS DE UN CONJUNTO DE DATOS

•Poco sensible a las asimetríasdel histograma.
Mediana
Mediana = Media
50%50%
Media
OBSERVACIONES
MEDIANA
MEDIDAS DE CENTRALIZACIÓN
MEDIDAS DE UN CONJUNTO DE DATOS

•Poco sensible a valores atípicos.
Mediana = Media
Mediana
Media
MEDIANA
MEDIDAS DE CENTRALIZACIÓN
MEDIDAS DE UN CONJUNTO DE DATOS
OBSERVACIONES

•13 ovejas comieron una hierba venenosa. Las horas que tardaron en morir fueron: 
44, 27, 24, 24, 36, 36, 44, 44, 120, 29, 36, 36 y 36.
Calcular la mediana.
→Ordenamos los valores de menor a mayor:
24, 24, 27, 29, 36, 36, 36, 36, 36, 44, 44, 44, 120
13 Observaciones
66
EJEMPLO 2
MEDIDAS DE CENTRALIZACIÓN
MEDIDAS DE UN CONJUNTO DE DATOS

•Es el valor más frecuente, el que más se repite.
•En datos agrupados, es la clase más frecuente.
•La presencia de varias modas puede indicar la existencia de varios grupos.
Histograma
Peso
porcentaje
8,9
9,1
9,3
9,5
9,7
0
10
20
30
40
50
Histograma
Peso
porcentaje
1600
2100
2600
3100
3600
4100
4600
0
5
10
15
20
25
30
Unimodal
MODA
Bimodal
MEDIDAS DE CENTRALIZACIÓN
MEDIDAS DE UN CONJUNTO DE DATOS

•Son valores de la variable (푄
1
,푄
2
푦푄
3
) que dividen a la distribución en 4 partes, 
cada una de las cuales engloba el 25 % de los datos.
MEDIDAS DE POSICIÓN (CUANTILES)
CUARTILES
푄
1
= Primer cuartil
푄
2
= Segundo cuartil = Mediana
푄
3
= Tercer cuartil
푄
3
−푄
1
= Rango intercuartílico
MEDIDAS DE UN CONJUNTO DE DATOS

MEDIDAS DE DISPERSIÓN
Menor dispersión
Igual media
Mayor dispersión
Igual media
MEDIDAS DE UN CONJUNTO DE DATOS

•Los valores 0 y 10 tienen como media 5.
•Los valores 5 y 5 tienen como media 5.
•En ambos casos tienen la misma media, sin embargo, los conjuntos son 
diferentes.
•En ocasiones, conocer sólo la media nonos da una idea de cómo están 
repartidos el resto de valores entorno a ella.
EJEMPLO
¿están cerca o lejos de la media?
MEDIDAS DE DISPERSIÓN
MEDIDAS DE UN CONJUNTO DE DATOS

x
x
x
i
−
i
x
퐷=
1
푛
෍(푥
푖
−lj푥)
Distancia entre un 
valor y la media
•Calculamos la distancia media como el promedio de las distancias de todos los 
valores al valor medio:
Problema:La distancia media puede salir 0 sin que los puntos sean todos igual que la media, 
puesto que los valores se pueden cancelar.
Solución:Quitar los signos negativos elevando al cuadrado.
MEDIDAS DE DISPERSIÓN
MEDIDAS DE UN CONJUNTO DE DATOS

•Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la 
media.
•Para datos no agrupados la varianza de un conjunto de datos 푥
1
,푥
2
,푥
3
,...푥
푛
 es:
Distancia 
cuadrática
VARIANZA
•Una manera fácil de calcular la varianza es utilizar el desarrollo:
푣
2
=
1
푛
෍
푖=1
푛
(푥
푖
−ҧ푥)
2
푣
2
=
1
푛
෍
푖=1
푛
(푥
푖
)
2
−ҧ푥
2
MEDIDAS DE DISPERSIÓN
MEDIDAS DE UN CONJUNTO DE DATOS

•Si los datos están agrupados en una tabla de frecuencias:
푣
2
=
1
푛
෍퐹
푖
푥
푖
2
−lj푥
2
푣
2
=෍푓
푖
푥
푖
2
−lj푥
2
VARIANZA
MEDIDAS DE DISPERSIÓN
MEDIDAS DE UN CONJUNTO DE DATOS

•Para lograr una medida de la distancia media calculamos la raíz cuadrada de 
la varianza:
푣=
1
푛
෍(푥
푖
−lj푥)
2
DESVIACIÓN TÍPICA
•Tiene las mismas unidades que la variable estadística y es en general más 
“tangible”.
MEDIDAS DE DISPERSIÓN
MEDIDAS DE UN CONJUNTO DE DATOS

COEFICIENTE DE VARIACIÓN
•El coeficiente de variación no posee unidades, es decir, es adimensional.
MEDIDAS DE DISPERSIÓN
MEDIDAS DE UN CONJUNTO DE DATOS
•Para su interpretación se expresa como porcentaje, teniendo en cuenta que puede 
superar el valor 100%:
•Medida de dispersión relativa independiente de la escala de la variable estadística.
•Se utiliza para comparar la dispersión de variables estadísticas con unidades de medida 
distintaso de medias muy diferentes. A mayor valor del CV mayor dispersión.
퐶푉(%)=
푣
ҧ푥
×100

MEDIDAS DE FORMA
SESGO O COEFICIENTE DE ASIMETRÍA DE FISHER
•El coeficiente de asimetríamide la simetría de los datos respecto de la media. Se define 
como:
퐴푠=
1
푁
σ
푖=1
푁
(푥
푖
−ҧ푥)
3
푣
3
푥
1
,푥
2
,푥
3
,...푥
푁
 constituye toda la 
población
푣es la desviación típica
As > 0
As < 0
As = 0
MEDIDAS DE UN CONJUNTO DE DATOS

CURTOSIS O COEFICIENTE DE APUNTAMIENTO DE FISHER
•Lacurtosismide el apuntamiento de los datos. Se define como:
퐾=
1
푁
σ
푖=1
푁
(푥
푖
−ҧ푥)
4
푣
4
−3
Leptocúrtica K>0
푥
1
,푥
2
,푥
3
,...푥
푁
 constituye toda la 
población
푣es la desviación típica
Mesocúrtica K=0
PlaticúrticaK<0
Distribución Gaussiana
MEDIDAS DE FORMA
MEDIDAS DE UN CONJUNTO DE DATOS

DIAGRAMA DE CAJA Y BIGOTES
•Es una representación gráfica de un conjunto de datos que consta de dos partes, la caja 
y los bigotes.
•Ofrece información acerca de:
a.Cuáles son los valores clave, tales como: el promedio, mediana, cuartiles, etc.
b.Si hay valores atípicos y cuáles son sus valores.
c.Si los datos son simétricos.
d.Cuán estrechamente se agrupan los datos.
e.Si los datos están sesgados (asimetrías) y si es así, en qué dirección.
CAJA
BIGOTE
BIGOTE
MEDIDAS DE UN CONJUNTO DE DATOS
•Tienen la ventaja de ocupar menos espacio que un histograma, lo cual es útil cuando se 
comparan varias distribuciones.

•푄
1
= Primer cuartil
•푄
2
= Segundo cuartil = Mediana
•푄
3
= Tercer cuartil
•R = 푄
3
−푄
1
(Rango intercuartílico)
•퐿
푚푎푥
de los bigotes = 1.5 x R
푥
min_푏
푥
max_푏
•Valores atípicos:
Valores tal que >푄
3
+1.5×푅
Valores tal que <푄
1
−1.5×푅
•Extremos del bigote:
푥
max_푏
= Máx valor tal que <푄
3
+1.5×푅
푥
min_푏
= Mín valor tal que  >푄
1
−1.5×푅
DIAGRAMA DE CAJA Y BIGOTES
MEDIDAS DE UN CONJUNTO DE DATOS