pdf
TEMA 1 descriptiva univariada Carpeta / TEORIA TEMA 1 DATOS UNIDIMENSIONALEs.pdf

1436.3 KB Original en Moodle Descargar local


1
TEMA 1: ANÁLISIS ESTADÍSTICO 
DE DATOS UNIDIMENSIONALES
1.1 CONCEPTOS GENERALES
1.2 DISTRIBUCIÓN O TABLA DE FRECUENCIAS
1.3 REPRESENTACIONES GRÁFICAS
1.4 MEDIDAS DE CENTRALIZACIÓN
1.5 MEDIDAS DE DISPERSIÓN
1.6 MEDIDAS DE FORMA: ASIMETRÍA Y CURTOSIS
1.7. ESTUDIO DESCRIPTIVO DE UN CONJUNTO DE 
DATOS UNIDIMENSIONALES.
PRÁCTICA: ANÁLISIS ESTADÍSTICO DE DATOS 
UNIDIMENSIONALES

2
1.1 CONCEPTOS GENERALES
ESTADÍSTICADESCRIPTIVA:Técnicasquetratande
describirconjuntosdedatosresumiendolainformaciónqueéstos
proporcionanutilizandocomoherramientas:
•DISTRIBUCIÓN OTABLA DE 
FRECUENCIAS
• GRÁFICOS 
• MEDIDAS NUMÉRICAS: 
* POSICIÓN O CENTRALIZACIÓN
* DISPERSIÓN
* FORMA 

3
•POBLACIÓN: conjunto de elementos o individuos de los que 
interesa estudiar alguna característica o propiedad. 
Las características que se estudian  se denotarán con letras 
mayúsculas: X, Y, Z,...
Ejemplo:
Población: alumnos matriculados en primer curso de alguna 
universidad madrileña
Características: edad, nº de conexiones a internet en un día, 
altura, tiempo empleado en una llamada de móvil, salario que se 
cobra mensualmente, grado de satisfacción ante el 
funcionamiento de un cierto servicio, color de pelo,...
DEFINICIONES

4
Para el estudio de una o varias características en una  
población SIEMPRE se utiliza una muestra de la misma
•MUESTRA:subconjunto FINITOde individuos de una 
población.
•RAZONES PARA ESTUDIAR UNA MUESTRA: Coste, 
tiempo,  personal cualificado, procesos destructivos,...
•La muestra elegida es un  conjunto de n datos que vienen de la 
observación de la característica de interés, X.
Estos datos se denotan con letras minúsculas como  x
1
, x
2
,..., x
n
. 
DEFINICIONES

5
Definiciones
•DATOS ATÍPICOS:  son datos diferentes o muy diferentes de los 
demás datos recogidos para una característica.
Estos datos pueden ser debidos a errores de medida o de 
transcripción. 
Otras veces son datos diferentes del resto por la propia naturaleza de 
la característica que se mide.
Ejemplo:
Al introducir valores con una cifra entera significativa y una decimal 
en una base de datos, podemos introducir el valor 6.2 como 62.
Al medir el tamaño de un conjunto de estrellas puede haber una 
supernova y ese dato será mucho mayor que el resto.
Es importante detectar estos datos para corregirlos, si son errores, o 
para tenerlos en consideración si son muy diferentes del resto.

6
•LlamamosVARIABLE o CARACTERÍSTICA a la cualidad o 
propiedad objeto de nuestro estudio. Pueden ser:
•Cualitativas: la característica no toma valores numéricos sino 
que sus valores indican una cualidad. A estos valores se les 
llama categoríasomodalidades. Pueden ser:
•Nominales: los valores no se pueden ordenar: sexo, color 
de pelo, ...
•Ordinales: los valores sí se pueden ordenar: grado de 
satisfacción ante el funcionamiento de un cierto servicio
•Cuantitativas:la característica toma valores numéricos. 
Estas variables también se llaman VARIABLES 
ESTADÍSTICAS.
DEFINICIONES

7
Dentro de las VARIABLES CUANTITATIVAS distinguiremos:
•Variables estadísticas discretas:toman valores aislados sin 
posibilidad de tomar valores intermedios.
•Variables estadísticas continuas:pueden tomar cualquier  
valor dentro de un rango especificado.
Ejemplo:Para la población de los alumnos matriculados en primer 
curso de alguna universidad madrileña, podemos definir
Variables discretas: : edad, nº de conexiones a internet en un día,  
número de horas de estudio semanales, número de zapato que calza,...
Variables continuas: altura, peso, tiempo empleado en una llamada 
de móvil, salario que se cobra mensualmente,.. 
Definiciones
7

8
1.2 DISTRIBUCIÓN DE FRECUENCIAS
Para estudiar una variable X se parte de una muestra de tamaño
n, x
1
, x
2
,..., x
n
, entre los que suponemos que aparecen como 
valores distintosx
1
, x
2
,..., x
k
. Se definen:
•FRECUENCIA ABSOLUTA DE x
i
: Es el número, n
i
, 
de veces que se repite x
i
.
•FRECUENCIA RELATIVA DE x
i
: es el cociente entre la 
frecuencia absoluta y n.
n
N
F
nN
i
i
i
j
ji



1
•FRECUENCIA ABSOLUTA(RELATIVA) ACUMULADA DE 
x
i
: si llamamos x
*
1
, x
*
2
,..., x
*
k
a los valores ordenados de menor a 
mayor (sólo sentido variables cuantitativas o estadísticas):
i
i
n
f
n

Frecuencia absoluta acumulada de x*
i
Frecuencia relativa acumulada de x*
i

9
PROPIEDADES DE FRECUENCIAS
•La suma de las frecuencias absolutas es el número de 
datos.
•La suma de las frecuencias relativas es 1. Si la frecuencia 
relativa de un dato se multiplica por 100, tenemos el 
porcentaje que ese dato representa del total.
•La frecuencia absoluta acumulada del último dato coincide 
con el número de datos.
•La frecuencia relativa acumulada del último dato es 1. Si la 
frecuencia relativa acumulada de un dato se multiplica por 
100, tenemos el porcentaje que ese dato y todos los menores 
representan sobre el  total.
n
n
k
i
i



1
1
,
1




k
i
i
i
i
f
n
n
f
1
,
i
i
j
k
j
N
n
N
n



,1
i
ik
N
FF
n


10
TABLA O DISTRIBUCIÓN DE FRECUENCIAS 
Se llamatabla o distribución de frecuenciasal conjunto de 
valores DISTINTOSque toma la variable acompañados de sus 
respectivas frecuencias. 
•Tiene sentido para variables cuantitativas y para variables 
cualitativas (en este caso, sólo las frecuencias absolutas y 
relativas).
•Son útiles para resumir la información de una variable cuando se 
tiene una muestra con pocos valores distintos (menos de 20) . Esto 
es habitual para datos de variables cualitativas y variables 
estadísticas discretas.
•Si el número de valores distintos que toma la variable es grande 
(mayor que 20), se agrupan los datos en intervalospara construir 
la tabla de frecuencias.  Esto suele ocurrir para datos de variables 
estadísticas continuas.

11
Ejemplo:Tabla de frecuencias para una variable cualitativa
Distribución del motivo de compra de teléfono móvil (1999)
Característica
Frecuencia
Frec. relativa
Estar localizado
47
0’47
Llamar a mi familia
25
0’25
Hablar con mis clientes
12
0’12
Sólo en caso de emergencia
11
0’11
Charlar con los amigos
3
0’03
Enviar mensajes por pantalla
2
0’02
Total
100
1

12
x
i
n
i
f
i
N
i
F
i
1
2
3
4
7
8
2
4
2
3
1
2
0.143
0.286
0.143
0.214
0.071
0.143
2
6
8
11
12
14
0.143
0.429
0.572
0.786
0.857
1
X: Número de accesos, por hora,  de un procesador a un 
determinado módulo de memoria. 
•Se toma una muestra de tamaño 14: 1,2,4,8,2,1,4,4,8,3,2,2,7,3.
¿qué representa n
4
?
¿qué representa f
2
? 
¿qué representa N
4
?
¿qué representa F
3
? 
Ejemplo:Tabla de frecuencias para una variable 
cuantitativa discreta, con pocos valores distintos.

13
TABLA DE FRECUENCIAS PARA VARIABLES 
CON MUCHOS VALORES DISTINTOS 
Para obtener la tabla de frecuencias cuando el número de valores 
distintos que toma la variable es grande (mayor que 20), hay que 
agrupar los datos en INTERVALOS. 
•Estos intervalos deben de contener todos los datos y ser 
excluyentes. Se pueden tomar  de la forma [a, b) o (a, b].
•El número de intervalos de clase lo determina la persona que 
está realizando el estudio, aunque una posibilidad razonable es 
tomar el entero más próximo a 1+3.3log
10
(n).
•Agruparemos siempre en intervalos de la misma amplitud, 
eligiendo extremos cómodos (número sencillos) que contengan 
todos los datos.
•Al punto mediode cada clase se le denomina marca de clase. 
Antiguamente tenía gran interés.

14
POBLACIÓN: hogares madrileños.
MUESTRA: 40 familias madrileñas.
VARIABLE: X: gasto mensual, en euros, en telefonía móvil
Ejemplo:Agrupar en intervalos un caso en que hay muchos 
valores distintos entre los datos
10.1
20.1
60.3
20.1
40.3
67.4
21
80
10
20
40
58
58
10
20
40
10
10
20
20
10
20
10
20
85
60
43
21.4
22
22
42.8
30
40
80.2
72
20
42.7
59.8
103.3
20.1
La variable tiene 22 valores distintos por lo que vamos a agrupar 
en intervalos.

15
1.Calcular el número de intervalos: como 1+3’3log40=6’29, 
tomamos 6 o 7 intervalos. Otra regla que funciona bien es elegir 
como número de intervalos el entero más próximo a 푛. En este 
caso sería n = 6.32.
2. Calcular el recorrido de los datos, R=103’3-10=93’3y obtener la 
longitud de cada intervalo. Si tomamos 6, sería 93.3:6=15.55 .
3. Intentar trabajar con números sencillos, por ejemplo, tomar 6 
intervalos de amplitud 16. En este caso el recorrido que queda es 96. 
Como el recorrido real de los datos es R = 93.3, tenemos un exceso 
de 2.7 que podemos repartir como queramos entre el primer intervalo 
y el último. Por ejemplo, comenzaríamos el primer intervalo en 9 y 
terminaríamos en 105.
4. Observar que la tabla de frecuencias no es única: podríamos, por 
ejemplo,  haber decidido comenzar en 9.5 y acabar en 105.5.  
PASOS A SEGUIR PARA AGRUPAR DATOS EN 
INTERVALOS

16
[x
i 
x
i+1
)
 
n
i
 
 
[9,25)
 
21
 
[25,41)
 
5
 
[41,57)
 
3
 
[57,73)
 
7
 
[73,89)
 
3
 
[89,105]
 
1
 
 
•¿Qué significa que en el intervalo [25,41) la frecuencia sea 5?
•¿Qué porcentaje de personas gastan más de 57 euros al mes?  
•Esta tabla se completa con las frecuencias relativas, absolutas 
acumuladas y relativas acumuladas.  
Statgraphics permite seleccionar el extremo inferior y superior de 
los intervalos y el número de intervalos. Y toma los intervalos 
abiertos por la izquierda y cerrados por la derecha.
La posible agrupación para los 40 datos anteriores es:

17
1.3 REPRESENTACIONES  GRÁFICAS
•VARIABLES CUALITATIVAS:
Diagrama de sectores
Diagrama de rectángulos o de Pareto
•VARIABLES ESTADÍSTICAS O CUANTITATIVAS:
Diagrama de sectores (v. discretas)
Diagrama de barras (v. discretas)
Histograma (v. continuas)
Polígono de frecuencias
Diagrama de caja o box-plot
•OTRAS REPRESENTACIONES GRÁFICAS :
Gráfico temporal
Cartograma

18
DIAGRAMA DE SECTORES
•Se utiliza para variablescualitativasy variables cuantitativas 
discretas.
•El total de una característica se representa en un círculo.
•El área de cada sector circular representa el porcentaje sobre el 
total de cada valor numérico o categoría.

19
DIAGRAMA DE SECTORES
Ejemplo: VARIABLES CUALITATIVAS
Motivos para la compra de teléfono móvil
Localizado
Familia
Clientes
Emergencias
Amigos
Mensajes
47,00%
25,00%
12,00%
11,00%
3,00%
2,00%
Distribución del Motivo de compra de teléfono móvil
Característica
Frecuencia
Frec. relativa
Estar localizado
47
0’47
Llamar a mi familia
25
0’25
Hablar con mis clientes
12
0’12
Usar en caso de emergencia
11
0’11
Charlar con los amigos
3
0’03
Enviar mensajes por pantalla
2
0’02
Total
100
1

20
DIAGRAMA DE SECTORES
Ejemplo: VARIABLE CUANTITATIVA DISCRETA
Número de llamadas
valores
0
1
2
3
4
6
44,44%
28,89%
15,56%
6,67%
3,33%
1,11%
Distribución de frecuencias de la variable: nº de llamadas
recibidas en una centralita en períodos de un minuto
x
i
FrecuenciaFrec. relativa
0400’44
1260’29
2140’16
360’07
430’03
500’00
610’01
Total901

21
•Se utiliza SOLOpara variables cualitativas.
•Cada categoría o modalidad se representa por un rectángulo 
cuya altura es igual o proporcional a su frecuencia, absoluta o 
relativa. Todos los rectángulos tienen la misma base. Pueden 
dibujarse juntos o separados.
•Si se ordenan las categorías o clases por sus frecuencias (de 
mayor a menor frecuencia) se suele llamar a este gráfico 
diagrama de Pareto.
DIAGRAMA DE 
RECTÁNGULOS O DE PARETO

22
0.5
0.4
0.3
0.2
0.1
                     Localizado      Familia          Clientes     Emergencias      Amigos       Mensajes
Distribución del Motivo de compra de teléfono móvil
Característica
Frecuencia
Frec. relativa
Estar localizado
47
0’47
Llamar a mi familia
25
0’25
Hablar con mis clientes
12
0’12
Usar en caso de emergencia
11
0’11
Charlar con los amigos
3
0’03
Enviar mensajes por pantalla
2
0’02
Total
100
1

23
•Statgraphics permite dibujar este diagrama en términos de 
frecuencias absolutas o relativas.
•En el ejemplo anterior hace la siguiente representación:
Barchart for Móvil
percentage
0
10
20
30
40
50
charlar
emergencia
fam ilia
clientes
localizado
mens ajes

24
VARIABLES CUANTITATIVAS 
DISCRETAS
DIAGRAMA DE BARRAS y 
POLÍGONO DE FRECUENCIAS 
El diagrama de barras:
•Se utiliza cuando el número de datos distintos NOes muy 
grande (veremos qué hacer en otro caso).
•Sobre cada valor de los datos se levanta una barra  cuya 
altura es igual o proporcional a su frecuencia.
•Se pueden representar las frecuencias  absolutas o relativas. 
Para el polígono de frecuencias:
•Se parte del diagrama de barras y se unen los extremos 
superiores de las barras, dando lugar a una poligonal.Sirve 
para observar la “tendencia” de los datos.

25
NÚMERO DE LLAMADAS
x
i
Frecuencia
0
40
1
26
2
14
3
6
4
3
5
0
6
1
Total
90
Número de llamadas
frecuencias
0
10
20
30
40
0
1
2
3
4
5
6
Ejemplo:

26
Número de llamadas
frecuencias
0
10
20
30
40
0
1
2
3
4
5
6
POLÍGONO DE FRECUENCIAS VARIABLE DISCRETA
Número de llamadas
frecuencias
0
10
20
30
40
0
1
2
3
4
5
6

27
El diagrama de barras que proporciona  Statgraphics para 
esta variable es: 
Nº de llamadas
frecuencias
0
10
20
30
40
0
1
2
3
4
6
Observemos que realmente no levanta barras, sino rectángulos 
separados. Se pueden representar las frecuencias absolutas o 
los porcentajes de cada dato(relativas*100).
Statgraphics NOdibuja el polígono de frecuencias a partir de 
un diagrama de barras.

28
VARIABLES CUANTITATIVAS CONTINUAS
HISTOGRAMA y POLÍGONOS DE 
FRECUENCIAS
•Es una representación que se usa para datos de una variable 
continua cuando hay muchos datos distintos y  es necesario 
agrupar los datos en intervalos (de la misma amplitud). 
•También se usa para variables cuantitativas discretas cuando el 
número de datos distintos es muy grande y el diagrama de barras 
queda muy poco visual.
•Cada intervalo se representa mediante un rectángulo cuya altura 
es igual a la frecuencia del intervalo.
•Se pueden representar las frecuencias  absolutas o relativas. 

29
Ejemplo:Para los datos de la variable 
X: gasto mensual, en euros, en telefonía móvil,
la distribución de frecuencias que hemos realizado  es:
Histo gra m
L ech e
frequency
0
20
40
60
80
100
120
0
4
8
12
16
20
24
[x
i 
x
i+1
)
 
n
i
 
 
[9,25)
 
21
 
[25,41)
 
5
 
[41,57)
 
3
 
[57,73)
 
7
 
[73,89)
 
3
 
[89,105]
 
1
 
 
Statgraphics permite elegir los extremos inferior y superior de la 
representación, el número de intervalos y si en el eje Y se 
representan las frecuencias absolutas de cada intervalo o el 
porcentaje (relativas*100). 

His togram
Leche
frequency
020406080100120
0
4
8
12
16
20
24
30
POLÍGONO DE FRECUENCIAS
•Statgraphics no realiza estos gráficos para variables discretas pero 
sí para variables continuas cuyos datos estén agrupados en 
intervalos.
•Se parte del histograma y se une mediante una poligonal los puntos 
medios de las bases superiores de cada rectángulo. 
Histo gra m
L ech e
frequency
020406080100120
0
4
8
12
16
20
24
Para X: gasto 
mensual en telefonía 
móvil, tenemos

31
POLÍGONO DE FRECUENCIAS ACUMULADAS PARA 
VARIABLES CONTINUAS
•Para el ejemplo de X: gasto mensual en telefonía móvil, la 
representación obtenida en términos de frecuencias relativas es:
Histogram
Leche
percentage
020406080100120
0
20
40
60
80
100
Por ejemplo, se observa que más del 50% de los 40 hogares 
que se han estudiado gastan 24 l. de leche o más.

CASO VARIABLE DISCRETA CON MUCHOS VALORES          
DISTINTOS
En un proceso de fabricación se toman 500 datos de la variable:
X: Número de piezas producidas antes de que se produzca la 
primera pieza defectuosa
En este ejemplo hay 219 datos distintos. Al dibujar el diagrama de 
barras: 
32
Diagrama de Barras "Número de piezas producidas antes de la primera defectuosa"
0
2
4
6
8
frecuencia
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
49
50
51
52
53
54
55
56
57
58
59
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
80
81
82
83
84
85
86
87
88
90
91
92
93
95
96
98
101
103
104
105
107
108
109
110
111
113
114
115
116
117
118
119
120
121
122
126
127
128
130
132
134
136
137
138
139
140
141
142
143
144
145
146
148
150
151
152
153
154
156
159
161
163
165
166
169
173
174
176
178
180
181
183
186
187
188
189
190
191
194
195
196
197
198
202
204
205
208
209
210
211
212
214
215
216
218
220
225
228
230
231
236
237
241
243
244
249
251
254
255
258
262
266
267
268
271
279
280
281
287
289
298
301
303
309
310
313
318
339
342
347
352
359
371
392
405
420
441
451
533
553
567
628

En estos casos donde la variable es discreta pero el 
número de datos distintos es grande, el gráfico 
adecuado es el histograma. 
33
Histograma para "Número de piezas producidas antes de la primera defectuosa
-40160360560760
0
20
40
60
80
100
120
frecuencia

34
DIAGRAMA DE CAJA Y BIGOTES 
(BOX-PLOT)
•Es un gráfico que se construye para detectar valores atípicos 
entre los datos, tanto para variables discretas como para 
variables continuas.
•Se dibujan todos los datos considerados como atípicos, bajo 
cierto criterio. Veremos más adelante cómo se construyen.

35
OTRAS REPRESENTACIONES GRÁFICAS
GRÁFICOS TEMPORALES
Se construyen al observar una variable a intervalos regulares 
de tiempo (día, mes, año,...). En el eje X se dibuja el orden de 
obtención de las observaciones y en el eje Y el valor de la 
variable en ese instante de tiempo.
Evolución déficit comercial España (millones de euros)
199920002001200220032004
34
38
42
46
50
54
58
(X 1000)

•Es la forma de representar sobre un mapa algunas 
características  de una zona geográfica determinada.
•Los signos empleados pueden ser colores diferentes, tonos 
distintos de un mismo color, figuras geométricas, números, 
etc,...
•El mismo tono o color en dos zonas geográficas distintas 
indica que son equivalentes en cuanto a la característica 
que se mide.
•La densidad de color suele ser mayor cuanto mayor es la 
frecuencia o porcentaje en la zona geográfica que se 
representa.
36
OTRAS REPRESENTACIONES GRÁFICAS
CARTOGRAMA

Cartograma para el nº de habitantes de la U.E. en 2007 
37

38
1.4 MEDIDAS DE CENTRALIZACIÓN
•Tienen sentido solamente para variables cuantitativas: 
aquellas que toman valores numéricos.
•Son valores en torno a los cuales se “agrupa” la variable. 
Recogen, por tanto, la idea de CENTRO DE LOS DATOS. 
•Las principales son: 
•Moda
•Media aritmética
•Mediana
•Cuantiles

39
MODA
Ejemplo:2,2,3,3,4,4,4,5,6,6,6,7,7,8,8 (muestra tamaño 15) 
•Es el dato con mayor frecuencia absoluta (el que más se repite). 
•Puede haber más de una moda o no haber moda (si todos los 
datos tienen frecuencia 1)
x
i
n
i
2
3
4
5
6
7
8
2
2
3
1
3
2
2
Este ejemplo tiene dos 
modas: 4 y 6. Se dice 
entonces que la distribución 
de los datos es bimodal.

40
MEDIA ARITMÉTICA
1
1
1
  ,   
k
n
jj
i
k
j
i
jj
j
xn
x
x
x
x  f
nn









•La media es la suma de todoslos valores de la variable 
dividido entre el número total de datos (primera fórmula).
•Si se dispone de las frecuencias absolutas o relativas de los 
datos, la media se puede calcular usando la segunda expresión 
de la media donde representan los valores distintos
de la variable.
•El resultado de aplicar cualquiera de las fórmulas es el mismo.
•Todas las medidas que estudiemos tienen esta dos 
versiones, para todos los datos o sólo para los datos distintos.
k
x
x
,...,
1

41
2    2   3   3   4    4    4   5   6   6   6   7    7   8   8
5
15
x
                   

x
i
n
i
2
3
4
5
6
7
8
2
2
3
1
3
2
2
Ejemplo:Con los datos : 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8
(muestra tamaño 15), se tiene: 
2  2   3  2   4  3   5   6  3   7  2   8  2
5
15
x
           


42
•Divide los datos en dos grupos.
•Es un valor, Me, tal que, ordenados de MENOR A 
MAYORlos datos, el 50% es menor o igual que Me y el 
50% mayor o igual que Me.
•Ejemplo:con los datos del ejemplo anterior: 
2 2 3 3 4 4 4         5       6 6 6 7 7 8 8
En este caso hay un valor central porque el número de datos es 
impar. 
En el caso de tener un númeroparde datos, la mediana es la 
semisuma de los dos datos centrales (en este caso NOtiene 
porqué ser  uno de los datos). Si añadimos a los datos anteriores el 
valor 8,la mediana es 5.5, que no es uno de los datos.
MEDIANA

43
•VENTAJAS DE LA MEDIA: 
•Contiene más información porque usa los valores de 
todos los datos. 
•Es más sencilla de calcular y se presta mejor a los 
cálculos algebraicos.
•VENTAJAS DE LA MEDIANA: es más robusta frente a los 
cambios en los datos (menos sensible a cambios en los datos).
Ejemplo:si a los datos anteriores 2 2 3 3 4 4 4 5 6 6 6 7 7 8 8, 
le añadimos el dato 34, tenemos:
Nueva media:= 6.8 (antes era 5)
Nueva mediana:Me = 5.5 (antes era 5)
CONCLUSIÓN: Deben calcularse ambas pues proporcionan 
información complementaria.

44
Los cuantilesextienden la idea de la mediana de dividir los 
datos en dos conjuntos.
CUANTIL DE ORDEN , 0<<1, C:Es un valor tal que, 
ordenados de MENOR A MAYOR los datos, el 100% es 
menor o igual que Cy el resto es mayor o igual que C.
Los más usuales son:
•CUARTILESQ
1
, Q
2
, Q
3
(= 0.25, 0.5,0.75). La mediana 
es el segundo cuartil. Los cuartiles dividen los datos en 
cuatro partes iguales.
•DECILES D
1
, D
2
, ..., D
9
(= 0.1,0.2,...,0.9). Los deciles
dividen los datos en diez partes iguales.
•PERCENTILESP
1
,...,P
99
(= 0.01,...,0.99). Los 
percentiles dividen los datos en cien partes iguales.
CUANTILES

45
El cálculo de cuantileses análogo al de la mediana: 
1.-Se ordenan los datos de menor a mayor.
2.-Se determina el valor n, donde n es el numero de datos y el 
orden del cuantilque queremos calcular.
* Si nno es entero, se redondea al siguiente entero y el 
dato que ocupe ese LUGARes el cuantilbuscado.
* Si n= k es enteroel cuantilbuscado es la media entre 
los datos que ocupan el LUGAR  k y  el k+1. El resultado 
no tiene porqué coincidir con uno de los datos. 
CÁLCULO DE CUANTILES

46
Me = C
0.5
, es decir n=15*0.5 = 7.5, luego la mediana ocupa el lugar 
8, x
8
=Me=5. 
•¿Cuál sería el primer cuartil Q
1
? 
•n= 15*0.25 = 3.75. El primer cuartil sería el valor que ocupa la 
posición 4, Q
1
= 3.
•¿Qué significa el valor obtenido de Q
1
?
•Esto significa que el 25% de los datos son menores o iguales que 3 y 
el otro 75% son mayores o iguales que 3. 
CÁLCULO DE CUANTILES
Ejemplo:Con siguientes datos 
2,2,3,3,4,4,4,5,6,6,6,7,7,8,8
¿Cuál sería la mediana?

47
n=15*0.2=3, luego D
2
es la media entre el dato que ocupa la 
posición 3 y la 4, D
2
=3. Esto significa que el 20% de los datos son 
menores o iguales que 3 y el otro 80% son mayores o iguales que 3.
Encontrar un valor tal que el 25% de los datos sea mayor o igual que 
ese valor:
Nos preguntarían por el  tercer cuartil Q
3
= C
0.75
, es decir, n= 
15*0.75 = 11.25. El tercer cuartil sería el valor que ocupa la posición 
12, Q
3
= 7. 
Esto significa que el 75% de los datos son menores o iguales que 7 y 
el otro 25% son mayores o iguales que 7. 
CÁLCULO DE CUANTILES
Ejemplo:Con siguientes datos 
2,2,3,3,4,4,4,5,6,6,6,7,7,8,8
¿Cuál sería el segundo decil, D
2
?

Ejemplo: Tablas de peso y 
altura de las niñas
Cuando una niña está en el 
percentil 35 en peso, eso 
significa que, con respecto al 
peso, está en la posición 35 en 
un ranking de 0 a 100 entre las 
niñas de su edad.
48

49
DIAGRAMA DE CAJA Y BIGOTES (BOX-PLOT)
Este gráfico permite detectar DATOS ATÍPICOS. Se 
construye sólo para variables cuantitativas. Pasos a seguir:
1.-Con los datos ordenados se obtienen los tres cuartiles
2.-Se dibuja un rectángulo con extremos son Q1 y Q3. Se indican las 
posiciones de la mediana (mediante una línea) y la media (una cruz).
3.-Se calculan los límites de admisión: los valores que queden 
fuera se consideran atípicos
)
Q
Q
(
5
'
1
Q
LS
)
Q
Q
(
5
'
1
Q
LI
1
3
3
1
3
1






4.-Se dibuja una línea desde cada extremo del rectángulo hasta el 
valor más alejado no atípico.
5.-Se marcan en el gráfico todos los datos considerados como 
atípicos (los que quedan fuera de los límites de admisión).

50
DIAGRAMA DE CAJA (BOX-PLOT)
Dato menor no atípico
Media
Mediana
Dato mayor 
no atípico
Dato atípico
Box-and-Whisker Plot
Altura
150
160
170
180
190
200
Dato atípico
Q
1
Q
3

51
EJEMPLO
Con los datos del ejemplo anterior,2,2,3,3,4,4,4,5,6,6,6,7,7,8,8, 
dibujamos el box-plot:
Paso 1:
•Mediana: 5 
•Primer cuartil: n= 15*0.25 = 3.75, Q
1
=3
•Tercer cuartil: n= 15*0.75 = 11.25, Q
3
= 7
Paso 3: 
LI = 3-1.5*4 = -3, LS = 7+1.5*4 = 13
Se consideran normales los datos en el intervalo (-3,13), lo que 
nos indica que en este caso no hay datos atípicos.

52
Diagrama de caja o Box-plot
2
3
4
5
6
7
8
•¿Hay datos atípicos? 
•¿Qué porcentaje de datos entre 3 y 5?  ¿Y entre 5 y 7?
•¿Qué porcentaje de datos son menores que 7?
Para los datos anteriores el diagrama de caja y bigotes es: 

53
1.5 MEDIDAS DE DISPERSIÓN
•Se calculan solamente para variables cuantitativas.
•Las medidas de dispersión completan la información que 
dan las medidas de centralización e indican si éstas son 
más o menos representativas del conjunto de datos.
•A menor valor de la medida, menor dispersión en el 
conjunto de datos.
•Las más importantes son: 
•Rango o recorrido
•Recorrido intercuartílico.
•Varianza y desviación típica (asociadas media)
•Coeficiente de variación

54
NECESIDAD DE MEDIDAS DE 
DISPERSIÓN
Las medidas de centralización  proporcionan una información 
incompleta del conjunto de datos.
Ejemplo:sean X e Y las notas de dos grupos de cuarenta 
alumnos, con distribuciones de frecuencias:
x
i
n
i
0
20
10
20
y
i
n
i
4.5
3
5
34
5.5
3
Para ambas variables la media 
es 5, pero en el segundo caso 5 
es un valor más representativo 
de los datos que en el primero.
Intuitivamente los datos de X están MÁS DISPERSOS 
(más separados) que los de Y, entre ellos y respecto de la 
media.

55
RANGO O RECORRIDO
•El rango o recorrido mide la amplitudde los datos. 
•Se define como:
R = x
mayor
–x
menor
•En el ejemplo de las notas de las dos clases X e Y, se observa 
que X es más dispersa que Y ya al calcular el recorrido:
•R
X
= 10 –0 = 10 ;      R
Y
= 5.5 –4.5 =1
RECORRIDO INTERCUARTÍLICO
•Se define como:  R
Q 
= Q
3
–Q
1
•En el ejemplo de las notas de las dos clases X e Y, se observa que 
X es más dispersa que Y al calcular el recorrido intercuartílico.
•R
XQ
= 10 –0 = 10 ;      R
YQ
= 5 –5 =0

56
VARIANZA Y DESVIACIÓN TÍPICA


n
2
2
ijj
i  11
11
V xxxx    n
nn
k
j
   

Dt
V

•VARIANZA:
•DESVIACIÓN TÍPICA:medida en las mismas 
unidades que los datos
Ambas son medidas de dispersión asociadas a la media. Miden, 
entonces, la representatividad de la media en el conjunto de datos.
•Representa una especie de distancia media de los datos a la 
media aritmética. A mayor varianza, mayor distancia de los 
datos a la media y por tanto, menor representatividad de la 
media en ese conjunto de datos.
•La varianza siempre es mayor o igual que 0 y está medida en 
unidades al cuadrado.

57
Ejemplo: Para las notas de los dos grupos de cuarenta 
alumnos, con distribuciones de frecuencias:
x
i
n
i
0
20
10
20
y
i
n
i
4.5
3
5
34
5.5
3










22
2
2
2
1
0   5
20
10   5
20
25,
5,
40
1
4.5   5
3
5   5
34
5.5   5
3
0.0375,
0.19
40
XX
YY
V
Dt
V
Dt


              




                   


Para ambas variables la media es 5, pero en el segundo caso 5 es 
un valor más representativo de los datos que en el primero como 
se puede observar al calcular la varianza, al ser ésta menor.

58
TEOREMA
Seanlosvaloresdiferentesdeunamuestradetamañon,
susfrecuenciasabsolutas.Seansumediayvarianza:
SisedefineunanuevavariableY=aX+b,severificaque:
A)
B)
k
x
x
,...,
1
k
nn,...,
1
22
1
1
k
X
i
i
i
V
x  n
x
n






k
i
i
n
n
1
b
x
a
y


XY
VaV
2

1
k
jj
j
xn
x
n




59
•COEFICIENTE DE VARIACIÓN DE PEARSON:
(asociado a la media)
Dt
CV
x

•La varianza NO SIRVE como medida de dispersión si lo que 
se quiere es comparar, de entre varios conjuntos de datos, cual es 
el más disperso respecto de la media salvo si todos los 
conjuntos de datos tiene la misma media(ejemplo de las 
notas). 
•En general, se definen los coeficientes de variación, medidas sin 
dimensión, que eliminan la influencia de la correspondiente 
medida a la que están asociados y también eliminan la magnitud 
y unidades de los datos.
•Multiplicados por 100 se interpretan como un porcentaje.
COEFICIENTE DE VARIACIÓN

60
Veamos cómo la varianza SÍ sirve para comparar la 
dispersión de dos conjuntos de datos cuando la 
media es la misma.
5
0.19
1,
0.038
55
XY
XY
Dt
Dt
CV
CV
xy
      
    

Ejemplo: Para las 40 notas de los alumnos de los grupos X e Y 
tenemos que: mediaX= 5, V
X
= 25; mediaY= 5, V
Y
= 0.0375 
Los coeficientes de variación para estos conjuntos:
Se observa que los datos de X son más dispersos que los de Y y
para asegurarlos se puede usar la varianza, la desviación típica o 
el coeficiente de variación al tener ambos conjuntos de datos la 
misma media.

61
Veamos cómo la varianza NO sirve para comparar 
la dispersión de dos conjuntos de datos cuando la 
media es diferente.
Ejemplo: Se tienen datos del peso de varios lagartos (X) y 
del peso de una población de tiburones (Y), en Kg.
x
i
n
i
0.4
3
0.45
4
0.5
6
0.55
2
y
i
n
i
400
3
403
4
405
4
410
2
Para X: media = 0.473, V = 0.026,
CV = 0.34 
Para Y: media = 404, V= 9.846,
CV = 0.0076 
•La varianza de Y es mayor que la de X pero está influenciado por 
la magnitud de los datos y por las unidades de medida. 
•No podemos comparar la dispersión de los datos con la varianza 
porque las medias son distintas.

62
1.6 MEDIDAS DE FORMA: 
COEFICIENTES DE ASIMETRÍA
•Nos dan una idea de la simetría o asimetría de la distribución 
(por tanto, de su forma) y permiten comparar varios conjuntos 
de datos ya los coeficientes que usaremos son adimensionales.
•Gráficamente, nos podemos encontrar con estas tres 
situaciones:
Asimétrico a 
la derecha
Asimétrico a 
la izquierda
Simétrico

63
Si al calcular este valor con nuestros datos sucede que:
•CAF>0, la distribución es asimétrica a la derecha.
•CAF=0, la distribución es simétrica.
•CAF<0, la distribución es asimétrica a la izquierda.
CAF > 0
CAF = 0
CAF < 0
33
11
33
11
nk
iii
ii
xxxx   n
nn
CAF
DtDt




()()
()()
COEFICIENTE DE ASIMETRÍA DE FISHER

64
Ejemplo:Con los datos: 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8 
La media era 5. Calculamos el coeficiente de asimetría de Fisher. 














3
3
3
3
3
1
333
2   5
2
3   5
2
4   5
3
11
5   5
1
0
15
6   5
3
7   5
2
8   5
2
0
k
ii
i
x
x
n
n
CAF


               


              



               



(
)
,
Diagrama de barras
frecuencia
0
0,5
1
1,5
2
2,5
3
2
3
4
5
6
7
8

65
COEFICIENTE DE ASIMETRÍA DE PEARSON
3()x    Me
CAP
Dt


•Si la distribución es simétrica, sucede que                      
pero si la media y la mediana son iguales NOsignifica 
que la distribución sea simétrica. Por tanto:
•Si la distribución es simétrica, entonces CAP = 0. 
•Si CAP = 0 NO significa que la distribución sea 
simétrica.
•El CAF siempre detecta la forma del conjunto de 
datos mientras que el CAP no.
x
Me


66
Ejemplo
Número de llamadas
frecuencias
0
10
20
30
40
0
1
2
3
4
5
6
NÚMERO DE LLAMADAS
x
i
Frecuencia
0
40
1
26
2
14
3
6
4
3
5
0
6
1
Total
90
En este ejemplo, la media 
y la mediana son iguales a 
1 por lo que CAP = 0y 
claramente los datos no 
son simétricos, si no 
asimétricos a la derecha.
El CAF = 2.1079, lo que 
indica que los datos son 
asimétricos a la derecha.

67
1.6 MEDIDAS DE FORMA: 
COEFICIENTE DE CURTOSIS
Con este coeficiente tenemos una idea de lo “puntiaguda” o “plana” 
que es una distribución (por tanto, de su forma) en comparación con 
una distribución estándar: la distribución normal.
Si al calcular el coeficiente de curtosiscon nuestros datos sucede
•Curtosis> 0, la distribución de los datos es más “picuda” que 
la distribución normal con la misma media y varianza que los 
datos. 
•Curtosis= 0, la distribución de los datos es igual de “picuda” 
que la distribución normal con la misma media y varianza que 
los datos. 
•Curtosis< 0, la distribución de los datos es menos “picuda” 
que la distribución normal con la misma media y varianza que 
los datos. 

68
44
11
44
11
Curtosis
3
3
nk
i
i
i
ii
x
x
x
x    n
nn
Dt
Dt



  


(
)
(
)
(
)
(
)
COEFICIENTE DE CURTOSIS
Ejemplo:Para los datos 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8, el coeficiente de 
curtosissale -1.247. Si dibujamos le diagrama de barras de los datos
Histograma para Col_1
0246810
Col_1
0
0,5
1
1,5
2
2,5
3
frecuencia
Distribución
Normal

•Disponemos de datos de 186 alumnos de segundo curso de 
una universidad madrileña. A estos alumnos se les ha 
preguntado por su edad, su altura (en cm) y el grado de 
satisfacción ante el funcionamiento de la biblioteca de su 
universidad.
•Los datos están recogidos en el fichero “alumnos.xls”
•Vamos a hacer un análisis descriptivo completo de estas 
tres variables: Grado de satisfacción ante el 
funcionamiento de la biblioteca, Edad,Altura .
1.7. Estudio descriptivo de un conjunto de 
datos unidimensionales
69

70
Variable cualitativa : Grado de satisfacción 
frente al funcionamiento de la biblioteca
FrecuenciaFrecuenciaFrecuencia
ClaseValorFrecuenciaRelativaAcumuladaRel. acum.
11540,2903540,2903
22590,31721130,6075
33440,23661570,8441
44200,10751770,9516
5590,04841861,0000
1 = nada satisfecho, 2 = poco satisfecho, 3 = satisfecho, 
4 = bastante satisfecho, 5 = muy satisfecho.

71
Variable cualitativa : Diagrama de Pareto  
para grado de satisfacción frente al 
funcionamiento de la biblioteca

72
Variable cualitativa : Grado de satisfacción 
frente al funcionamiento de la biblioteca

73
Variable cuantitativa discreta: Edad
ClaseValorFrecuenciaFrecuencia 
Relativa
Frecuencia 
Acumulada
Frecuencia 
Rel. acum.
11850,026950,0269
219270,1452320,1720
320500,2688820,4409
421290,15591110,5968
522210,11291320,7097
623200,10751520,8172
724150,08061670,8978
825100,05381770,9516
92640,02151810,9731
102720,01081830,9839
112820,01081850,9946
122910,00541861,0000

74
Variable cuantitativa discreta: Edad
Esta variable viene medida en años completos y  tiene solo 12 
valores distintos. Por ese motivo, se trata  como una variable 
discreta.
La variable edad es, sin embargo, una variable continua si, por 
ejemplo, se mide en años más los meses y días.
¿ Qué número de personas tienen una edad inferior a 21 años? 
¿Qué porcentaje de alumnos tiene 23 años o menos?
¿Qué porcentaje representa sobre el total los alumnos que tienen 
más de 25 años?

75
Variable edad
Se pueden poner etiquetas, cambiar títulos, colores, ...: se hace 
doble clic sobre el gráfico y se abre el editor de gráficos.

76
Variable edad
Se pueden poner etiquetas, cambiar títulos, colores, ...: se hace doble 
clic sobre el gráfico y se abre el editor de gráficos.

77
Recuento186
Promedio21,4355
Mediana21,0
Moda20,0
Varianza4,85257
Desviación Estándar2,20286
Coeficiente de 
Variación
10,2767
%
Mínimo18,0
Máximo29,0
Rango11,0
Cuartil Inferior20,0
Cuartil Superior23,0
Sesgo0,903137
Curtosis0,480786
Variable edad
•¿ Cuál es la edad media? 
•¿ Por encima de que edad está el 
50% de los alumnos?
•¿ Por debajo de que edad está el 
75% de los alumnos?
•¿Cuál es la edad más frecuente? 
•¿En qué rango de edades nos 
movemos? 
•Comentar si los datos son muy 
dispersos o poco dispersos.
•Comentar la forma de la 
distribución de los datos.

78
Variable edad
Vamos a realizar un diagrama de caja para ver si tenemos datos 
atípicos respecto a la edad
Los datos atípicos corresponden a tres alumnos de 28 y 29 
años.

79
Variable altura
•La variable altura es una variable cuantitativa continua si 
medimos los datos con todas sus fracciones posibles (cm, mm,...).
•Como el número de datos diferentes es 35, hay que agrupar los 
datos en intervalos.
•La tabla de frecuencias y el histograma vendrán dados en términos 
de esos intervalos.
•Se ha tomado como valor menor para comenzar los intervalos 155 y 
como mayor 200 y se han hecho 9 intervalos de amplitud 5 unidades.
•Las etiquetas asignadas van de 1 a 9 (1 corresponde al intervalo 
[155,160), 2 a [160,165),...,9 al intervalo [195,200))

80
Variable altura
LímiteLímiteFrecuenciaFrecuenciaFrecuencia
ClaseInferiorSuperiorPunto MedioFrecuenciaRelativaAcumuladaRel. Acum.
menor o igual15500,000000,0000
1155160,0157,560,032360,0323
2160165,0162,590,0484150,0806
3165170,0167,5250,1344400,2151
4170175,0172,5370,1989770,4140
5175180,0177,5570,30651340,7204
6180185,0182,5300,16131640,8817
7185190,0187,5150,08061790,9624
8190195,0192,560,03231850,9946
9195200,0197,510,00541861,0000
mayor de20000,00001861,0000
¿ Qué número de personas tienen una altura inferior a 170 cm? 
¿Qué porcentaje de alumnos miden 180 cm o más?
¿Qué porcentaje representa sobre el total los alumnos miden menos 
de 185 cm?

81
Variable altura
•¿Cuál es la altura media? 
•¿Cuál es el valor más frecuente en 
la altura? ¿Cuántos alumnos hay con 
ella? 
•¿Qué porcentaje de alumnos tienen 
una altura igual o inferior a 181 cm?.
•¿Entre que valores se encuentran 
las alturas de estos alumnos? 
•¿ Qué porcentaje de alumnos una 
altura igual o superior a 172 cm? 
Recuento186
Promedio176,984
Mediana178,0
Moda178,0
Varianza58,7511
Desviación Estándar7,66493
Coeficiente de Variación4,33086%
Mínimo156,0
Máximo196,0
Rango40,0
Cuartil Inferior172,0
Cuartil Superior181,0
Sesgo-0,0938322
Curtosis0,113453

82
Variable altura
•Se observa en el gráfico que la distribución de los datos es bastante 
simétrica. El CAF es -0.094, bastante próximo a 0.  
•También se ve que es más apuntada que la normal (curva 
superpuesta) por lo que se espera un coeficiente de curtosispositivo. 
En efecto,  este coeficiente vale 0.1134.

83
Variable altura 
Aquí se muestran los 
histogramas para la variable 
Altura diferenciados por 
sexos.

84
Variable altura
Vamos a realizar un diagrama de caja para ver si tenemos datos 
atípicos respecto a la altura. 
Son atípicos los alumnos muy altos (195 y 196 
cm) y los que son muy bajos (156 cm)
Gráfico de Caja y Bigotes
150160170180190200
Altura

85
Variable altura 
Aquí se muestran los Box-plotpara la variable Altura 
diferenciados por sexos: 0 corresponde a varones y 1 a mujeres.