1
TEMA 1: ANÁLISIS ESTADÍSTICO
DE DATOS UNIDIMENSIONALES
1.1 CONCEPTOS GENERALES
1.2 DISTRIBUCIÓN O TABLA DE FRECUENCIAS
1.3 REPRESENTACIONES GRÁFICAS
1.4 MEDIDAS DE CENTRALIZACIÓN
1.5 MEDIDAS DE DISPERSIÓN
1.6 MEDIDAS DE FORMA: ASIMETRÍA Y CURTOSIS
1.7. ESTUDIO DESCRIPTIVO DE UN CONJUNTO DE
DATOS UNIDIMENSIONALES.
PRÁCTICA: ANÁLISIS ESTADÍSTICO DE DATOS
UNIDIMENSIONALES
2
1.1 CONCEPTOS GENERALES
ESTADÍSTICADESCRIPTIVA:Técnicasquetratande
describirconjuntosdedatosresumiendolainformaciónqueéstos
proporcionanutilizandocomoherramientas:
•DISTRIBUCIÓN OTABLA DE
FRECUENCIAS
• GRÁFICOS
• MEDIDAS NUMÉRICAS:
* POSICIÓN O CENTRALIZACIÓN
* DISPERSIÓN
* FORMA
3
•POBLACIÓN: conjunto de elementos o individuos de los que
interesa estudiar alguna característica o propiedad.
Las características que se estudian se denotarán con letras
mayúsculas: X, Y, Z,...
Ejemplo:
Población: alumnos matriculados en primer curso de alguna
universidad madrileña
Características: edad, nº de conexiones a internet en un día,
altura, tiempo empleado en una llamada de móvil, salario que se
cobra mensualmente, grado de satisfacción ante el
funcionamiento de un cierto servicio, color de pelo,...
DEFINICIONES
4
Para el estudio de una o varias características en una
población SIEMPRE se utiliza una muestra de la misma
•MUESTRA:subconjunto FINITOde individuos de una
población.
•RAZONES PARA ESTUDIAR UNA MUESTRA: Coste,
tiempo, personal cualificado, procesos destructivos,...
•La muestra elegida es un conjunto de n datos que vienen de la
observación de la característica de interés, X.
Estos datos se denotan con letras minúsculas como x
1
, x
2
,..., x
n
.
DEFINICIONES
5
Definiciones
•DATOS ATÍPICOS: son datos diferentes o muy diferentes de los
demás datos recogidos para una característica.
Estos datos pueden ser debidos a errores de medida o de
transcripción.
Otras veces son datos diferentes del resto por la propia naturaleza de
la característica que se mide.
Ejemplo:
Al introducir valores con una cifra entera significativa y una decimal
en una base de datos, podemos introducir el valor 6.2 como 62.
Al medir el tamaño de un conjunto de estrellas puede haber una
supernova y ese dato será mucho mayor que el resto.
Es importante detectar estos datos para corregirlos, si son errores, o
para tenerlos en consideración si son muy diferentes del resto.
6
•LlamamosVARIABLE o CARACTERÍSTICA a la cualidad o
propiedad objeto de nuestro estudio. Pueden ser:
•Cualitativas: la característica no toma valores numéricos sino
que sus valores indican una cualidad. A estos valores se les
llama categoríasomodalidades. Pueden ser:
•Nominales: los valores no se pueden ordenar: sexo, color
de pelo, ...
•Ordinales: los valores sí se pueden ordenar: grado de
satisfacción ante el funcionamiento de un cierto servicio
•Cuantitativas:la característica toma valores numéricos.
Estas variables también se llaman VARIABLES
ESTADÍSTICAS.
DEFINICIONES
7
Dentro de las VARIABLES CUANTITATIVAS distinguiremos:
•Variables estadísticas discretas:toman valores aislados sin
posibilidad de tomar valores intermedios.
•Variables estadísticas continuas:pueden tomar cualquier
valor dentro de un rango especificado.
Ejemplo:Para la población de los alumnos matriculados en primer
curso de alguna universidad madrileña, podemos definir
Variables discretas: : edad, nº de conexiones a internet en un día,
número de horas de estudio semanales, número de zapato que calza,...
Variables continuas: altura, peso, tiempo empleado en una llamada
de móvil, salario que se cobra mensualmente,..
Definiciones
7
8
1.2 DISTRIBUCIÓN DE FRECUENCIAS
Para estudiar una variable X se parte de una muestra de tamaño
n, x
1
, x
2
,..., x
n
, entre los que suponemos que aparecen como
valores distintosx
1
, x
2
,..., x
k
. Se definen:
•FRECUENCIA ABSOLUTA DE x
i
: Es el número, n
i
,
de veces que se repite x
i
.
•FRECUENCIA RELATIVA DE x
i
: es el cociente entre la
frecuencia absoluta y n.
n
N
F
nN
i
i
i
j
ji
1
•FRECUENCIA ABSOLUTA(RELATIVA) ACUMULADA DE
x
i
: si llamamos x
*
1
, x
*
2
,..., x
*
k
a los valores ordenados de menor a
mayor (sólo sentido variables cuantitativas o estadísticas):
i
i
n
f
n
Frecuencia absoluta acumulada de x*
i
Frecuencia relativa acumulada de x*
i
9
PROPIEDADES DE FRECUENCIAS
•La suma de las frecuencias absolutas es el número de
datos.
•La suma de las frecuencias relativas es 1. Si la frecuencia
relativa de un dato se multiplica por 100, tenemos el
porcentaje que ese dato representa del total.
•La frecuencia absoluta acumulada del último dato coincide
con el número de datos.
•La frecuencia relativa acumulada del último dato es 1. Si la
frecuencia relativa acumulada de un dato se multiplica por
100, tenemos el porcentaje que ese dato y todos los menores
representan sobre el total.
n
n
k
i
i
1
1
,
1
k
i
i
i
i
f
n
n
f
1
,
i
i
j
k
j
N
n
N
n
,1
i
ik
N
FF
n
10
TABLA O DISTRIBUCIÓN DE FRECUENCIAS
Se llamatabla o distribución de frecuenciasal conjunto de
valores DISTINTOSque toma la variable acompañados de sus
respectivas frecuencias.
•Tiene sentido para variables cuantitativas y para variables
cualitativas (en este caso, sólo las frecuencias absolutas y
relativas).
•Son útiles para resumir la información de una variable cuando se
tiene una muestra con pocos valores distintos (menos de 20) . Esto
es habitual para datos de variables cualitativas y variables
estadísticas discretas.
•Si el número de valores distintos que toma la variable es grande
(mayor que 20), se agrupan los datos en intervalospara construir
la tabla de frecuencias. Esto suele ocurrir para datos de variables
estadísticas continuas.
11
Ejemplo:Tabla de frecuencias para una variable cualitativa
Distribución del motivo de compra de teléfono móvil (1999)
Característica
Frecuencia
Frec. relativa
Estar localizado
47
0’47
Llamar a mi familia
25
0’25
Hablar con mis clientes
12
0’12
Sólo en caso de emergencia
11
0’11
Charlar con los amigos
3
0’03
Enviar mensajes por pantalla
2
0’02
Total
100
1
12
x
i
n
i
f
i
N
i
F
i
1
2
3
4
7
8
2
4
2
3
1
2
0.143
0.286
0.143
0.214
0.071
0.143
2
6
8
11
12
14
0.143
0.429
0.572
0.786
0.857
1
X: Número de accesos, por hora, de un procesador a un
determinado módulo de memoria.
•Se toma una muestra de tamaño 14: 1,2,4,8,2,1,4,4,8,3,2,2,7,3.
¿qué representa n
4
?
¿qué representa f
2
?
¿qué representa N
4
?
¿qué representa F
3
?
Ejemplo:Tabla de frecuencias para una variable
cuantitativa discreta, con pocos valores distintos.
13
TABLA DE FRECUENCIAS PARA VARIABLES
CON MUCHOS VALORES DISTINTOS
Para obtener la tabla de frecuencias cuando el número de valores
distintos que toma la variable es grande (mayor que 20), hay que
agrupar los datos en INTERVALOS.
•Estos intervalos deben de contener todos los datos y ser
excluyentes. Se pueden tomar de la forma [a, b) o (a, b].
•El número de intervalos de clase lo determina la persona que
está realizando el estudio, aunque una posibilidad razonable es
tomar el entero más próximo a 1+3.3log
10
(n).
•Agruparemos siempre en intervalos de la misma amplitud,
eligiendo extremos cómodos (número sencillos) que contengan
todos los datos.
•Al punto mediode cada clase se le denomina marca de clase.
Antiguamente tenía gran interés.
14
POBLACIÓN: hogares madrileños.
MUESTRA: 40 familias madrileñas.
VARIABLE: X: gasto mensual, en euros, en telefonía móvil
Ejemplo:Agrupar en intervalos un caso en que hay muchos
valores distintos entre los datos
10.1
20.1
60.3
20.1
40.3
67.4
21
80
10
20
40
58
58
10
20
40
10
10
20
20
10
20
10
20
85
60
43
21.4
22
22
42.8
30
40
80.2
72
20
42.7
59.8
103.3
20.1
La variable tiene 22 valores distintos por lo que vamos a agrupar
en intervalos.
15
1.Calcular el número de intervalos: como 1+3’3log40=6’29,
tomamos 6 o 7 intervalos. Otra regla que funciona bien es elegir
como número de intervalos el entero más próximo a 푛. En este
caso sería n = 6.32.
2. Calcular el recorrido de los datos, R=103’3-10=93’3y obtener la
longitud de cada intervalo. Si tomamos 6, sería 93.3:6=15.55 .
3. Intentar trabajar con números sencillos, por ejemplo, tomar 6
intervalos de amplitud 16. En este caso el recorrido que queda es 96.
Como el recorrido real de los datos es R = 93.3, tenemos un exceso
de 2.7 que podemos repartir como queramos entre el primer intervalo
y el último. Por ejemplo, comenzaríamos el primer intervalo en 9 y
terminaríamos en 105.
4. Observar que la tabla de frecuencias no es única: podríamos, por
ejemplo, haber decidido comenzar en 9.5 y acabar en 105.5.
PASOS A SEGUIR PARA AGRUPAR DATOS EN
INTERVALOS
16
[x
i
x
i+1
)
n
i
[9,25)
21
[25,41)
5
[41,57)
3
[57,73)
7
[73,89)
3
[89,105]
1
•¿Qué significa que en el intervalo [25,41) la frecuencia sea 5?
•¿Qué porcentaje de personas gastan más de 57 euros al mes?
•Esta tabla se completa con las frecuencias relativas, absolutas
acumuladas y relativas acumuladas.
Statgraphics permite seleccionar el extremo inferior y superior de
los intervalos y el número de intervalos. Y toma los intervalos
abiertos por la izquierda y cerrados por la derecha.
La posible agrupación para los 40 datos anteriores es:
17
1.3 REPRESENTACIONES GRÁFICAS
•VARIABLES CUALITATIVAS:
Diagrama de sectores
Diagrama de rectángulos o de Pareto
•VARIABLES ESTADÍSTICAS O CUANTITATIVAS:
Diagrama de sectores (v. discretas)
Diagrama de barras (v. discretas)
Histograma (v. continuas)
Polígono de frecuencias
Diagrama de caja o box-plot
•OTRAS REPRESENTACIONES GRÁFICAS :
Gráfico temporal
Cartograma
18
DIAGRAMA DE SECTORES
•Se utiliza para variablescualitativasy variables cuantitativas
discretas.
•El total de una característica se representa en un círculo.
•El área de cada sector circular representa el porcentaje sobre el
total de cada valor numérico o categoría.
19
DIAGRAMA DE SECTORES
Ejemplo: VARIABLES CUALITATIVAS
Motivos para la compra de teléfono móvil
Localizado
Familia
Clientes
Emergencias
Amigos
Mensajes
47,00%
25,00%
12,00%
11,00%
3,00%
2,00%
Distribución del Motivo de compra de teléfono móvil
Característica
Frecuencia
Frec. relativa
Estar localizado
47
0’47
Llamar a mi familia
25
0’25
Hablar con mis clientes
12
0’12
Usar en caso de emergencia
11
0’11
Charlar con los amigos
3
0’03
Enviar mensajes por pantalla
2
0’02
Total
100
1
20
DIAGRAMA DE SECTORES
Ejemplo: VARIABLE CUANTITATIVA DISCRETA
Número de llamadas
valores
0
1
2
3
4
6
44,44%
28,89%
15,56%
6,67%
3,33%
1,11%
Distribución de frecuencias de la variable: nº de llamadas
recibidas en una centralita en períodos de un minuto
x
i
FrecuenciaFrec. relativa
0400’44
1260’29
2140’16
360’07
430’03
500’00
610’01
Total901
21
•Se utiliza SOLOpara variables cualitativas.
•Cada categoría o modalidad se representa por un rectángulo
cuya altura es igual o proporcional a su frecuencia, absoluta o
relativa. Todos los rectángulos tienen la misma base. Pueden
dibujarse juntos o separados.
•Si se ordenan las categorías o clases por sus frecuencias (de
mayor a menor frecuencia) se suele llamar a este gráfico
diagrama de Pareto.
DIAGRAMA DE
RECTÁNGULOS O DE PARETO
22
0.5
0.4
0.3
0.2
0.1
Localizado Familia Clientes Emergencias Amigos Mensajes
Distribución del Motivo de compra de teléfono móvil
Característica
Frecuencia
Frec. relativa
Estar localizado
47
0’47
Llamar a mi familia
25
0’25
Hablar con mis clientes
12
0’12
Usar en caso de emergencia
11
0’11
Charlar con los amigos
3
0’03
Enviar mensajes por pantalla
2
0’02
Total
100
1
23
•Statgraphics permite dibujar este diagrama en términos de
frecuencias absolutas o relativas.
•En el ejemplo anterior hace la siguiente representación:
Barchart for Móvil
percentage
0
10
20
30
40
50
charlar
emergencia
fam ilia
clientes
localizado
mens ajes
24
VARIABLES CUANTITATIVAS
DISCRETAS
DIAGRAMA DE BARRAS y
POLÍGONO DE FRECUENCIAS
El diagrama de barras:
•Se utiliza cuando el número de datos distintos NOes muy
grande (veremos qué hacer en otro caso).
•Sobre cada valor de los datos se levanta una barra cuya
altura es igual o proporcional a su frecuencia.
•Se pueden representar las frecuencias absolutas o relativas.
Para el polígono de frecuencias:
•Se parte del diagrama de barras y se unen los extremos
superiores de las barras, dando lugar a una poligonal.Sirve
para observar la “tendencia” de los datos.
25
NÚMERO DE LLAMADAS
x
i
Frecuencia
0
40
1
26
2
14
3
6
4
3
5
0
6
1
Total
90
Número de llamadas
frecuencias
0
10
20
30
40
0
1
2
3
4
5
6
Ejemplo:
26
Número de llamadas
frecuencias
0
10
20
30
40
0
1
2
3
4
5
6
POLÍGONO DE FRECUENCIAS VARIABLE DISCRETA
Número de llamadas
frecuencias
0
10
20
30
40
0
1
2
3
4
5
6
27
El diagrama de barras que proporciona Statgraphics para
esta variable es:
Nº de llamadas
frecuencias
0
10
20
30
40
0
1
2
3
4
6
Observemos que realmente no levanta barras, sino rectángulos
separados. Se pueden representar las frecuencias absolutas o
los porcentajes de cada dato(relativas*100).
Statgraphics NOdibuja el polígono de frecuencias a partir de
un diagrama de barras.
28
VARIABLES CUANTITATIVAS CONTINUAS
HISTOGRAMA y POLÍGONOS DE
FRECUENCIAS
•Es una representación que se usa para datos de una variable
continua cuando hay muchos datos distintos y es necesario
agrupar los datos en intervalos (de la misma amplitud).
•También se usa para variables cuantitativas discretas cuando el
número de datos distintos es muy grande y el diagrama de barras
queda muy poco visual.
•Cada intervalo se representa mediante un rectángulo cuya altura
es igual a la frecuencia del intervalo.
•Se pueden representar las frecuencias absolutas o relativas.
29
Ejemplo:Para los datos de la variable
X: gasto mensual, en euros, en telefonía móvil,
la distribución de frecuencias que hemos realizado es:
Histo gra m
L ech e
frequency
0
20
40
60
80
100
120
0
4
8
12
16
20
24
[x
i
x
i+1
)
n
i
[9,25)
21
[25,41)
5
[41,57)
3
[57,73)
7
[73,89)
3
[89,105]
1
Statgraphics permite elegir los extremos inferior y superior de la
representación, el número de intervalos y si en el eje Y se
representan las frecuencias absolutas de cada intervalo o el
porcentaje (relativas*100).
His togram
Leche
frequency
020406080100120
0
4
8
12
16
20
24
30
POLÍGONO DE FRECUENCIAS
•Statgraphics no realiza estos gráficos para variables discretas pero
sí para variables continuas cuyos datos estén agrupados en
intervalos.
•Se parte del histograma y se une mediante una poligonal los puntos
medios de las bases superiores de cada rectángulo.
Histo gra m
L ech e
frequency
020406080100120
0
4
8
12
16
20
24
Para X: gasto
mensual en telefonía
móvil, tenemos
31
POLÍGONO DE FRECUENCIAS ACUMULADAS PARA
VARIABLES CONTINUAS
•Para el ejemplo de X: gasto mensual en telefonía móvil, la
representación obtenida en términos de frecuencias relativas es:
Histogram
Leche
percentage
020406080100120
0
20
40
60
80
100
Por ejemplo, se observa que más del 50% de los 40 hogares
que se han estudiado gastan 24 l. de leche o más.
CASO VARIABLE DISCRETA CON MUCHOS VALORES
DISTINTOS
En un proceso de fabricación se toman 500 datos de la variable:
X: Número de piezas producidas antes de que se produzca la
primera pieza defectuosa
En este ejemplo hay 219 datos distintos. Al dibujar el diagrama de
barras:
32
Diagrama de Barras "Número de piezas producidas antes de la primera defectuosa"
0
2
4
6
8
frecuencia
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
49
50
51
52
53
54
55
56
57
58
59
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
80
81
82
83
84
85
86
87
88
90
91
92
93
95
96
98
101
103
104
105
107
108
109
110
111
113
114
115
116
117
118
119
120
121
122
126
127
128
130
132
134
136
137
138
139
140
141
142
143
144
145
146
148
150
151
152
153
154
156
159
161
163
165
166
169
173
174
176
178
180
181
183
186
187
188
189
190
191
194
195
196
197
198
202
204
205
208
209
210
211
212
214
215
216
218
220
225
228
230
231
236
237
241
243
244
249
251
254
255
258
262
266
267
268
271
279
280
281
287
289
298
301
303
309
310
313
318
339
342
347
352
359
371
392
405
420
441
451
533
553
567
628
En estos casos donde la variable es discreta pero el
número de datos distintos es grande, el gráfico
adecuado es el histograma.
33
Histograma para "Número de piezas producidas antes de la primera defectuosa
-40160360560760
0
20
40
60
80
100
120
frecuencia
34
DIAGRAMA DE CAJA Y BIGOTES
(BOX-PLOT)
•Es un gráfico que se construye para detectar valores atípicos
entre los datos, tanto para variables discretas como para
variables continuas.
•Se dibujan todos los datos considerados como atípicos, bajo
cierto criterio. Veremos más adelante cómo se construyen.
35
OTRAS REPRESENTACIONES GRÁFICAS
GRÁFICOS TEMPORALES
Se construyen al observar una variable a intervalos regulares
de tiempo (día, mes, año,...). En el eje X se dibuja el orden de
obtención de las observaciones y en el eje Y el valor de la
variable en ese instante de tiempo.
Evolución déficit comercial España (millones de euros)
199920002001200220032004
34
38
42
46
50
54
58
(X 1000)
•Es la forma de representar sobre un mapa algunas
características de una zona geográfica determinada.
•Los signos empleados pueden ser colores diferentes, tonos
distintos de un mismo color, figuras geométricas, números,
etc,...
•El mismo tono o color en dos zonas geográficas distintas
indica que son equivalentes en cuanto a la característica
que se mide.
•La densidad de color suele ser mayor cuanto mayor es la
frecuencia o porcentaje en la zona geográfica que se
representa.
36
OTRAS REPRESENTACIONES GRÁFICAS
CARTOGRAMA
Cartograma para el nº de habitantes de la U.E. en 2007
37
38
1.4 MEDIDAS DE CENTRALIZACIÓN
•Tienen sentido solamente para variables cuantitativas:
aquellas que toman valores numéricos.
•Son valores en torno a los cuales se “agrupa” la variable.
Recogen, por tanto, la idea de CENTRO DE LOS DATOS.
•Las principales son:
•Moda
•Media aritmética
•Mediana
•Cuantiles
39
MODA
Ejemplo:2,2,3,3,4,4,4,5,6,6,6,7,7,8,8 (muestra tamaño 15)
•Es el dato con mayor frecuencia absoluta (el que más se repite).
•Puede haber más de una moda o no haber moda (si todos los
datos tienen frecuencia 1)
x
i
n
i
2
3
4
5
6
7
8
2
2
3
1
3
2
2
Este ejemplo tiene dos
modas: 4 y 6. Se dice
entonces que la distribución
de los datos es bimodal.
40
MEDIA ARITMÉTICA
1
1
1
,
k
n
jj
i
k
j
i
jj
j
xn
x
x
x
x f
nn
•La media es la suma de todoslos valores de la variable
dividido entre el número total de datos (primera fórmula).
•Si se dispone de las frecuencias absolutas o relativas de los
datos, la media se puede calcular usando la segunda expresión
de la media donde representan los valores distintos
de la variable.
•El resultado de aplicar cualquiera de las fórmulas es el mismo.
•Todas las medidas que estudiemos tienen esta dos
versiones, para todos los datos o sólo para los datos distintos.
k
x
x
,...,
1
41
2 2 3 3 4 4 4 5 6 6 6 7 7 8 8
5
15
x
x
i
n
i
2
3
4
5
6
7
8
2
2
3
1
3
2
2
Ejemplo:Con los datos : 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8
(muestra tamaño 15), se tiene:
2 2 3 2 4 3 5 6 3 7 2 8 2
5
15
x
42
•Divide los datos en dos grupos.
•Es un valor, Me, tal que, ordenados de MENOR A
MAYORlos datos, el 50% es menor o igual que Me y el
50% mayor o igual que Me.
•Ejemplo:con los datos del ejemplo anterior:
2 2 3 3 4 4 4 5 6 6 6 7 7 8 8
En este caso hay un valor central porque el número de datos es
impar.
En el caso de tener un númeroparde datos, la mediana es la
semisuma de los dos datos centrales (en este caso NOtiene
porqué ser uno de los datos). Si añadimos a los datos anteriores el
valor 8,la mediana es 5.5, que no es uno de los datos.
MEDIANA
43
•VENTAJAS DE LA MEDIA:
•Contiene más información porque usa los valores de
todos los datos.
•Es más sencilla de calcular y se presta mejor a los
cálculos algebraicos.
•VENTAJAS DE LA MEDIANA: es más robusta frente a los
cambios en los datos (menos sensible a cambios en los datos).
Ejemplo:si a los datos anteriores 2 2 3 3 4 4 4 5 6 6 6 7 7 8 8,
le añadimos el dato 34, tenemos:
Nueva media:= 6.8 (antes era 5)
Nueva mediana:Me = 5.5 (antes era 5)
CONCLUSIÓN: Deben calcularse ambas pues proporcionan
información complementaria.
44
Los cuantilesextienden la idea de la mediana de dividir los
datos en dos conjuntos.
CUANTIL DE ORDEN , 0<<1, C:Es un valor tal que,
ordenados de MENOR A MAYOR los datos, el 100% es
menor o igual que Cy el resto es mayor o igual que C.
Los más usuales son:
•CUARTILESQ
1
, Q
2
, Q
3
(= 0.25, 0.5,0.75). La mediana
es el segundo cuartil. Los cuartiles dividen los datos en
cuatro partes iguales.
•DECILES D
1
, D
2
, ..., D
9
(= 0.1,0.2,...,0.9). Los deciles
dividen los datos en diez partes iguales.
•PERCENTILESP
1
,...,P
99
(= 0.01,...,0.99). Los
percentiles dividen los datos en cien partes iguales.
CUANTILES
45
El cálculo de cuantileses análogo al de la mediana:
1.-Se ordenan los datos de menor a mayor.
2.-Se determina el valor n, donde n es el numero de datos y el
orden del cuantilque queremos calcular.
* Si nno es entero, se redondea al siguiente entero y el
dato que ocupe ese LUGARes el cuantilbuscado.
* Si n= k es enteroel cuantilbuscado es la media entre
los datos que ocupan el LUGAR k y el k+1. El resultado
no tiene porqué coincidir con uno de los datos.
CÁLCULO DE CUANTILES
46
Me = C
0.5
, es decir n=15*0.5 = 7.5, luego la mediana ocupa el lugar
8, x
8
=Me=5.
•¿Cuál sería el primer cuartil Q
1
?
•n= 15*0.25 = 3.75. El primer cuartil sería el valor que ocupa la
posición 4, Q
1
= 3.
•¿Qué significa el valor obtenido de Q
1
?
•Esto significa que el 25% de los datos son menores o iguales que 3 y
el otro 75% son mayores o iguales que 3.
CÁLCULO DE CUANTILES
Ejemplo:Con siguientes datos
2,2,3,3,4,4,4,5,6,6,6,7,7,8,8
¿Cuál sería la mediana?
47
n=15*0.2=3, luego D
2
es la media entre el dato que ocupa la
posición 3 y la 4, D
2
=3. Esto significa que el 20% de los datos son
menores o iguales que 3 y el otro 80% son mayores o iguales que 3.
Encontrar un valor tal que el 25% de los datos sea mayor o igual que
ese valor:
Nos preguntarían por el tercer cuartil Q
3
= C
0.75
, es decir, n=
15*0.75 = 11.25. El tercer cuartil sería el valor que ocupa la posición
12, Q
3
= 7.
Esto significa que el 75% de los datos son menores o iguales que 7 y
el otro 25% son mayores o iguales que 7.
CÁLCULO DE CUANTILES
Ejemplo:Con siguientes datos
2,2,3,3,4,4,4,5,6,6,6,7,7,8,8
¿Cuál sería el segundo decil, D
2
?
Ejemplo: Tablas de peso y
altura de las niñas
Cuando una niña está en el
percentil 35 en peso, eso
significa que, con respecto al
peso, está en la posición 35 en
un ranking de 0 a 100 entre las
niñas de su edad.
48
49
DIAGRAMA DE CAJA Y BIGOTES (BOX-PLOT)
Este gráfico permite detectar DATOS ATÍPICOS. Se
construye sólo para variables cuantitativas. Pasos a seguir:
1.-Con los datos ordenados se obtienen los tres cuartiles
2.-Se dibuja un rectángulo con extremos son Q1 y Q3. Se indican las
posiciones de la mediana (mediante una línea) y la media (una cruz).
3.-Se calculan los límites de admisión: los valores que queden
fuera se consideran atípicos
)
Q
Q
(
5
'
1
Q
LS
)
Q
Q
(
5
'
1
Q
LI
1
3
3
1
3
1
4.-Se dibuja una línea desde cada extremo del rectángulo hasta el
valor más alejado no atípico.
5.-Se marcan en el gráfico todos los datos considerados como
atípicos (los que quedan fuera de los límites de admisión).
50
DIAGRAMA DE CAJA (BOX-PLOT)
Dato menor no atípico
Media
Mediana
Dato mayor
no atípico
Dato atípico
Box-and-Whisker Plot
Altura
150
160
170
180
190
200
Dato atípico
Q
1
Q
3
51
EJEMPLO
Con los datos del ejemplo anterior,2,2,3,3,4,4,4,5,6,6,6,7,7,8,8,
dibujamos el box-plot:
Paso 1:
•Mediana: 5
•Primer cuartil: n= 15*0.25 = 3.75, Q
1
=3
•Tercer cuartil: n= 15*0.75 = 11.25, Q
3
= 7
Paso 3:
LI = 3-1.5*4 = -3, LS = 7+1.5*4 = 13
Se consideran normales los datos en el intervalo (-3,13), lo que
nos indica que en este caso no hay datos atípicos.
52
Diagrama de caja o Box-plot
2
3
4
5
6
7
8
•¿Hay datos atípicos?
•¿Qué porcentaje de datos entre 3 y 5? ¿Y entre 5 y 7?
•¿Qué porcentaje de datos son menores que 7?
Para los datos anteriores el diagrama de caja y bigotes es:
53
1.5 MEDIDAS DE DISPERSIÓN
•Se calculan solamente para variables cuantitativas.
•Las medidas de dispersión completan la información que
dan las medidas de centralización e indican si éstas son
más o menos representativas del conjunto de datos.
•A menor valor de la medida, menor dispersión en el
conjunto de datos.
•Las más importantes son:
•Rango o recorrido
•Recorrido intercuartílico.
•Varianza y desviación típica (asociadas media)
•Coeficiente de variación
54
NECESIDAD DE MEDIDAS DE
DISPERSIÓN
Las medidas de centralización proporcionan una información
incompleta del conjunto de datos.
Ejemplo:sean X e Y las notas de dos grupos de cuarenta
alumnos, con distribuciones de frecuencias:
x
i
n
i
0
20
10
20
y
i
n
i
4.5
3
5
34
5.5
3
Para ambas variables la media
es 5, pero en el segundo caso 5
es un valor más representativo
de los datos que en el primero.
Intuitivamente los datos de X están MÁS DISPERSOS
(más separados) que los de Y, entre ellos y respecto de la
media.
55
RANGO O RECORRIDO
•El rango o recorrido mide la amplitudde los datos.
•Se define como:
R = x
mayor
–x
menor
•En el ejemplo de las notas de las dos clases X e Y, se observa
que X es más dispersa que Y ya al calcular el recorrido:
•R
X
= 10 –0 = 10 ; R
Y
= 5.5 –4.5 =1
RECORRIDO INTERCUARTÍLICO
•Se define como: R
Q
= Q
3
–Q
1
•En el ejemplo de las notas de las dos clases X e Y, se observa que
X es más dispersa que Y al calcular el recorrido intercuartílico.
•R
XQ
= 10 –0 = 10 ; R
YQ
= 5 –5 =0
56
VARIANZA Y DESVIACIÓN TÍPICA
n
2
2
ijj
i 11
11
V xxxx n
nn
k
j
Dt
V
•VARIANZA:
•DESVIACIÓN TÍPICA:medida en las mismas
unidades que los datos
Ambas son medidas de dispersión asociadas a la media. Miden,
entonces, la representatividad de la media en el conjunto de datos.
•Representa una especie de distancia media de los datos a la
media aritmética. A mayor varianza, mayor distancia de los
datos a la media y por tanto, menor representatividad de la
media en ese conjunto de datos.
•La varianza siempre es mayor o igual que 0 y está medida en
unidades al cuadrado.
57
Ejemplo: Para las notas de los dos grupos de cuarenta
alumnos, con distribuciones de frecuencias:
x
i
n
i
0
20
10
20
y
i
n
i
4.5
3
5
34
5.5
3
22
2
2
2
1
0 5
20
10 5
20
25,
5,
40
1
4.5 5
3
5 5
34
5.5 5
3
0.0375,
0.19
40
XX
YY
V
Dt
V
Dt
Para ambas variables la media es 5, pero en el segundo caso 5 es
un valor más representativo de los datos que en el primero como
se puede observar al calcular la varianza, al ser ésta menor.
58
TEOREMA
Seanlosvaloresdiferentesdeunamuestradetamañon,
susfrecuenciasabsolutas.Seansumediayvarianza:
SisedefineunanuevavariableY=aX+b,severificaque:
A)
B)
k
x
x
,...,
1
k
nn,...,
1
22
1
1
k
X
i
i
i
V
x n
x
n
k
i
i
n
n
1
b
x
a
y
XY
VaV
2
1
k
jj
j
xn
x
n
59
•COEFICIENTE DE VARIACIÓN DE PEARSON:
(asociado a la media)
Dt
CV
x
•La varianza NO SIRVE como medida de dispersión si lo que
se quiere es comparar, de entre varios conjuntos de datos, cual es
el más disperso respecto de la media salvo si todos los
conjuntos de datos tiene la misma media(ejemplo de las
notas).
•En general, se definen los coeficientes de variación, medidas sin
dimensión, que eliminan la influencia de la correspondiente
medida a la que están asociados y también eliminan la magnitud
y unidades de los datos.
•Multiplicados por 100 se interpretan como un porcentaje.
COEFICIENTE DE VARIACIÓN
60
Veamos cómo la varianza SÍ sirve para comparar la
dispersión de dos conjuntos de datos cuando la
media es la misma.
5
0.19
1,
0.038
55
XY
XY
Dt
Dt
CV
CV
xy
Ejemplo: Para las 40 notas de los alumnos de los grupos X e Y
tenemos que: mediaX= 5, V
X
= 25; mediaY= 5, V
Y
= 0.0375
Los coeficientes de variación para estos conjuntos:
Se observa que los datos de X son más dispersos que los de Y y
para asegurarlos se puede usar la varianza, la desviación típica o
el coeficiente de variación al tener ambos conjuntos de datos la
misma media.
61
Veamos cómo la varianza NO sirve para comparar
la dispersión de dos conjuntos de datos cuando la
media es diferente.
Ejemplo: Se tienen datos del peso de varios lagartos (X) y
del peso de una población de tiburones (Y), en Kg.
x
i
n
i
0.4
3
0.45
4
0.5
6
0.55
2
y
i
n
i
400
3
403
4
405
4
410
2
Para X: media = 0.473, V = 0.026,
CV = 0.34
Para Y: media = 404, V= 9.846,
CV = 0.0076
•La varianza de Y es mayor que la de X pero está influenciado por
la magnitud de los datos y por las unidades de medida.
•No podemos comparar la dispersión de los datos con la varianza
porque las medias son distintas.
62
1.6 MEDIDAS DE FORMA:
COEFICIENTES DE ASIMETRÍA
•Nos dan una idea de la simetría o asimetría de la distribución
(por tanto, de su forma) y permiten comparar varios conjuntos
de datos ya los coeficientes que usaremos son adimensionales.
•Gráficamente, nos podemos encontrar con estas tres
situaciones:
Asimétrico a
la derecha
Asimétrico a
la izquierda
Simétrico
63
Si al calcular este valor con nuestros datos sucede que:
•CAF>0, la distribución es asimétrica a la derecha.
•CAF=0, la distribución es simétrica.
•CAF<0, la distribución es asimétrica a la izquierda.
CAF > 0
CAF = 0
CAF < 0
33
11
33
11
nk
iii
ii
xxxx n
nn
CAF
DtDt
()()
()()
COEFICIENTE DE ASIMETRÍA DE FISHER
64
Ejemplo:Con los datos: 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8
La media era 5. Calculamos el coeficiente de asimetría de Fisher.
3
3
3
3
3
1
333
2 5
2
3 5
2
4 5
3
11
5 5
1
0
15
6 5
3
7 5
2
8 5
2
0
k
ii
i
x
x
n
n
CAF
(
)
,
Diagrama de barras
frecuencia
0
0,5
1
1,5
2
2,5
3
2
3
4
5
6
7
8
65
COEFICIENTE DE ASIMETRÍA DE PEARSON
3()x Me
CAP
Dt
•Si la distribución es simétrica, sucede que
pero si la media y la mediana son iguales NOsignifica
que la distribución sea simétrica. Por tanto:
•Si la distribución es simétrica, entonces CAP = 0.
•Si CAP = 0 NO significa que la distribución sea
simétrica.
•El CAF siempre detecta la forma del conjunto de
datos mientras que el CAP no.
x
Me
66
Ejemplo
Número de llamadas
frecuencias
0
10
20
30
40
0
1
2
3
4
5
6
NÚMERO DE LLAMADAS
x
i
Frecuencia
0
40
1
26
2
14
3
6
4
3
5
0
6
1
Total
90
En este ejemplo, la media
y la mediana son iguales a
1 por lo que CAP = 0y
claramente los datos no
son simétricos, si no
asimétricos a la derecha.
El CAF = 2.1079, lo que
indica que los datos son
asimétricos a la derecha.
67
1.6 MEDIDAS DE FORMA:
COEFICIENTE DE CURTOSIS
Con este coeficiente tenemos una idea de lo “puntiaguda” o “plana”
que es una distribución (por tanto, de su forma) en comparación con
una distribución estándar: la distribución normal.
Si al calcular el coeficiente de curtosiscon nuestros datos sucede
•Curtosis> 0, la distribución de los datos es más “picuda” que
la distribución normal con la misma media y varianza que los
datos.
•Curtosis= 0, la distribución de los datos es igual de “picuda”
que la distribución normal con la misma media y varianza que
los datos.
•Curtosis< 0, la distribución de los datos es menos “picuda”
que la distribución normal con la misma media y varianza que
los datos.
68
44
11
44
11
Curtosis
3
3
nk
i
i
i
ii
x
x
x
x n
nn
Dt
Dt
(
)
(
)
(
)
(
)
COEFICIENTE DE CURTOSIS
Ejemplo:Para los datos 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8, el coeficiente de
curtosissale -1.247. Si dibujamos le diagrama de barras de los datos
Histograma para Col_1
0246810
Col_1
0
0,5
1
1,5
2
2,5
3
frecuencia
Distribución
Normal
•Disponemos de datos de 186 alumnos de segundo curso de
una universidad madrileña. A estos alumnos se les ha
preguntado por su edad, su altura (en cm) y el grado de
satisfacción ante el funcionamiento de la biblioteca de su
universidad.
•Los datos están recogidos en el fichero “alumnos.xls”
•Vamos a hacer un análisis descriptivo completo de estas
tres variables: Grado de satisfacción ante el
funcionamiento de la biblioteca, Edad,Altura .
1.7. Estudio descriptivo de un conjunto de
datos unidimensionales
69
70
Variable cualitativa : Grado de satisfacción
frente al funcionamiento de la biblioteca
FrecuenciaFrecuenciaFrecuencia
ClaseValorFrecuenciaRelativaAcumuladaRel. acum.
11540,2903540,2903
22590,31721130,6075
33440,23661570,8441
44200,10751770,9516
5590,04841861,0000
1 = nada satisfecho, 2 = poco satisfecho, 3 = satisfecho,
4 = bastante satisfecho, 5 = muy satisfecho.
71
Variable cualitativa : Diagrama de Pareto
para grado de satisfacción frente al
funcionamiento de la biblioteca
72
Variable cualitativa : Grado de satisfacción
frente al funcionamiento de la biblioteca
73
Variable cuantitativa discreta: Edad
ClaseValorFrecuenciaFrecuencia
Relativa
Frecuencia
Acumulada
Frecuencia
Rel. acum.
11850,026950,0269
219270,1452320,1720
320500,2688820,4409
421290,15591110,5968
522210,11291320,7097
623200,10751520,8172
724150,08061670,8978
825100,05381770,9516
92640,02151810,9731
102720,01081830,9839
112820,01081850,9946
122910,00541861,0000
74
Variable cuantitativa discreta: Edad
Esta variable viene medida en años completos y tiene solo 12
valores distintos. Por ese motivo, se trata como una variable
discreta.
La variable edad es, sin embargo, una variable continua si, por
ejemplo, se mide en años más los meses y días.
¿ Qué número de personas tienen una edad inferior a 21 años?
¿Qué porcentaje de alumnos tiene 23 años o menos?
¿Qué porcentaje representa sobre el total los alumnos que tienen
más de 25 años?
75
Variable edad
Se pueden poner etiquetas, cambiar títulos, colores, ...: se hace
doble clic sobre el gráfico y se abre el editor de gráficos.
76
Variable edad
Se pueden poner etiquetas, cambiar títulos, colores, ...: se hace doble
clic sobre el gráfico y se abre el editor de gráficos.
77
Recuento186
Promedio21,4355
Mediana21,0
Moda20,0
Varianza4,85257
Desviación Estándar2,20286
Coeficiente de
Variación
10,2767
%
Mínimo18,0
Máximo29,0
Rango11,0
Cuartil Inferior20,0
Cuartil Superior23,0
Sesgo0,903137
Curtosis0,480786
Variable edad
•¿ Cuál es la edad media?
•¿ Por encima de que edad está el
50% de los alumnos?
•¿ Por debajo de que edad está el
75% de los alumnos?
•¿Cuál es la edad más frecuente?
•¿En qué rango de edades nos
movemos?
•Comentar si los datos son muy
dispersos o poco dispersos.
•Comentar la forma de la
distribución de los datos.
78
Variable edad
Vamos a realizar un diagrama de caja para ver si tenemos datos
atípicos respecto a la edad
Los datos atípicos corresponden a tres alumnos de 28 y 29
años.
79
Variable altura
•La variable altura es una variable cuantitativa continua si
medimos los datos con todas sus fracciones posibles (cm, mm,...).
•Como el número de datos diferentes es 35, hay que agrupar los
datos en intervalos.
•La tabla de frecuencias y el histograma vendrán dados en términos
de esos intervalos.
•Se ha tomado como valor menor para comenzar los intervalos 155 y
como mayor 200 y se han hecho 9 intervalos de amplitud 5 unidades.
•Las etiquetas asignadas van de 1 a 9 (1 corresponde al intervalo
[155,160), 2 a [160,165),...,9 al intervalo [195,200))
80
Variable altura
LímiteLímiteFrecuenciaFrecuenciaFrecuencia
ClaseInferiorSuperiorPunto MedioFrecuenciaRelativaAcumuladaRel. Acum.
menor o igual15500,000000,0000
1155160,0157,560,032360,0323
2160165,0162,590,0484150,0806
3165170,0167,5250,1344400,2151
4170175,0172,5370,1989770,4140
5175180,0177,5570,30651340,7204
6180185,0182,5300,16131640,8817
7185190,0187,5150,08061790,9624
8190195,0192,560,03231850,9946
9195200,0197,510,00541861,0000
mayor de20000,00001861,0000
¿ Qué número de personas tienen una altura inferior a 170 cm?
¿Qué porcentaje de alumnos miden 180 cm o más?
¿Qué porcentaje representa sobre el total los alumnos miden menos
de 185 cm?
81
Variable altura
•¿Cuál es la altura media?
•¿Cuál es el valor más frecuente en
la altura? ¿Cuántos alumnos hay con
ella?
•¿Qué porcentaje de alumnos tienen
una altura igual o inferior a 181 cm?.
•¿Entre que valores se encuentran
las alturas de estos alumnos?
•¿ Qué porcentaje de alumnos una
altura igual o superior a 172 cm?
Recuento186
Promedio176,984
Mediana178,0
Moda178,0
Varianza58,7511
Desviación Estándar7,66493
Coeficiente de Variación4,33086%
Mínimo156,0
Máximo196,0
Rango40,0
Cuartil Inferior172,0
Cuartil Superior181,0
Sesgo-0,0938322
Curtosis0,113453
82
Variable altura
•Se observa en el gráfico que la distribución de los datos es bastante
simétrica. El CAF es -0.094, bastante próximo a 0.
•También se ve que es más apuntada que la normal (curva
superpuesta) por lo que se espera un coeficiente de curtosispositivo.
En efecto, este coeficiente vale 0.1134.
83
Variable altura
Aquí se muestran los
histogramas para la variable
Altura diferenciados por
sexos.
84
Variable altura
Vamos a realizar un diagrama de caja para ver si tenemos datos
atípicos respecto a la altura.
Son atípicos los alumnos muy altos (195 y 196
cm) y los que son muy bajos (156 cm)
Gráfico de Caja y Bigotes
150160170180190200
Altura
85
Variable altura
Aquí se muestran los Box-plotpara la variable Altura
diferenciados por sexos: 0 corresponde a varones y 1 a mujeres.