PROBABILIDAD Y ESTADÍSTICA Prof. Juan José Martín Sotoca Dep. de Matemática aplicada a las TIC E.T.S.I.S.I. (Universidad Politécnica de Madrid) Probabilidad y Estadística (ETSISI –UPM) Curso 25-26 Análisis Estadístico INTRODUCCIÓN -Aprendersobrefenómenosfísicosonaturalesconelobjetivodeobtener conclusionesy,portanto,podertomardecisiones. •¿Qué es la estadística?. Fenómeno Real •¿Por qué estudiamos estadística? -Eslaramadelasmatemáticasquetratalarecolección,análisise interpretacióndedatos,asícomoproponerunmodeloprobabilísticoquese ajusteaesosdatos,yevaluarovalidarlaprecisióndelmodelopropuesto. Aprendizaje sobre el fenómeno Datos Observados •La estadística se divide en dos grandes áreas: 1. ESTADÍSTICA DESCRIPTIVA -Visualización/representación y resumen de datos. 2. ESTADÍSTICA INFERENCIAL. -Comprendemétodosyprocedimientosinductivosparadeterminar propiedadesdeunapoblaciónestadística,apartirdeunamuestradeésta. -Creacióndemodelosenbasealosdatosobservadosconelobjetivode poderhacerpredicciones. INTRODUCCIÓN ESTADÍSTICA DESCRIPTIVA UNIVARIADA Prof. Juan José Martín Sotoca Dep. de Matemática aplicada a las TIC E.T.S.I.S.I. (Universidad Politécnica de Madrid) Probabilidad y Estadística (ETSISI –UPM) Curso 25-26 •DEFINICIONES. •REPRESENTACIÓN DE DATOS. -Tabla de frecuencias. -Representaciones gráficas. •MEDIDAS (RESUMEN) DE LOS DATOS. -Centralización y posición. -Dispersión. -Forma. ÍNDICE ESTADÍSTICA DESCRIPTIVA UNIVARIADA Elemento/Individuo: cada uno de los miembros de la población. Muestra: subconjunto de individuos de la población. DEFINICIONES Población:conjuntodeseres,medidasuobjetosacercadelosquesedesea tenerinformación. Cualitativa:Describe una cualidad. Cuantitativa:Toma valores numéricos. Discreta:conjunto numerable (enteros). VARIABLE ESTADÍSTICA Característica que se mide/observa en los individuos de una población. Continua:Valores en un Intervalo. Ejemplo: la altura, la edad, el peso, el sexo, número de hermanos, etc. Ejemplo: color de ojos, preferencias, etc. Ejemplo: altura, peso, etc. DEFINICIONES •Haydosmanerasequivalentesdepresentarlainformacióncontenidaenun conjuntodedatos: Sex oFrecuencia Hom bres23 Mujeres32 HombresMujeres 0 6 12 18 24 30 36 REPRESENTACIÓN DE LOS DATOS REPRESENTACIONES GRÁFICASTABLAS DE FRECUENCIAS OBJETIVO Resumir información contenida en los datos para facilitar su análisis TABLA DE FRECUENCIA •Tablaquemuestralafrecuenciadecadavalorobservado. •Frecuenciasabsolutas(푭 풊 ):Contabilizanelnúmerototaldeelementosparacada característicaobservada. •Frecuenciasrelativas(풇 풊 ):Eslaproporcióndeindividuosquetienenunadeterminada característicasobreeltotaldeindividuosdelamuestra.Seobtienedividiendola frecuenciaabsolutaentreeltotaldeindividuos. •Frecuenciasacumuladas(푭 풂풄 y풇 풂풄 ):Seobtienensumandolasfrecuenciasdelasclases anteriores. REPRESENTACIÓN DE LOS DATOS 푓 푖 = 퐹 푖 푁 N es el nº total de individuos 퐹 푎푐 푥= 푖≤푥 퐹 푖 푓 푎푐 푥= 푖≤푥 푓 푖 •Cuando los Datos son cualitativos o cuantitativos discretos con pocos valores distintos →Damos la frecuencia con que aparece en la muestra para cada característica. •Datos cuantitativos continuos o discretos con muchos valores distintos → Damos la frecuencia con los datos agrupados en clases o intervalos. TABLA DE FRECUENCIA REPRESENTACIÓN DE LOS DATOS 0 0 1 1 2 0 3 0 2 4 2 1 0 5 5 2 2 3 1 1 1 2 2 4 5 0 3 2 2 2 2 4 3 1 1 1 0 0 2 3 1 4 0 0 1 1 2 2 3 2 3 1 1 0 0 1 2 0 2 2 0 0 0 0 1 1 4 3 3 2 1 6 3 1 3 2 1 2 3 0 1 3 0 2 3 2 1 3 4 0 6 2 1 3 0 3 1 0 2 2 EJEMPLO 1 •Sehacontadoelnúmerodehijosde100matrimoniosquellevancasados másde15años.Obteniendolossiguientesresultados: TABLA DE FRECUENCIA REPRESENTACIÓN DE LOS DATOS Nº de hijos F i f i F ac f ac 0220.22220.22 1240.24460.46 2260.26720.72 3170.17890.89 460.06950.95 530.03980.98 620.021001 100 1 EJEMPLO 1 TABLA DE FRECUENCIA REPRESENTACIÓN DE LOS DATOS •¿Cuántas clases elegir? Pocas:Sepierdemuchainformacióndelosdatos. Muchas:Lafrecuenciaresultanteencadaunapuedeser pequeñaypocoútilparaelestudio Nº DE DATOS Nº DE CLASES 20 -507 50 -7510 75 -10012 Másde 10015 Se suelen elegir intervalos de igual longitud TABLA DE FRECUENCIA REPRESENTACIÓN DE LOS DATOS •Lossiguientesdatosmuestranlosnivelesdecolesterolenlasangrede40 estudiantesdeprimerañodeunauniversidad. 213173193196220183194200 192200200199178183188193 187181193205196211202213 216206195191171194184191 221212221204204191183227 EJEMPLO 2 TABLA DE FRECUENCIA REPRESENTACIÓN DE LOS DATOS •Tabla de frecuencias de los niveles de colesterol en sangre: Intervalo de clase Frecuencia absoluta Frecuencia relativa 170 - 180 3 0.075 180 - 190 7 0.175 190 - 200 13 0.325 200 - 210 8 0.2 210 - 220 5 0.125 220 - 230 4 0.1 EJEMPLO 2 TABLA DE FRECUENCIA REPRESENTACIÓN DE LOS DATOS •Gráficos de frecuencias para datos cualitativos. •El área de cada sector representa la frecuencia relativa de cada valor. 24,00% 16,00% 10,00% 8,00% 10,00% 16,00% 10,00% 4,00% 2,00% Diagrama de tarta 0 días 1 día 2 días 3 días 4 días 5 días 6 días 7 días 8 días 9 días 1. Diagrama de tarta o sectores GRÁFICO DE FRECUENCIA REPRESENTACIÓN DE LOS DATOS •Gráficosdefrecuenciasparadatoscuantitativos. •Cadabarrarepresentaunaclase.Nohayhuecoentrebarras. 2. Histograma Nº DE DATOS Nº DE CLASES 20 -507 50 -7510 75 -10012 Másde 10015 GRÁFICO DE FRECUENCIA REPRESENTACIÓN DE LOS DATOS •Lasbasessonigualesalaamplituddecadaclase. •Laalturacorrespondealafrecuenciaabsolutaorelativadelaclase. •Marcadeclase:Eselvalormediodecadaclase. •Rangodelosdatos:Amplitudtotalorecorridodelosdatos. 2. Histograma GRÁFICO DE FRECUENCIA REPRESENTACIÓN DE LOS DATOS RANGO= dato máximo –dato mínimo El histograma da información sobre: •La simetría de los datos y la dispersión de los mismos. -2,6-1,6-0,60,41,42,43,4 0 5 10 15 20 25 30 -0,1 0,3 0,7 1,1 1,5 1,9 2,3 0 4 8 12 16 20 Simétricos Dispersos 2. Histograma GRÁFICO DE FRECUENCIA REPRESENTACIÓN DE LOS DATOS El histograma da información sobre: •La forma de la distribución. -4048121620 0 10 20 30 40 -2 3 8 13 18 23 28 0 3 6 9 12 15 18 Asimétricos a la derecha Asimétricos a la izquierda 2. Histograma GRÁFICO DE FRECUENCIA REPRESENTACIÓN DE LOS DATOS El histograma da información sobre: •Posibles dos poblaciones. •Si hay valores muy alejados →valores atípicos. 2. Histograma GRÁFICO DE FRECUENCIA REPRESENTACIÓN DE LOS DATOS EJEMPLO 3 TABLA DE FRECUENCIAS •La variable representa el peso (en gr.) de 191 monedas de 1 €. Clase Límite Inferior Límite Superior MarcaFrecuencia Frecuencia Relativa Frecuencia Acumulada Frecuencia Relat. Acumulada Menor que 8,89 0000 18.898.988.940000 28.989.079.0340.020940.0209 39.079.169.12270.1414310.1623 49.169.259.21810.42411120.5864 59.259.349.30570.29841690.8848 69.349.439.39200.10471890.9895 79.439.529.4820.01051911 89.529.619.57001911 Mayor que 9,61001911 REPRESENTACIÓN DE LOS DATOS -Representación de las frecuencias relativas: Histograma Peso porcentaje 8,99,19,39,59,7 0 10 20 30 40 50 HISTOGRAMA (%) EJEMPLO 3 REPRESENTACIÓN DE LOS DATOS Histograma Peso porcentaje 8,99,19,39,59,7 0 20 40 60 80 100 -Representación de las frecuencias relativas acumuladas: (%) HISTOGRAMA EJEMPLO 3 REPRESENTACIÓN DE LOS DATOS Histograma Ambos porcentaje 340344348352356360364 0 5 10 15 20 25 30 Posible presencia de 2 poblaciones •Datoscorrespondientesalaslongitudes(×10 −4 푚)de100clavosdelmismo tipo,medidospordospersonas,50clavoscadauna,queusaroncalibres diferentes. EJEMPLO 4 (%) ×10 −4 푚 REPRESENTACIÓN DE LOS DATOS Calibre1 Calibre 2 porcentaje 340344348352356360364 46 26 6 14 34 54 •Comparacióndeloshistogramasseparandolosdatossegúnelcalibre utilizado: (%) Calibresdiferentes 0 EJEMPLO 4 REPRESENTACIÓN DE LOS DATOS •Polígonodefrecuencias •Serepresentalospuntosmediosdecadaclase(marcas)frentealafrecuenciadela clasecorrespondienteyseunenestospuntosporlíneasrectas. •Útilesparacompararconjuntosdedatos. OTRAS REPRESENTACIONES GRÁFICAS REPRESENTACIÓN DE LOS DATOS EJEMPLO 5 Histograma Peso porcentaje 8,99,19,39,59,7 0 10 20 30 40 50 Histograma Peso porcentaje 8,99,19,39,59,7 0 20 40 60 80 100 •La variable representa el peso (en gr.) de 191 monedas de 1 €. Polígono de frecuencias relativas Polígono de frecuencias acumuladas (%) (%) POLÍGONO DE FRECUENCIAS REPRESENTACIÓN DE LOS DATOS •Medidas de centralización y posición Valor que representa a todo el conjunto de datos: media, mediana, moday cuantiles. •Medidas de dispersión Valor que cuantifica cómo están distribuidos los datos con respecto a la media: varianza (desviación típica). •Medidas de forma Valores que miden lo simétrica o “apuntada/picuda” que es la distribución de nuestros datos: coeficiente de asimetría, coeficiente de apuntamiento (curtosis). MEDIDAS DE UN CONJUNTO DE DATOS INTRODUCCIÓN •Para datos no agrupados la media aritmética de un conjunto de datos 푥 1 ,푥 2 ,푥 3 ,...푥 푛 es •Para datos agrupados en tablas de frecuencias: n x = x i ii i i ii fx= n F x= n Fx =x MEDIDAS DE CENTRALIZACIÓN MEDIA ARITMÉTICA MEDIDAS DE UN CONJUNTO DE DATOS •Actúa como centro geométrico o como centro de masasdel conjunto de datos. •Es muy sensible a valores extremos (atípicos). MEDIAMEDIA OBSERVACIONES MEDIDAS DE CENTRALIZACIÓN MEDIA ARITMÉTICA MEDIDAS DE UN CONJUNTO DE DATOS lj푥= 1510+1560+1575+1600+1800 5 =1609 •¿Qué ocurriría si el valor 1800 fuera 6000?. lj푥= 1510+1560+1575+1600+6000 5 =2449 La medida pierde representatividad EJEMPLO 1 •Una pequeña empresa tiene cinco trabajadores. Sus salarios mensuales son: 1510, 1560, 1575, 1600 y 1800 Euros. El salario medio es: MEDIDAS DE CENTRALIZACIÓN MEDIA ARITMÉTICA MEDIDAS DE UN CONJUNTO DE DATOS •Es un valor que divide a los datos en dos grupos con el mismo número de individuos. •Es conveniente cuando los datos son asimétricos (muy heterogéneos). •No es sensible a valores extremos. •Para calcularla: •ordenamos los datos de menor a mayor. •si el número de datos es impar, la mediana es el dato del medio •si el número de datos es par, la mediana es la media de los datos centrales. MEDIANA MEDIDAS DE CENTRALIZACIÓN MEDIDAS DE UN CONJUNTO DE DATOS •Poco sensible a las asimetríasdel histograma. Mediana Mediana = Media 50%50% Media OBSERVACIONES MEDIANA MEDIDAS DE CENTRALIZACIÓN MEDIDAS DE UN CONJUNTO DE DATOS •Poco sensible a valores atípicos. Mediana = Media Mediana Media MEDIANA MEDIDAS DE CENTRALIZACIÓN MEDIDAS DE UN CONJUNTO DE DATOS OBSERVACIONES •13 ovejas comieron una hierba venenosa. Las horas que tardaron en morir fueron: 44, 27, 24, 24, 36, 36, 44, 44, 120, 29, 36, 36 y 36. Calcular la mediana. →Ordenamos los valores de menor a mayor: 24, 24, 27, 29, 36, 36, 36, 36, 36, 44, 44, 44, 120 13 Observaciones 66 EJEMPLO 2 MEDIDAS DE CENTRALIZACIÓN MEDIDAS DE UN CONJUNTO DE DATOS •Es el valor más frecuente, el que más se repite. •En datos agrupados, es la clase más frecuente. •La presencia de varias modas puede indicar la existencia de varios grupos. Histograma Peso porcentaje 8,9 9,1 9,3 9,5 9,7 0 10 20 30 40 50 Histograma Peso porcentaje 1600 2100 2600 3100 3600 4100 4600 0 5 10 15 20 25 30 Unimodal MODA Bimodal MEDIDAS DE CENTRALIZACIÓN MEDIDAS DE UN CONJUNTO DE DATOS •Son valores de la variable (푄 1 ,푄 2 푦푄 3 ) que dividen a la distribución en 4 partes, cada una de las cuales engloba el 25 % de los datos. MEDIDAS DE POSICIÓN (CUANTILES) CUARTILES 푄 1 = Primer cuartil 푄 2 = Segundo cuartil = Mediana 푄 3 = Tercer cuartil 푄 3 −푄 1 = Rango intercuartílico MEDIDAS DE UN CONJUNTO DE DATOS MEDIDAS DE DISPERSIÓN Menor dispersión Igual media Mayor dispersión Igual media MEDIDAS DE UN CONJUNTO DE DATOS •Los valores 0 y 10 tienen como media 5. •Los valores 5 y 5 tienen como media 5. •En ambos casos tienen la misma media, sin embargo, los conjuntos son diferentes. •En ocasiones, conocer sólo la media nonos da una idea de cómo están repartidos el resto de valores entorno a ella. EJEMPLO ¿están cerca o lejos de la media? MEDIDAS DE DISPERSIÓN MEDIDAS DE UN CONJUNTO DE DATOS x x x i − i x 퐷= 1 푛 (푥 푖 −lj푥) Distancia entre un valor y la media •Calculamos la distancia media como el promedio de las distancias de todos los valores al valor medio: Problema:La distancia media puede salir 0 sin que los puntos sean todos igual que la media, puesto que los valores se pueden cancelar. Solución:Quitar los signos negativos elevando al cuadrado. MEDIDAS DE DISPERSIÓN MEDIDAS DE UN CONJUNTO DE DATOS •Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media. •Para datos no agrupados la varianza de un conjunto de datos 푥 1 ,푥 2 ,푥 3 ,...푥 푛 es: Distancia cuadrática VARIANZA •Una manera fácil de calcular la varianza es utilizar el desarrollo: 푣 2 = 1 푛 푖=1 푛 (푥 푖 −ҧ푥) 2 푣 2 = 1 푛 푖=1 푛 (푥 푖 ) 2 −ҧ푥 2 MEDIDAS DE DISPERSIÓN MEDIDAS DE UN CONJUNTO DE DATOS •Si los datos están agrupados en una tabla de frecuencias: 푣 2 = 1 푛 퐹 푖 푥 푖 2 −lj푥 2 푣 2 =푓 푖 푥 푖 2 −lj푥 2 VARIANZA MEDIDAS DE DISPERSIÓN MEDIDAS DE UN CONJUNTO DE DATOS •Para lograr una medida de la distancia media calculamos la raíz cuadrada de la varianza: 푣= 1 푛 (푥 푖 −lj푥) 2 DESVIACIÓN TÍPICA •Tiene las mismas unidades que la variable estadística y es en general más “tangible”. MEDIDAS DE DISPERSIÓN MEDIDAS DE UN CONJUNTO DE DATOS COEFICIENTE DE VARIACIÓN •El coeficiente de variación no posee unidades, es decir, es adimensional. MEDIDAS DE DISPERSIÓN MEDIDAS DE UN CONJUNTO DE DATOS •Para su interpretación se expresa como porcentaje, teniendo en cuenta que puede superar el valor 100%: •Medida de dispersión relativa independiente de la escala de la variable estadística. •Se utiliza para comparar la dispersión de variables estadísticas con unidades de medida distintaso de medias muy diferentes. A mayor valor del CV mayor dispersión. 퐶푉(%)= 푣 ҧ푥 ×100 MEDIDAS DE FORMA SESGO O COEFICIENTE DE ASIMETRÍA DE FISHER •El coeficiente de asimetríamide la simetría de los datos respecto de la media. Se define como: 퐴푠= 1 푁 σ 푖=1 푁 (푥 푖 −ҧ푥) 3 푣 3 푥 1 ,푥 2 ,푥 3 ,...푥 푁 constituye toda la población 푣es la desviación típica As > 0 As < 0 As = 0 MEDIDAS DE UN CONJUNTO DE DATOS CURTOSIS O COEFICIENTE DE APUNTAMIENTO DE FISHER •Lacurtosismide el apuntamiento de los datos. Se define como: 퐾= 1 푁 σ 푖=1 푁 (푥 푖 −ҧ푥) 4 푣 4 −3 Leptocúrtica K>0 푥 1 ,푥 2 ,푥 3 ,...푥 푁 constituye toda la población 푣es la desviación típica Mesocúrtica K=0 PlaticúrticaK<0 Distribución Gaussiana MEDIDAS DE FORMA MEDIDAS DE UN CONJUNTO DE DATOS DIAGRAMA DE CAJA Y BIGOTES •Es una representación gráfica de un conjunto de datos que consta de dos partes, la caja y los bigotes. •Ofrece información acerca de: a.Cuáles son los valores clave, tales como: el promedio, mediana, cuartiles, etc. b.Si hay valores atípicos y cuáles son sus valores. c.Si los datos son simétricos. d.Cuán estrechamente se agrupan los datos. e.Si los datos están sesgados (asimetrías) y si es así, en qué dirección. CAJA BIGOTE BIGOTE MEDIDAS DE UN CONJUNTO DE DATOS •Tienen la ventaja de ocupar menos espacio que un histograma, lo cual es útil cuando se comparan varias distribuciones. •푄 1 = Primer cuartil •푄 2 = Segundo cuartil = Mediana •푄 3 = Tercer cuartil •R = 푄 3 −푄 1 (Rango intercuartílico) •퐿 푚푎푥 de los bigotes = 1.5 x R 푥 min_푏 푥 max_푏 •Valores atípicos: Valores tal que >푄 3 +1.5×푅 Valores tal que <푄 1 −1.5×푅 •Extremos del bigote: 푥 max_푏 = Máx valor tal que <푄 3 +1.5×푅 푥 min_푏 = Mín valor tal que >푄 1 −1.5×푅 DIAGRAMA DE CAJA Y BIGOTES MEDIDAS DE UN CONJUNTO DE DATOS