ESTADÍSTICA DESCRIPTIVA BIVARIADA Prof. Juan José Martín Sotoca Dep. de Matemática aplicada a las TIC E.T.S.I.S.I. (Universidad Politécnica de Madrid) Probabilidad y Estadística (ETSISI –UPM) Curso 25-26 •DEFINICIONES. •REPRESENTACIÓN DE DATOS. -Tabla de frecuencias conjunta. -Representaciones gráficas: diagrama de dispersión. •MEDIDAS DE DEPENDENCIA LINEAL -Covarianza. -Correlación. •MODELOS DE REGRESIÓN ÍNDICE ESTADÍSTICA DESCRIPTIVA BIVARIADA DEFINICIONES •Vamosamedirdoscaracterísticas(XeY:variablesestadísticas)sobrecada individuo/elemento. •Unamuestradelapoblaciónconsistiráenparesordenados(푥,푦)deambas característicasobservadassobrecadaindividuo. •Lafrecuenciaconjuntaabsoluta,푭 풊풋 ,eselnúmerodeindividuosquepresentan simultáneamentelascaracterísticas푥 푖 e푦 푗 . •Lafrecuenciaconjuntarelativa,풇 풊풋 ,eslaproporcióndeindividuosquepresentan simultáneamentelascaracterísticas푥 푖 e푦 푗 . TABLA DE FRECUENCIAS BIVARIANTE REPRESENTACIÓN DE LOS DATOS EJEMPLO 1 •Sehanestudiadoelpeso(X)ylaaltura(Y)de70individuosobteniéndoselosdatosdelasiguiente tabla: •Tabla de doble entrada que muestra la frecuencia conjunta absoluta o relativa de cada valor (푥,푦) observado. •Encadaceldatenemoslafrecuenciaconjuntaabsoluta,푭 풊풋 . Pesos / Alturas 159 – 161161 – 163163 – 165165 – 167167 – 169169 – 171 48-51 322100 51-54 234221 54-57 136851 57-60 001283 60-64000244 Pesos / Alturas 159 – 161161 – 163163 – 165165 – 167167 – 169169 – 171 Total Filas 48-51 0.040.030.030.010.000.00 0.11 51-54 0.030.040.060.030.030.01 0.20 54-57 0.010.040.090.110.070.01 0.34 57-60 0.000.000.010.030.110.04 0.20 60-640.000.000.000.030.060.060.14 Total columnas 0.090.110.190.210.270.131.00 •Encadaceldatenemoslafrecuenciaconjuntarelativa,풇 풊풋 . EJEMPLO 1 ퟑ ퟕퟎ =ퟎ.ퟎퟒ TABLA DE FRECUENCIAS BIVARIANTE REPRESENTACIÓN DE LOS DATOS EJEMPLO 2 HISTOGRAMA REPRESENTACIÓN DE LOS DATOS •Seobtienenalestudiarunadelasvariablesdeformaindependientedela otra. •LadistribuciónmarginaldelavariableX,(퐹 푋 ),secalculasumando,paracada fila,todaslascolumnasdelasfrecuenciasconjuntas. •LadistribuciónmarginaldelavariableY,(퐹 푌 ),secalculasumando,paracada columna,todaslasfilasdelasfrecuenciasconjuntas. FRECUENCIAS MARGINALES REPRESENTACIÓN DE LOS DATOS Frecuencia marginal:푭 풀 X Y EJEMPLO 1 Pesos / Alturas 159 – 161 161 – 163 163 – 165 165 – 167 167 – 169 169 – 171 Total Filas 48-51 3 2 2 1 0 0 8 51-54 2 3 4 2 2 1 14 54-57 1 3 6 8 5 1 24 57-60 0 0 1 2 8 3 14 60-64 0 0 0 2 4 4 10 Total columnas 6 8 13 15 19 9 70 FRECUENCIAS MARGINALES REPRESENTACIÓN DE LOS DATOS Frecuencia marginal:푭 푿 Pesos 48-51 8 51-54 14 54-57 24 57-60 14 60-64 10 Total columnas 70 퐹 푋 Alturas 159 – 1616 161 – 1638 163 – 16513 165 – 16715 167 – 16919 169 – 1719 Total filas70 퐹 푌 EJEMPLO 1 FRECUENCIAS MARGINALES REPRESENTACIÓN DE LOS DATOS FRECUENCIAS CONDICIONADAS •Seobtienenalestudiarunconjuntomáspequeñodelosdatosformadoporaquellos quetienen,porejemplo,lacaracterística푥 푖 olacaracterística푦 푗 . •Siconsideramoslosdatosquetienenlacaracterística푦 푗 ,lavariableXdefinidasobre esteconjuntosedenominavariablecondicionadaa풀=풚 풋 ,ysesueledenotar mediante:푋| 푌=푦 푗 . •Siconsideramoslosdatosquetienenlacaracterística푥 푖 ,lavariableYdefinidasobre esteconjuntosedenominavariablecondicionadaa푿=풙 풊 ,ysesueledenotar mediante:푌| 푋=푥 푖 . REPRESENTACIÓN DE LOS DATOS Pesos / Tallas 159 – 161 161 – 163 163 – 165 165 – 167 167 – 169 169 – 171 Total Filas 48-51 3 2 2 1 0 0 8 51-54 2 3 4 2 2 1 14 54-57 1 3 6 8 5 1 24 57-60 0 0 1 2 8 3 14 60-64 0 0 0 2 4 4 10 Total columnas 6 8 13 15 19 9 70 Frecuencias absolutas condicionadas (al valor de la fila o la columna) Y X FRECUENCIAS CONDICIONADAS REPRESENTACIÓN DE LOS DATOS EJEMPLO 1 Altura Peso •Frecuencias relativas de la variable Y (ALTURA) condicionada al valor x=54 de la variable X (PESO). 풀| 푿=ퟓퟒ 풇(풚 풋 | 푿=ퟓퟒ ) Frecuencias relativas condicionada FRECUENCIAS CONDICIONADAS REPRESENTACIÓN DE LOS DATOS EJEMPLO 1 •Elgraninterésdeanalizardosvariablesconjuntamenteesconocersiexiste onorelacionesentreellas. •Losdoscasosextremosenlarelaciónentredosvariablesson: ➢Laausenciaderelación:Independencia. Elconocimientodeunavariablenopermiteconocernadasobrelaotravariable. ➢ElcasodedependenciafuncionalY=f(X). LavariableYdependefuncionalmentedeX.ElconocimientodeXpermiteconocer,deforma exacta,losvaloresquetomaY. MEDIDAS DE DEPENDENCIA DEPENDENCIA ENTRE VARIABLES •Nosvaainteresarestudiarloscasosenlosquesabemosquedosvariables estánrelacionadas,peronoexisteunadependenciafuncionalexacta. •Esteeselcasodedependenciaestadística,enelquesepuededescribir, aproximadamente,elcomportamientodeunavariableapartirdeotrau otrasvariables: Y≈f(X)(aprox.igual) MEDIDAS DE DEPENDENCIA DEPENDENCIA ENTRE VARIABLES •Todalainformaciónsobrelarelaciónentredosvariableslaproveelafunción dedistribuciónconjunta. •Dosvariablesestadísticassonindependientessiysólosi: •Existenunaseriedegráficos/medidasquenosvanapermitiranalizarla relacióndedependencia: 푓 푖,푗 =푓 푋푖 ∙푓 푌푖 Frecuencia relativa conjunta Frecuencia relativa marginal MEDIDAS DE DEPENDENCIA DEPENDENCIA ENTRE VARIABLES •Diagrama de dispersión. •Covarianza. •Correlación. •Larepresentaciónmásútilparamostrarlarelaciónentredosvariables continuassinagrupareseldiagramadedispersión. •Cadapar (푥 푖 ,푦 푗 ) se representacomounpuntodelplanocartesiano. DIAGRAMA DE DISPERSIÓN MEDIDAS DE DEPENDENCIA EJEMPLO 1 Los km recorridos parecen reducirse al aumentar el número de caballos. (Mayor consumo) •Analizamos la potencia (horsepower) de 155 coches frente al gasto de gasolina (K.p.l. = Km por litro): EJEMPLO 2 K.p.l . DIAGRAMA DE DISPERSIÓN MEDIDAS DE DEPENDENCIA TIPOS DE RELACIONES Relación lineal negativaRelación lineal positiva DIAGRAMA DE DISPERSIÓN MEDIDAS DE DEPENDENCIA Relación no linealAusencia de relación TIPOS DE RELACIONES DIAGRAMA DE DISPERSIÓN MEDIDAS DE DEPENDENCIA DEPENDENCIA ESTADÍSTICA LINEAL 푌=푎+푏푋+휖 흐=푡é푟푚푖푛표푎푙푒푎푡표푟푖표 푋,푌=푣푎푟.푒푠푡푎푑í푠푡푖푐푎푠 •Lasdosmedidasmásutilizadasparacuantificarelgradoysentidodela dependencialinealson: 푌≈푎+푏푋 (dependencia lineal estadística) MEDIDAS DE DEPENDENCIA •Covarianza. •Correlación. •Nosindicasiladependenciaentrelasvariablesespositivaonegativa. •Sumagnituddependedelasunidades. •Unvaloraltonosiempresignificaunarelaciónfuerte. •Silasvariablessonestadísticamenteindependientes(engeneral)entonces lacovarianzaesnula(elrecíproconoesválidoengeneral). MEDIDAS DE DEPENDENCIA LINEAL COVARIANZA •Para datos no agrupados: •Para datos agrupados en tabla de frecuencias: 푉 푥푦 = 푓 푖푗 ( 푥 푖 −푥 ) 푦 푗 −푦 = 푗푖 푓 푖푗 푥 푖 푦 푗 푗푖 −푥 푦 푉 푥 푦 = 1 푁 ( 푥 푖 − 푥 ) ( 푦 푖 − 푦 ) = 1 푁 푁 푖 = 1 푥 푖 푦 푖 푁 푖 = 1 − 푥 푦 N = nº de muestras (푥 푖 ,푦 푖 ) MEDIDAS DE DEPENDENCIA LINEAL COVARIANZA •Midelamagnitudyladireccióndeladependencialineal. •Esadimensional.Esunacovarianzanormalizada. •Silasvariablessonestadísticamenteindependientes(engeneral)entoncesla correlaciónesnula(elrecíproconoesválidoengeneral). CORRELACIÓN LINEAL MEDIDAS DE DEPENDENCIA LINEAL •Tiene el mismo signo que la covarianza. •Mide las relaciones lineales. 푟= 푉 푥푦 푉 푥 푉 푦 CORRELACIÓN LINEAL MEDIDAS DE DEPENDENCIA LINEAL •−1≤푟 푥푦 ≤1 •Decimos que las variables están incorreladas ⟺푟=0 •Hay relación lineal perfecta ⟺푟=1표푟=−1 •Cuanto más cerca esté de 1 o -1 mejor será el grado de relación lineal. OBSERVACIONES CORRELACIÓN LINEAL MEDIDAS DE DEPENDENCIA LINEAL (푥 푖 ,푦 푖 ) 푦 푥 Buscamos la ecuación de una recta que “aproxime lo mejor posible” a todos los puntos MODELOS DE REGRESIÓN MODELO DE REGRESIÓN LINEAL 푌=푎+푏푋 푌= 푌+휖 RECTA DE REGRESIÓN Predictor, regresoro variable explicativa variable dependiente o de respuesta (푥 푖 ,푦 푖 ) 푦 푥 ¿Qué recta elijo? ¿Cuáles son los coeficientes a y b óptimos? MODELOS DE REGRESIÓN MODELO DE REGRESIÓN LINEAL ( 푥 푖 , 푦 푖 ) 푦 푥 푦 푖 Valor observado 푦 푖 Valor predicho por la recta 푒 푖 “Error de predicción” o “residuos” Error de predicción = 푦 푖 − 푦 푖 donde ෝ푦 푖 =푎+푏푥 푖 MODELOS DE REGRESIÓN MODELO DE REGRESIÓN LINEAL 푥 푖 CRITERIO DE MÍNIMOS CUADRADOS 푌=푎+푏푋 푏= 푉 푥푦 푉 푥 2 푎= 푦−푏 푥 La recta de regresión siempre pasa por el punto ( 푥, 푦) Coeficientes del modelo de regresión →a y b MODELOS DE REGRESIÓN MODELO DE REGRESIÓN LINEAL MODELO DE REGRESIÓN POLINOMIAL CRITERIO DE MÍNIMOS CUADRADOS •Buscamos EL POLINOMIO que “aproxime lo mejor posible” a todos los puntos •Cuadrática. •Cúbica. •... 푒 푖 =푦 푖 −ෝ푦 푖 ෝ푦 푖 Error de predicción variable de respuesta MODELOS DE REGRESIÓN MEDIDA DEL ERROR DEL MODELO (BONDAD DE AJUSTE) •SUMA DE CUADRADOS DE ERRORES (error de predicción): 푉 푒 2 = σ 푖=1 푁 (푦 푖 − 푦 푖 ) 2 푁 •Varianza de los errores: •Fórmula de descomposición de la varianza de Y: 푉 푌 2 =푉 푌 2 +푉 푒 2 •COEFICIENTE DE DETERMINACIÓN: 푅 2 = 푉 푌 2 푉 푌 2 Regresión lineal 푅 2 =푟 푥푦 2 푆퐶퐸= 푖=1 푁 (푦 푖 − 푦 푖 ) 2 Difícil de interpretar MODELOS DE REGRESIÓN •LavariableV1representalavelocidaddelvientoregistradaenlalocalización1,mientras quelavariableV2representalasvelocidadesregistradasenesosmismosinstantesenla localización2.Setieneuntotalde115paresdemedidas. LOC. 1 Media = 2.51 Varianza = 1.91 covarianza(V1,V2) = 1.995 EJEMPLO 3 LOC. 2 Media = 3.28 Varianza = 2.36 MODELOS DE REGRESIÓN MODELO DE REGRESIÓN LINEAL (RECTA DE REGRESIÓN) •Enlalocalización1sevaaestablecerunsistemainformáticoparalatelemedidadela velocidaddelviento,peronoparalalocalización2.Sequierecalcularlarectade regresiónquepermitapredecirlavelocidaddelalocalización2sabiendoladela localización1. 푉 2 =푎+푏푉 1 푟 푥푦 = 푉 푥푦 푉 푥 푉 푦 = 1.995 1.912.36 =0.94 (Estimación lineal de 푉 2 ) EJEMPLO 3 MODELOS DE REGRESIÓN MODELO DE REGRESIÓN LINEAL (RECTA DE REGRESIÓN) •Si, por ejemplo, en la localización 1 se mide una velocidad de viento de 5 m/s, la predicción en la localización 2 es de un viento de: 0.657 + 1.045x5 = 5.88 m/s 푏= 푉 푥푦 푉 푥 2 = 1.995 1.91 =1.045 EJEMPLO 3 MODELOS DE REGRESIÓN MODELO DE REGRESIÓN LINEAL (RECTA DE REGRESIÓN) 푎= 푦−푏 푥=3.28−1.045×2.51=0.657 푉 2 =0.657+1.045×푉 1