PyE
pdf

TEMA 1 descriptiva bivariada y regresión Carpeta / Tema_1_Descriptiva_Bivariada.pdf



ESTADÍSTICA DESCRIPTIVA
BIVARIADA
Dep. de Matemática aplicada a las TIC
E.T.S.I.S.I. (Universidad Politécnica de Madrid)
Probabilidad y Estadística
(ETSISI –UPM)

•DEFINICIONES.
•REPRESENTACIÓN DE DATOS.
-Tabla de frecuencias conjunta.
-Representaciones gráficas: diagrama de dispersión.
•MEDIDAS DE DEPENDENCIA LINEAL
-Covarianza.
-Correlación.
•MODELOS DE REGRESIÓN
ÍNDICE
ESTADÍSTICA DESCRIPTIVA BIVARIADA

DEFINICIONES
•Vamosamedirdoscaracterísticas(XeY:variablesestadísticas)sobrecada
individuo/elemento.
•Unamuestradelapoblaciónconsistiráenparesordenados(푥,푦)deambas
característicasobservadassobrecadaindividuo.
•Lafrecuenciaconjuntaabsoluta,푭
풊풋
,eselnúmerodeindividuosquepresentan
simultáneamentelascaracterísticas푥
푖
e푦
푗
.
•Lafrecuenciaconjuntarelativa,풇
풊풋
,eslaproporcióndeindividuosquepresentan
simultáneamentelascaracterísticas푥
푖
e푦
푗
.

TABLA DE FRECUENCIAS BIVARIANTE
REPRESENTACIÓN DE LOS DATOS
EJEMPLO 1
•Sehanestudiadoelpeso(X)ylaaltura(Y)de70individuosobteniéndoselosdatosdelasiguiente
tabla:
•Tabla de doble entrada que muestra la frecuencia conjunta absoluta o 
relativa de cada valor (푥,푦) observado.
•Encadaceldatenemoslafrecuenciaconjuntaabsoluta,푭
풊풋
.
Pesos / 
Tallas
159 – 161161 – 163163 – 165165 – 167167 – 169169 – 171
48
322100
51
234221
54
136851
57
001283
60000244

Pesos / 
Tallas
159 – 161161 – 163163 – 165165 – 167167 – 169169 – 171
Total 
Filas
48
0.040.030.030.010.000.00
0.11
51
0.030.040.060.030.030.01
0.20
54
0.010.040.090.110.070.01
0.34
57
0.000.000.010.030.110.04
0.20
600.000.000.000.030.060.060.14
Total 
columnas
0.090.110.190.210.270.131.00
•Encadaceldatenemoslafrecuenciaconjuntarelativa,풇
풊풋
.
EJEMPLO 1
ퟑ
ퟕퟎ
=ퟎ.ퟎퟒ
TABLA DE FRECUENCIAS BIVARIANTE
REPRESENTACIÓN DE LOS DATOS

•Seobtienenalestudiarunadelasvariablesdeformaindependientedela
otra.
•LadistribuciónmarginaldelavariableX,(퐹
푋
),secalculasumando,paracada
fila,todaslascolumnasdelasfrecuenciasconjuntas.
•LadistribuciónmarginaldelavariableY,(퐹
푌
),secalculasumando,paracada
columna,todaslasfilasdelasfrecuenciasconjuntas.
FRECUENCIAS MARGINALES
REPRESENTACIÓN DE LOS DATOS

Frecuencia marginal:푭
풀
X
Y
EJEMPLO 1
Pesos / 
Tallas
159 – 161161 – 163163 – 165165 – 167167 – 169169 – 171
Total 
Filas
48
322100
8
51
234221
14
54
136851
24
57
001283
14
6000024410
Total 
columnas
68131519970
FRECUENCIAS MARGINALES
REPRESENTACIÓN DE LOS DATOS
Frecuencia marginal:푭
푿

Pesos
488
5114
5424
5714
6010
Total 
columnas
70
퐹
푋
Tallas
159 – 1616
161 – 1638
163 – 16513
165 – 16715
167 – 16919
169 – 1719
Total filas70
퐹
푌
EJEMPLO 1
FRECUENCIAS MARGINALES
REPRESENTACIÓN DE LOS DATOS

FRECUENCIAS CONDICIONADAS
•Seobtienenalestudiarunconjuntomáspequeñodelosdatosformadoporaquellos
quetienen,porejemplo,lacaracterística푥
푖
olacaracterística푦
푗
.
•Siconsideramoslosdatosquetienenlacaracterística푦
푗
,lavariableXdefinidasobre
esteconjuntosedenominavariablecondicionadaa풀=풚
풋
,ysesueledenotar
mediante:푋|
푌=푦
푗
.
•Siconsideramoslosdatosquetienenlacaracterística푥
푖
,lavariableYdefinidasobre
esteconjuntosedenominavariablecondicionadaa푿=풙
풊
,ysesueledenotar
mediante:푌|
푋=푥
푖
.
REPRESENTACIÓN DE LOS DATOS

Pesos / 
Tallas
159 – 161161 – 163163 – 165165 – 167167 – 169169 – 171
Total 
Filas
48
322100
8
51
234221
14
54
136851
24
57
001283
14
6000024410
Total 
columnas
68131519970
Frecuencias absolutas condicionadas 
(al valor de la fila o la columna)
Y
X
FRECUENCIAS CONDICIONADAS
REPRESENTACIÓN DE LOS DATOS
EJEMPLO 1
Altura
Peso

•Frecuencias relativas de la variable Y (ALTURA) condicionada al valor x=54 de la 
variable X (PESO).
풀|
푿=ퟓퟒ
풇(풚
풋
|
푿=ퟓퟒ
)
Frecuencias relativas 
condicionada 
FRECUENCIAS CONDICIONADAS
REPRESENTACIÓN DE LOS DATOS
EJEMPLO 1

•Elgraninterésdeanalizardosvariablesconjuntamenteesconocersiexiste
onorelacionesentreellas.
•Losdoscasosextremosenlarelaciónentredosvariablesson:
➢Laausenciaderelación:Independencia.
Elconocimientodeunavariablenopermiteconocernadasobrelaotravariable.
➢ElcasodedependenciafuncionalY=f(X).
LavariableYdependefuncionalmentedeX.ElconocimientodeXpermiteconocer,deforma
exacta,losvaloresquetomaY.
MEDIDAS DE DEPENDENCIA
DEPENDENCIA ENTRE VARIABLES

•Nosvaainteresarestudiarloscasosenlosquesabemosquedosvariables
estánrelacionadas,peronoexisteunadependenciafuncionalexacta.
•Esteeselcasodedependenciaestadística,enelquesepuededescribir,
aproximadamente,elcomportamientodeunavariableapartirdeotrau
otrasvariables:
Y≈f(X)(aprox.igual)
MEDIDAS DE DEPENDENCIA
DEPENDENCIA ENTRE VARIABLES

•Todalainformaciónsobrelarelaciónentredosvariableslaproveelafunción
dedistribuciónconjunta.
•Dosvariablesestadísticassonindependientessiysólosi:
•Existenunaseriedegráficos/medidasquenosvanapermitiranalizarla
relacióndedependencia:
•Diagramadedispersión.
•Covarianza.
•Correlación.
푓
푖,푗
=푓
푋푖
∙푓
푌푖
Frecuencia relativa 
conjunta
Frecuencia relativa 
marginal
MEDIDAS DE DEPENDENCIA
DEPENDENCIA ENTRE VARIABLES

•Larepresentaciónmásútilparamostrarlarelaciónentredosvariables
continuassinagrupareseldiagramadedispersión.
•Cadapar (푥
푖
,푦
푗
) se representacomounpuntodelplanocartesiano.
DIAGRAMA DE DISPERSIÓN
MEDIDAS DE DEPENDENCIA
EJEMPLO 1

Los km recorridos parecen 
reducirse al aumentar el 
número de caballos.
(Mayor consumo)
•Analizamos la potencia (horsepower) de 155 coches frente al gasto de 
gasolina (K.p.l. = Km por litro):
EJEMPLO 2
K.p.l
.
DIAGRAMA DE DISPERSIÓN
MEDIDAS DE DEPENDENCIA

 
 
 
 
TIPOS DE RELACIONES
Relación lineal negativaRelación lineal positiva
DIAGRAMA DE DISPERSIÓN
MEDIDAS DE DEPENDENCIA

Relación no linealAusencia de relación 
TIPOS DE RELACIONES
DIAGRAMA DE DISPERSIÓN
MEDIDAS DE DEPENDENCIA

DEPENDENCIA ESTADÍSTICA LINEAL
푌=푎+푏푋+휖
흐=푡é푟푚푖푛표푎푙푒푎푡표푟푖표
푋,푌=푣푎푟.푒푠푡푎푑í푠푡푖푐푎푠
•Lasdosmedidasmásutilizadasparacuantificarelgradoysentidodela
dependencialinealson:
➢Covarianza.
➢Correlación.
푌≈푎+푏푋
(dependencia lineal estadística)
MEDIDAS DE DEPENDENCIA

•Nosindicasiladependenciaentrelasvariablesespositivaonegativa.
•Sumagnituddependedelasunidades.
•Silasvariablessonestadísticamenteindependientes(engeneral)entonces
lacovarianzaesnula(elrecíproconoesválidoengeneral).
MEDIDAS DE DEPENDENCIA LINEAL
COVARIANZA

•Para datos no agrupados:
•Para datos agrupados en tabla de frecuencias:
푉
푥푦
=  푓
푖푗
(
푥
푖
−푥 
)
 푦
푗
−푦  =
푗푖
   푓
푖푗
푥
푖
푦
푗
푗푖
 −푥 푦  
푉
푥푦
=
1
푁
 
(
푥
푖
−푥 
)(
푦
푖
−푦 
)
=
1
푁
푁
푖=1
  푥
푖
푦
푖
푁
푖=1
 −푥 푦  
N = nº de muestras (푥
푖
,푦
푖
)
MEDIDAS DE DEPENDENCIA LINEAL
COVARIANZA

•Midelamagnitudyladireccióndeladependencialineal.
•Esadimensional.Esunacovarianzanormalizada.
•Silasvariablessonestadísticamenteindependientes(engeneral)entoncesla
correlaciónesnula(elrecíproconoesválidoengeneral).
CORRELACIÓN LINEAL
MEDIDAS DE DEPENDENCIA LINEAL

•Tiene el mismo signo que la covarianza.
•Mide las relaciones lineales.
푟=
푉
푥푦
푉
푥
푉
푦
CORRELACIÓN LINEAL
MEDIDAS DE DEPENDENCIA LINEAL

•−1≤푟
푥푦
≤1
•Decimos que las variables están incorreladas ⟺푟=0
•Hay relación lineal perfecta ⟺푟=1표푟=−1
•Cuanto más cerca esté de 1 o -1 mejor será el grado de relación lineal.
OBSERVACIONES
CORRELACIÓN LINEAL
MEDIDAS DE DEPENDENCIA LINEAL

(푥
푖
,푦
푖
) 
푦 
푥 
Buscamos la ecuación de una recta 
que “aproxime lo mejor posible” a 
todos los puntos
MODELOS DE REGRESIÓN
MODELO DE REGRESIÓN LINEAL
෠
푌=푎+푏푋
푌=
෠
푌+휖
RECTA DE 
REGRESIÓN
Predictor, regresoro 
variable explicativa
variable 
dependiente o de 
respuesta

(푥
푖
,푦
푖
) 
푦 
푥 
¿Qué recta elijo?
¿Cuáles son los coeficientes a y b óptimos?
MODELOS DE REGRESIÓN
MODELO DE REGRESIÓN LINEAL

(푥
푖
,푦
푖
) 
푦 
푥 
푦
푖
 
Valor observado
푦 
푖
 
Valor predicho 
por la recta
푒
푖
 
“Error de predicción” 
o “residuos”
Error de predicción = 푦
푖
− 푦
푖
donde ෝ푦
푖
=푎+푏푥
푖
MODELOS DE REGRESIÓN
MODELO DE REGRESIÓN LINEAL
푥
푖

CRITERIO DE MÍNIMOS CUADRADOS
෠
푌=푎+푏푋
푏=
푉
푥푦
푉
푥
2
푎= 푦−푏 푥
La recta de regresión 
siempre pasa por el 
punto ( 푥, 푦)
Coeficientes del modelo 
de regresión →a y b
MODELOS DE REGRESIÓN
MODELO DE REGRESIÓN LINEAL

MODELO DE REGRESIÓN POLINOMIAL
CRITERIO DE MÍNIMOS CUADRADOS
•Buscamos EL POLINOMIO que “aproxime lo mejor posible” a todos los puntos
•Cuadrática.
•Cúbica.
•...
푒
푖
=푦
푖
−ෝ푦
푖
ෝ푦
푖
Error de predicción
variable de 
respuesta
MODELOS DE REGRESIÓN

MEDIDA DEL ERROR DEL MODELO (BONDAD DE AJUSTE)
•SUMA DE CUADRADOS DE ERRORES (error de predicción):
푉
푒
2
=
σ
푖=1
푁
(푦
푖
− 푦
푖
)
2
푁
•Varianza de los errores:
•Fórmula de descomposición de la varianza de Y:
푉
푌
2
=푉
෠
푌
2
+푉
푒
2
•COEFICIENTE DE DETERMINACIÓN:
푅
2
=
푉
෠
푌
2
푉
푌
2
Regresión lineal
푅
2
=푟
푥푦
2
푆퐶퐸= 
푖=1
푁
(푦
푖
− 푦
푖
)
2
Difícil de interpretar 
por no estar 
normalizado
MODELOS DE REGRESIÓN

•LavariableV1representalavelocidaddelvientoregistradaenlalocalización1,mientras
quelavariableV2representalasvelocidadesregistradasenesosmismosinstantesenla
localización2.Setieneuntotalde115paresdemedidas.
LOC. 1
Media = 2.51 
Varianza = 1.91
covarianza(V1,V2) = 1.995
EJEMPLO 3
LOC. 2
Media = 3.28 
Varianza = 2.36
MODELOS DE REGRESIÓN
MODELO DE REGRESIÓN LINEAL (RECTA DE REGRESIÓN)

•Enlalocalización1sevaaestablecerunsistemainformáticoparalatelemedidadela
velocidaddelviento,peronoparalalocalización2.Sequierecalcularlarectade
regresiónquepermitapredecirlavelocidaddelalocalización2sabiendoladela
localización1.
෢
푉
2
=푎+푏푉
1
푟
푥푦
=
푉
푥푦
푉
푥
푉
푦
=
1.995
1.912.36
=0.94
(Estimación lineal de 푉
2
)
EJEMPLO 3
MODELOS DE REGRESIÓN
MODELO DE REGRESIÓN LINEAL (RECTA DE REGRESIÓN)

•Si, por ejemplo, en la localización 1 se mide una velocidad de viento de 5 m/s, la predicción 
en la localización 2 es de un viento de:
0.657 + 1.045x5 = 5.88 m/s
푏=
푉
푥푦
푉
푥
2
=
1.995
1.91
=1.045
EJEMPLO 3
MODELOS DE REGRESIÓN
MODELO DE REGRESIÓN LINEAL (RECTA DE REGRESIÓN)
푎= 푦−푏 푥=3.28−1.045×2.51=0.657
෠
푉
2
=0.657+1.045×푉
1