PyE
pdf

Clases presenciales Carpeta / Tema_1_Descriptiva_Bivariada_25_26.pdf



ESTADÍSTICA DESCRIPTIVA
BIVARIADA
Prof. Juan José Martín Sotoca
Dep. de Matemática aplicada a las TIC
E.T.S.I.S.I. (Universidad Politécnica de Madrid)
Probabilidad y Estadística
(ETSISI –UPM)
Curso 25-26

•DEFINICIONES.
•REPRESENTACIÓN DE DATOS.
-Tabla de frecuencias conjunta.
-Representaciones gráficas: diagrama de dispersión.
•MEDIDAS DE DEPENDENCIA LINEAL
-Covarianza.
-Correlación.
•MODELOS DE REGRESIÓN
ÍNDICE
ESTADÍSTICA DESCRIPTIVA BIVARIADA

DEFINICIONES
•Vamosamedirdoscaracterísticas(XeY:variablesestadísticas)sobrecada
individuo/elemento.
•Unamuestradelapoblaciónconsistiráenparesordenados(푥,푦)deambas
característicasobservadassobrecadaindividuo.
•Lafrecuenciaconjuntaabsoluta,푭
풊풋
,eselnúmerodeindividuosquepresentan
simultáneamentelascaracterísticas푥
푖
e푦
푗
.
•Lafrecuenciaconjuntarelativa,풇
풊풋
,eslaproporcióndeindividuosquepresentan
simultáneamentelascaracterísticas푥
푖
e푦
푗
.

TABLA DE FRECUENCIAS BIVARIANTE
REPRESENTACIÓN DE LOS DATOS
EJEMPLO 1
•Sehanestudiadoelpeso(X)ylaaltura(Y)de70individuosobteniéndoselosdatosdelasiguiente
tabla:
•Tabla de doble entrada que muestra la frecuencia conjunta absoluta o 
relativa de cada valor (푥,푦) observado.
•Encadaceldatenemoslafrecuenciaconjuntaabsoluta,푭
풊풋
.
Pesos / 
Alturas
159 – 161161 – 163163 – 165165 – 167167 – 169169 – 171
48-51
322100
51-54
234221
54-57
136851
57-60
001283
60-64000244

Pesos / 
Alturas
159 – 161161 – 163163 – 165165 – 167167 – 169169 – 171
Total 
Filas
48-51
0.040.030.030.010.000.00
0.11
51-54
0.030.040.060.030.030.01
0.20
54-57
0.010.040.090.110.070.01
0.34
57-60
0.000.000.010.030.110.04
0.20
60-640.000.000.000.030.060.060.14
Total 
columnas
0.090.110.190.210.270.131.00
•Encadaceldatenemoslafrecuenciaconjuntarelativa,풇
풊풋
.
EJEMPLO 1
ퟑ
ퟕퟎ
=ퟎ.ퟎퟒ
TABLA DE FRECUENCIAS BIVARIANTE
REPRESENTACIÓN DE LOS DATOS

EJEMPLO 2
HISTOGRAMA
REPRESENTACIÓN DE LOS DATOS

•Seobtienenalestudiarunadelasvariablesdeformaindependientedela
otra.
•LadistribuciónmarginaldelavariableX,(퐹
푋
),secalculasumando,paracada
fila,todaslascolumnasdelasfrecuenciasconjuntas.
•LadistribuciónmarginaldelavariableY,(퐹
푌
),secalculasumando,paracada
columna,todaslasfilasdelasfrecuenciasconjuntas.
FRECUENCIAS MARGINALES
REPRESENTACIÓN DE LOS DATOS

Frecuencia marginal:푭
풀
X
Y
EJEMPLO 1
Pesos / 
Alturas
159 – 161
161 – 163
163 – 165
165 – 167
167 – 169
169 – 171
Total 
Filas
48-51
3
2
2
1
0
0
8
51-54
2
3
4
2
2
1
14
54-57
1
3
6
8
5
1
24
57-60
0
0
1
2
8
3
14
60-64
0
0
0
2
4
4
10
Total 
columnas
6
8
13
15
19
9
70
FRECUENCIAS MARGINALES
REPRESENTACIÓN DE LOS DATOS
Frecuencia marginal:푭
푿

Pesos
48-51
8
51-54
14
54-57
24
57-60
14
60-64
10
Total 
columnas
70
퐹
푋
Alturas
159 – 1616
161 – 1638
163 – 16513
165 – 16715
167 – 16919
169 – 1719
Total filas70
퐹
푌
EJEMPLO 1
FRECUENCIAS MARGINALES
REPRESENTACIÓN DE LOS DATOS

FRECUENCIAS CONDICIONADAS
•Seobtienenalestudiarunconjuntomáspequeñodelosdatosformadoporaquellos
quetienen,porejemplo,lacaracterística푥
푖
olacaracterística푦
푗
.
•Siconsideramoslosdatosquetienenlacaracterística푦
푗
,lavariableXdefinidasobre
esteconjuntosedenominavariablecondicionadaa풀=풚
풋
,ysesueledenotar
mediante:푋|
푌=푦
푗
.
•Siconsideramoslosdatosquetienenlacaracterística푥
푖
,lavariableYdefinidasobre
esteconjuntosedenominavariablecondicionadaa푿=풙
풊
,ysesueledenotar
mediante:푌|
푋=푥
푖
.
REPRESENTACIÓN DE LOS DATOS

Pesos / 
Tallas
159 – 161
161 – 163
163 – 165
165 – 167
167 – 169
169 – 171
Total 
Filas
48-51
3
2
2
1
0
0
8
51-54
2
3
4
2
2
1
14
54-57
1
3
6
8
5
1
24
57-60
0
0
1
2
8
3
14
60-64
0
0
0
2
4
4
10
Total 
columnas
6
8
13
15
19
9
70
Frecuencias absolutas condicionadas 
(al valor de la fila o la columna)
Y
X
FRECUENCIAS CONDICIONADAS
REPRESENTACIÓN DE LOS DATOS
EJEMPLO 1
Altura
Peso

•Frecuencias relativas de la variable Y (ALTURA) condicionada al valor x=54 de la 
variable X (PESO).
풀|
푿=ퟓퟒ
풇(풚
풋
|
푿=ퟓퟒ
)
Frecuencias relativas 
condicionada 
FRECUENCIAS CONDICIONADAS
REPRESENTACIÓN DE LOS DATOS
EJEMPLO 1

•Elgraninterésdeanalizardosvariablesconjuntamenteesconocersiexiste
onorelacionesentreellas.
•Losdoscasosextremosenlarelaciónentredosvariablesson:
➢Laausenciaderelación:Independencia.
Elconocimientodeunavariablenopermiteconocernadasobrelaotravariable.
➢ElcasodedependenciafuncionalY=f(X).
LavariableYdependefuncionalmentedeX.ElconocimientodeXpermiteconocer,deforma
exacta,losvaloresquetomaY.
MEDIDAS DE DEPENDENCIA
DEPENDENCIA ENTRE VARIABLES

•Nosvaainteresarestudiarloscasosenlosquesabemosquedosvariables
estánrelacionadas,peronoexisteunadependenciafuncionalexacta.
•Esteeselcasodedependenciaestadística,enelquesepuededescribir,
aproximadamente,elcomportamientodeunavariableapartirdeotrau
otrasvariables:
Y≈f(X)(aprox.igual)
MEDIDAS DE DEPENDENCIA
DEPENDENCIA ENTRE VARIABLES

•Todalainformaciónsobrelarelaciónentredosvariableslaproveelafunción
dedistribuciónconjunta.
•Dosvariablesestadísticassonindependientessiysólosi:
•Existenunaseriedegráficos/medidasquenosvanapermitiranalizarla
relacióndedependencia:
푓
푖,푗
=푓
푋푖
∙푓
푌푖
Frecuencia relativa 
conjunta
Frecuencia relativa 
marginal
MEDIDAS DE DEPENDENCIA
DEPENDENCIA ENTRE VARIABLES
•Diagrama de dispersión.
•Covarianza.
•Correlación.

•Larepresentaciónmásútilparamostrarlarelaciónentredosvariables
continuassinagrupareseldiagramadedispersión.
•Cadapar (푥
푖
,푦
푗
) se representacomounpuntodelplanocartesiano.
DIAGRAMA DE DISPERSIÓN
MEDIDAS DE DEPENDENCIA
EJEMPLO 1

Los km recorridos parecen 
reducirse al aumentar el 
número de caballos.
(Mayor consumo)
•Analizamos la potencia (horsepower) de 155 coches frente al gasto de 
gasolina (K.p.l. = Km por litro):
EJEMPLO 2
K.p.l
.
DIAGRAMA DE DISPERSIÓN
MEDIDAS DE DEPENDENCIA

 
 
 
 
TIPOS DE RELACIONES
Relación lineal negativaRelación lineal positiva
DIAGRAMA DE DISPERSIÓN
MEDIDAS DE DEPENDENCIA

Relación no linealAusencia de relación 
TIPOS DE RELACIONES
DIAGRAMA DE DISPERSIÓN
MEDIDAS DE DEPENDENCIA

DEPENDENCIA ESTADÍSTICA LINEAL
푌=푎+푏푋+휖
흐=푡é푟푚푖푛표푎푙푒푎푡표푟푖표
푋,푌=푣푎푟.푒푠푡푎푑í푠푡푖푐푎푠
•Lasdosmedidasmásutilizadasparacuantificarelgradoysentidodela
dependencialinealson:
푌≈푎+푏푋
(dependencia lineal estadística)
MEDIDAS DE DEPENDENCIA
•Covarianza.
•Correlación.

•Nosindicasiladependenciaentrelasvariablesespositivaonegativa.
•Sumagnituddependedelasunidades.
•Unvaloraltonosiempresignificaunarelaciónfuerte.
•Silasvariablessonestadísticamenteindependientes(engeneral)entonces
lacovarianzaesnula(elrecíproconoesválidoengeneral).
MEDIDAS DE DEPENDENCIA LINEAL
COVARIANZA

•Para datos no agrupados:
•Para datos agrupados en tabla de frecuencias:
푉
푥푦
=  푓
푖푗
(
푥
푖
−푥 
)
 푦
푗
−푦  =
푗푖
   푓
푖푗
푥
푖
푦
푗
푗푖
 −푥 푦  
푉
푥
푦
=
1
푁
 
(
푥
푖
−
푥
 
)
(
푦
푖
−
푦
 
)
=
1
푁
푁
푖
=
1
 
 
푥
푖
푦
푖
푁
푖
=
1
 
−
푥
 
푦
 
 
N = nº de muestras (푥
푖
,푦
푖
)
MEDIDAS DE DEPENDENCIA LINEAL
COVARIANZA

•Midelamagnitudyladireccióndeladependencialineal.
•Esadimensional.Esunacovarianzanormalizada.
•Silasvariablessonestadísticamenteindependientes(engeneral)entoncesla
correlaciónesnula(elrecíproconoesválidoengeneral).
CORRELACIÓN LINEAL
MEDIDAS DE DEPENDENCIA LINEAL

•Tiene el mismo signo que la covarianza.
•Mide las relaciones lineales.
푟=
푉
푥푦
푉
푥
푉
푦
CORRELACIÓN LINEAL
MEDIDAS DE DEPENDENCIA LINEAL

•−1≤푟
푥푦
≤1
•Decimos que las variables están incorreladas ⟺푟=0
•Hay relación lineal perfecta ⟺푟=1표푟=−1
•Cuanto más cerca esté de 1 o -1 mejor será el grado de relación lineal.
OBSERVACIONES
CORRELACIÓN LINEAL
MEDIDAS DE DEPENDENCIA LINEAL

(푥
푖
,푦
푖
) 
푦
 
푥 
Buscamos la ecuación de una recta 
que “aproxime lo mejor posible” a 
todos los puntos
MODELOS DE REGRESIÓN
MODELO DE REGRESIÓN LINEAL
෠
푌=푎+푏푋
푌=
෠
푌+휖
RECTA DE 
REGRESIÓN
Predictor, regresoro 
variable explicativa
variable 
dependiente o de 
respuesta

(푥
푖
,푦
푖
) 
푦
 
푥 
¿Qué recta elijo?
¿Cuáles son los coeficientes a y b óptimos?
MODELOS DE REGRESIÓN
MODELO DE REGRESIÓN LINEAL

(
푥
푖
,
푦
푖
)
 
푦
 
푥 
푦
푖
 
Valor observado
푦
 
푖
 
Valor predicho 
por la recta
푒
푖
 
“Error de predicción” 
o “residuos”
Error de predicción = 푦
푖
− 푦
푖
donde ෝ푦
푖
=푎+푏푥
푖
MODELOS DE REGRESIÓN
MODELO DE REGRESIÓN LINEAL
푥
푖

CRITERIO DE MÍNIMOS CUADRADOS
෠
푌=푎+푏푋
푏=
푉
푥푦
푉
푥
2
푎= 푦−푏 푥
La recta de regresión 
siempre pasa por el 
punto ( 푥, 푦)
Coeficientes del modelo 
de regresión →a y b
MODELOS DE REGRESIÓN
MODELO DE REGRESIÓN LINEAL

MODELO DE REGRESIÓN POLINOMIAL
CRITERIO DE MÍNIMOS CUADRADOS
•Buscamos EL POLINOMIO que “aproxime lo mejor posible” a todos los puntos
•Cuadrática.
•Cúbica.
•...
푒
푖
=푦
푖
−ෝ푦
푖
ෝ푦
푖
Error de predicción
variable de 
respuesta
MODELOS DE REGRESIÓN

MEDIDA DEL ERROR DEL MODELO (BONDAD DE AJUSTE)
•SUMA DE CUADRADOS DE ERRORES (error de predicción):
푉
푒
2
=
σ
푖=1
푁
(푦
푖
− 푦
푖
)
2
푁
•Varianza de los errores:
•Fórmula de descomposición de la varianza de Y:
푉
푌
2
=푉
෠
푌
2
+푉
푒
2
•COEFICIENTE DE DETERMINACIÓN:
푅
2
=
푉
෠
푌
2
푉
푌
2
Regresión lineal
푅
2
=푟
푥푦
2
푆퐶퐸= 
푖=1
푁
(푦
푖
− 푦
푖
)
2
Difícil de interpretar
MODELOS DE REGRESIÓN

•LavariableV1representalavelocidaddelvientoregistradaenlalocalización1,mientras
quelavariableV2representalasvelocidadesregistradasenesosmismosinstantesenla
localización2.Setieneuntotalde115paresdemedidas.
LOC. 1
Media = 2.51 
Varianza = 1.91
covarianza(V1,V2) = 1.995
EJEMPLO 3
LOC. 2
Media = 3.28 
Varianza = 2.36
MODELOS DE REGRESIÓN
MODELO DE REGRESIÓN LINEAL (RECTA DE REGRESIÓN)

•Enlalocalización1sevaaestablecerunsistemainformáticoparalatelemedidadela
velocidaddelviento,peronoparalalocalización2.Sequierecalcularlarectade
regresiónquepermitapredecirlavelocidaddelalocalización2sabiendoladela
localización1.
෢
푉
2
=푎+푏푉
1
푟
푥푦
=
푉
푥푦
푉
푥
푉
푦
=
1.995
1.912.36
=0.94
(Estimación lineal de 푉
2
)
EJEMPLO 3
MODELOS DE REGRESIÓN
MODELO DE REGRESIÓN LINEAL (RECTA DE REGRESIÓN)

•Si, por ejemplo, en la localización 1 se mide una velocidad de viento de 5 m/s, la predicción 
en la localización 2 es de un viento de:
0.657 + 1.045x5 = 5.88 m/s
푏=
푉
푥푦
푉
푥
2
=
1.995
1.91
=1.045
EJEMPLO 3
MODELOS DE REGRESIÓN
MODELO DE REGRESIÓN LINEAL (RECTA DE REGRESIÓN)
푎= 푦−푏 푥=3.28−1.045×2.51=0.657
෠
푉
2
=0.657+1.045×푉
1