1 TEMA 2: ANÁLISIS ESTADÍSTICO DE DATOS BIDIMENSIONALES 2.1Tablas de frecuencias bidimensionales. Tablas de contingencia. 2.2 Distribuciones marginales. 2.3 Distribuciones condicionadas. 2.4 Representaciones gráficas. 2.5 Independencia y dependencia en variables estadísticas 2 2.1 Tablas de frecuencias bidimensionales. Tablas de contingencia. •Estas tablas son tablas de doble entrada en las que se recogen los datos de dos características X e Y (pueden ser cuantitativas o cualitativas), medidas sobre los mismos individuos. •En la primera columna se recogen los valores distintosde X, x i , i = 1, ..,k. En la primera fila se recogen los valores distintos de Y, y j , j = 1,2,...,h. •También puede ser que lo que se recoja en la primera fila y/o columna sean los intervalos en los que se han agrupado los datos de las variables X y/o Y en caso de tener muchos datos distintos. •En cada posición (i,j) de la tabla se recogen las frecuencias, absolutas, n ij , y/o relativas, f ij .decada par (x i ,y j ). •Si las dos características X e Y son cualitativas, esta tabla se llama TABLA DE CONTINGENCIA. 3 2.1 Tablas de frecuencias bidimensionales. Tablas de contingencia. Y X y 1 y 2 y 3 .....y h Distribución marginal X x 1 n 11 n 12 n 13 .....n 1h x 2 n 21 n 22 n 23 ......n 2h ::::.....:: ::::.....:: x k n k1 n k2 n k3 ......n kh Distribución marginal Y n 1. 1 1 h j j nn 2. 2 1 h j j nn . 1 h kkj j nn .11 1 k i i nn .22 1 k i i nn . 1 k hih i nn 4 2.2 Distribuciones marginales •En la última columna de la tabla bidimensional suele recogerse la distribución de frecuencias de la variable X, que en este contexto se llama distribución marginal de X. Estaríamos ante un caso de datos unidimensionales, donde cambia un poco la notación que usábamos: Si se trabaja con frecuencias relativas, la notación es f i. •En la última fila de la tabla se recoge la distribución de frecuencias de la variable Y, llamada distribución marginal de Y. . .. 11 El valor tiene frecuencia absoluta donde , 1, 2,..., , nº total de datos ii hk i ij i ji xn n n i k y n n . .. 11 El valortiene frecuencia absolutadonde ,1, 2,...,, nº total de datos jj kh jijj ij yn nnjh ynn 5 Ejemplo 1:Para los 186 datos de alumnos el fichero “alumnos.xls”, vamos a hacer un estudio conjunto de las variablesy X: “Sexo” eY: “Grado de satisfacción ante el funcionamiento de la biblioteca” Obtenemos con Statgraphicsla tabla de contingencia Sexo / Grado de satisfacción 1 nada satisfecho 2 poco satisfecho 3 satis fecho 4 bastante satisfecho 5 muy satisfecho Distribución marginal Sexo 0 (hombre)445133198155 23,66%27,42%17,74%10,22%4,30%83,33% 1 (mujer)108111131 5,38%4,30%5,91%0,54%0,54%16,67% Distribución marginal Grado Satisfacción 545944209186 29,03%31,72%23,66%10,75%4,84%100,00% 6 Distribuciones marginales de las variables X: Sexo eY: Grado de satisfacción Valores para SexoFrecuencia absoluta Hombre (0)155 Mujer (1) 31 Total186 Valores para Grado de satisfacción Frecuencia absoluta Insatisfecho (1)54 Poco satisfecho (2)59 Satisfecho (3)44 Bastante satisfecho (4)20 Muy satisfecho (5)9 Total186 7 A partir de las tablas anteriores, responder a las siguientes preguntas: •¿Qué porcentaje de alumnos son mujeres y además están insatisfechas o poco satisfechas (grado 1 ó2) con el funcionamiento de este servicio? •¿Qué porcentaje de alumnos es varón y tiene un grado de satisfacción alto o muy alto (grados 4 ó5) con el funcionamiento de este servicio? •¿Qué número de mujeres hay entre los alumnos? •¿Qué porcentaje de alumnos satisfechos o bastante satisfechos hay (grados 3 ó4)? 8 2.3 Distribuciones condicionadas •IDEA:Para la variable X, nos interesa conocer la frecuencia que toma el valor x i sabiendo que la variable Y ha tomado el valory j . •A esta la frecuencia la llamaremos FRECUENCIA DE x i CONDICIONADA POR EL VALORy j y la denotaremos como n i/j (f i/j si trabajamos con frecuencias relativas) •La distribución de frecuencias de la variable X sabiendo que Y = y j se llama DISTRIBUCIÓN DE X CONDICIONADA POR Y = y j . A esta distribución de frecuencias la denotamos por X/ Y = y j . •Como ejemplo, vamos a escribir la distribución de frecuencias de X condicionada por Y = y 2 . En este caso el número total de datos es n .2 . Valores de X/ Y = y 2 x 1 x 2 x 3 ....x k n i/2 n 12 n 22 n 32 .....n k2 2.2 1 k i i nn 9 Ejemplo 2:A partir de la tabla de frecuencias bidimensional del ejemplo 1 para las variables “Grado de satisfacción” y “Sexo”, contestar a las preguntas: a) Obtener la distribución condicionada de la variable “Sexo” al valor “Satisfecho” de la variable “Grado de satisfacción”. ¿Qué número de alumnos son hombres si a los que hemos preguntado estaban satisfechos? ¿Qué porcentaje representan sobre los satisfechos? b) Obtener la distribución condicionada de la variable “Grado de satisfacción”condicionado al valor “Hombre” de la variable “Sexo” ¿Qué número de alumnos están muy satisfechos con el servicio del centro de cálculo si a los que hemos preguntado son hombres? ¿Qué porcentaje representan sobre los hombres? 10 Valores para Sexo/ Y = Satisfecho Frecuencia absolutaFrecuencia relativa Hombre330.75 Mujer110.25 Total de Satisfechos441 Distribución condicionada de la variable “Sexo” al valor “Satisfecho” de la variable “Grado de satisfacción”. Distribución condicionada de la variable “Grado de satisfacción” al valor “Hombre” de la variable “Sexo” Grado de satisfacción/ Sexo = Hombre Frecuencia absolutaFrecuencia relativa Insatisfecho440.284 Poco satisfecho510.329 Satisfecho330.213 Bastante satisfecho190.123 Muy satisfecho80.052 Total1551 2.4. Representaciones gráficas 2.4.1 Diagramas para comparar dos grupos distintos de la misma variable: •Diagramas de rectángulos. Diagramas de barras. •Histogramas. •Polígonos de frecuencias. •Diagramas de caja. 2.4.2 Diagrama de dispersión. Matriz de dispersión. 2.4.3. Diagrama de estrella o perfil radial 11 12 Ejemplo 3: Para la variable “Grado de satisfacción” del fichero “alumnos.xls” el gráfico de rectángulos se pueden representar para grupos de casos separados por la variable “Sexo”. Diagramas de rectángulos (o barras) para comparar dos grupos distintos de una variable 13 Esta es otra representación de los diagramas de barras conjuntos para los mismos datos del ejemplo anterior obtenido mediante el programa SPSS. 14 Histogramas para para comparar dos grupos distintos de una variable Ejemplo 4:Para la variable “Altura” del fichero “alumnos.xls”, al pedirle el histograma de la variable por grupos de la variable “Sexo”, devuelve los dos gráficos siguientes. En Statgraphics, hay que pedírselos por separado. 1000 2000 5000 10000 15000 25000 50000 14.0 12.0 10.0 8.0 6.0 4.0 2.0 Población blanca Población negra Indice de integración = 0.71 Ingresos Para la variable “Ingresos de familias de población blanca y negra EE.UU. (1970)”. Índice de integración = área común/área total = 0.71 Polígono de frecuencias para comparar dos grupos distintos de una variable 15 16 Hay que verificar que los datos atípicos no corresponden a errores del archivo. Por ejemplo, el dato 66 corresponde a un varón de altura 166 cm, 66 kg de peso y un 38 de calzado, que entra dentro de lo posible. Diagrama de caja para comparar dos grupos distintos de una variable Ejemplo 5:Para la variable “Altura” del fichero “alumnos.xls” dibujamos los diagramas de caja diferenciados por sexos. 17 Diagrama de caja para dos variables distintas Ejemplo 6:Para las variables “Altura” y“Peso” del fichero “alumnos.xls”, al pedirle los diagramas de caja para comparar ambas variables nosdevuelve el gráfico siguiente. 18 •Este es el gráfico más importante para representar datos de dos variables distintas X e Y, medidas sobre los mismos individuos. •La representación gráfica de los pares que vienen de dos variables estadísticas X e Y sobre unos ejes cartesianos se llama DIAGRAMA DE DIPERSIÓN o DE PUNTOS. •Cuando se estudian conjuntamente dos variables SIEMPRE interesa buscar las relaciones o tendencias que existen entre ellas 1 ii x y i n , , ,..., 2.4.2 Diagrama de dispersión 19 Ejemplo 7:El diagrama de dispersión para las variables X: Altura e Y: Peso del fichero de datos “alumnos.xls” es: 2.4.2 Diagrama de dispersión Aquí se observa una relación lineal entre las variables, es decir, Altura ≈ a*Peso + b. (Teoría de Regresión lineal) Si queremos representar datos de varias variables medidas sobre los mismos individuos, podemos hacerlo dos a dos mediante los diagramas de dispersión. Ejemplo 8:Para las variable Altura, Edady Número de zapato del fichero “alumnos.xls” tendríamos: 20 Altura Edad Zapato Altura Edad Zapato 2.4.2 Matriz de dispersión •Se utiliza cuando para cada individuo queremos estudiar MÁS DE DOS características o variables a la vez. •Para cada individuo, se dibuja un eje por cada característica que se estudia, con un vértice común. Estos ejes se unen mediante un polígono con igual número de lados que de características en estudio. •El valor de cada característica en un individuo es la longitud de cada eje. •A la representación base, donde se dibuja el polígono a usar y lo que se mide en cada eje, se le llama diagrama de estrella llave o clave. 2.4.3 Diagrama de estrella o perfil radial 21 alfabet PIB_capmort_inf Ejemplo 9:Vamos a considerar los datos del fichero “Paises.sgd” y las variables : Porcentaje de alfabetizados, Tasa de mortalidad infantil(muertes por mil nacimientos vivos) y Renta per cápita (PIB), medidaspara una serie de países. DIAGRAMA DE ESTRELLA LLAVE O CLAVE 22 ArgentinaBarbadosBoliviaBrasilColombia Costa RicaCubaChileEcuadorEl Salvador Estados UnidoGuatemalaHaitíHondurasMéxico NicaraguaPanamáParaguayPerúRep. Dominica UruguayVenezuela Comparación de diagramas de estrella de distintos países 23 2.5. Independencia y dependencia en variables estadísticas 2.5.1.Independencia y dependencia en variables estadísticas. Definiciones. 2.5.2. Medidas de dependencia o asociación entre variables cualitativas. 2.5.3. Medidas de dependencia en variables cuantitativas. •Covarianza. •Coeficiente de correlación lineal de Pearson. •Matriz de varianzas-covarianzas y matriz de correlaciones. 24 2.5.1. Definiciones Idea intuitiva: Dos variables X e Y son independientes siel conocer el valor que tomaunade ellasno influyesobrela distribuciónde frecuenciasde la otra. Ejemplo 10: Dos variables que, intuitivamente, son independientes X: Resultado en la ruleta Y: Apuesta hecha Dos variables que, intuitivamente, no son independientes podrían ser: X: Altura de un individuo Y: Peso de un individuo Cuandodos variables no son independientes se dice que son variables dependientes. 25 Entonces,dadasdos variables X e Y, éstaspuedenser: *Variablesindependientes. * Variablesdependientes: podemos distinguir dos tipos 1. Dependencia Funcional: por ejemplo, Velocidad=Espacio/tiempo 2. Dependencia Estadística: por ejemplo, Precio f(superficie) Las variables estadísticas, en caso de tener algún tipo de dependencia, suele ser Dependencia Estadística que es la que vamosa tratar con más detalle. 26 Relación Funcional Las tres situaciones anteriores se recogen gráficamente en los siguientes diagramas de dispersión: Dependencia funcional Dependencia estadística Relación Estadística Independencia Relación Aleatoria 27 VARIABLES ESTADÍSTICAMENTE INDEPENDIENTES Definición: Se dice que la variable X esindependientede la variable Y siTODASlas distribucionescondicionadasX|Y=yj coincidencon la distribuciónde X, para todoj = 1,2,...,h.Entonces, X e Y son independientes ⟺f i/j =f i. ∀i=1,2,...,k y ∀j = 1,2,...,h. La definiciónanterior se puedeescribirentérminosde la distribuciónconjuntade X e Y ysusdistribucionesmarginales. En ese caso, X e Y son independientes ⟺f ij =f i. x f .j ⟺n ij = n i. x n .j /n ∀i=1,2,...,k y ∀j = 1,2,...,h. 28 Observación: La independenciaessiemprerecíproca, esdecir, cuandoX esindependientecon Y, también lo es Y con X. Ejemplo 11: A partir de la tabla de frecuencias bidimensional, comprobar que las variables X e Y son independientes Observación:Con datos reales, es prácticamente imposible que se cumplan todaslas igualdades de la definición de independencia. 29 X / Y1234Marginal X 1352414 26104828 3122081656 Marginal Y2135142898 30 Grado de satisfacciónFrec relativa Insatisfecho (1)0.290 Poco satisfecho (2)0.317 Satisfecho (3)0.236 Bastante satisfecho (4)0.107 Muy satisfecho (5)0.048 Total1 Ejemplo 12: Las variables Sexoy Grado de satisfacción NO son independientes. Comparemos las distribuciones de frecuencia marginal de Y: grado de satisfacción y distribución de frecuencias de Y/ X = Mujer Grado de satisfacción/ Sexo =Mujer Frec relativa Insatisfecho0.322 Poco satisfecho0.258 Satisfecho0.355 Bastante satisfecho0.032 Muy satisfecho0.032 Total1 Como ambas distribuciones de frecuencias no coinciden podríamos pensar que X e Y NO son independientes. Sin embargo, las diferencias no son muy grandes ¿Qué se hace? Se realiza un Contraste de hipótesis, técnicaque estudiaréisel curso que viene. 2.5.2 Medidas de asociación o dependencia entre variables cualitativas •Cuando las dos variables X e Y son cualitativasno se habla de dependencia sino de ASOCIACIÓNentre ellas. •Para medir el grado de asociación entre las variables X e Y vamos a medir las diferencias entre las frecuencias del par (A i , B j ), n ij , y los valores n * ij = n i. x n .j /n. •Si las variables fuesen independientes, n ij deberían de ser similares a n * ij . Si estos valores son muy distintos, las variables serán dependientes o estarán asociadas. •Usaremos una técnica llamada contraste de hipótesis. Esta técnica permite tomar decisiones de muchos tipos sobre una variable X o dos variables X e Y. En concreto, permite decidirsiX e Y son o no variables asociadaso dependientes. 31 Medidas de asociación entre variables cualitativas Vamos a ver un ejemplo de contraste de hipótesis para el caso de que X e Y sean cualitativas. Queremos ver si X e Y están asociadas o no. El estadísticoque se usa en este contraste se llama COEFICIENTE DE CONTINGENCIA La decisión a tomar es: •Hípotesis Nula: χ 2 = 0 (X e Y son independientes). •Hípotesis Alternativa: χ 2 > 0 (X e Y están asociadas). 32 2 * 2 * 11 ij ij kh ij ij nn n La decisión a tomar es: •Si el valor del estadístico es próximo a 0, las variables X e Y son independientes. •Si el valor del estadístico toma valores “grandes” diremos que existe asociación o dependencia entre X e Y. ¿Cuándo decimos que el valor del estadístico es próximo a 0 o cuándo es “grande”? Como resultado de un contraste se obtiene un valor, llamado p-valor. Este valor se interpreta como: •p-valor cercano a 0 ⟺aceptar la hipótesis alternativa ⟺las variables son dependientes, tanto más dependientes cuanto más cercano a 0 sea el p-valor. •p-valor cercano a 1⟺aceptar la hipótesis nula ⟺las variables son independientes, siendo esta decisión más segura cuanto más cercano a 1 sea el p-valor. 33 34 Ejemplo 13:Para los 186 datos de alumnos el fichero “alumnos.xls”, vamos estudiar si existe asociación y en qué grado entre las variables cualitativas “Grado de satisfacción ante el funcionamiento de la biblioteca” y “Sexo” . Ya vimos que estas variables NO cumplían exactamente la definición de independencia, pero no sabíamos valorar si las diferencias se podían considerar grandes o pequeñas. Para ello, vamos a realizar el contraste de hipótesis anterior, que nos da el valor del estadístico del contraste y el p-valor: Puesto que el p-valor es no es muy cercano a 0, no se puede aceptar la hipótesis alternativa. por tanto, nos quedamos con la hipótesis nula es decir, ACEPTARÍAMOS que las variables son independientes. PruebaEstadísticoP-valor Chi-Cuadrada4,9040,2973 Sean X e Y variables cuantitativas medidas sobre los mismos individuos. Existen básicamente dos medidas para medir el grado de relación o dependencia entre las dos variables cuantitativas: Covarianza Coeficiente de correlación lineal de Pearson 2.5.3 Medidas de dependencia en variables cuantitativas 35 Veamos algunos gráficos de dispersión que nos ayudarán a distinguir los distintos tipos de dependencia entre dos variables cuantitativas. 36 b) variables independientes a), c) d) variables dependientes -Es una medida de la relación lineal entre X e Y. -Depende de las unidades de X e Y yde la magnitud de los datos. Covarianza < 0 ↔ Relación lineal inversa. Situación del gráfico c) Covarianza > 0 ↔ Relación lineal directa. Situación del gráfico a). Covarianza = 0 ↔ Sin relación lineal Situación de gráficos b) y d) Importante: •Si X, Y son variables son independientes ⟹C푋,푌=0.(gráfb) •Si C(X,Y) =0⇏X, Y sean independientes (gráfico d). 1 1 1 1 ( )( ) ( , ) h k h k i j ij i j ij j i j i XY x x y y n x y n C X Y S x y nn Covarianza 37 38 Coeficiente de correlación lineal de Pearson Ejemplo 14: Tomemos los datos del fichero alumnos.xlxsy las variables X: peso de un alumno, Y: altura del alumno. Resulta que Covarianza = 53,87 ¿este valor indica una dependencia lineal grande o pequeña? Necesitamos una medida adicional que no dependa de la magnitud de los datos ni de las unidades de medida. 466686106126 Peso 150 160 170 180 190 200 Altura Gráfico de Altura vs Peso Es una medida adimensionalque permite saber, en términos absolutos, si la dependencia lineal entre dos variables X e Y es grande o pequeña y que permite hacer comparaciones entre pares de variables diferentes. COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON: XY XY XY S rr VV 1,1 r Coeficiente de correlación lineal de Pearson 39 40 •Si r = 0, NO hay DEPENDENCIA LINEALentre las variables. En este caso puede haber independencia u otro tipo de dependencia. Este es el caso de los gráficos b) y d) de la transparencia 32. •Si r > 0 indica relación linealDIRECTAentre las variables X e Y, es decir, si X crece, Y también y si X decrece, Y lo hará igualmente. La relación será tanto mayor cuanto más se acerque r a 1. •Si r < 0 indica relaciónlineal INVERSA entre las variables X e Y, es decir, si X crece, Y decrece y si X decrece, Y hará lo contrario. La relación será tanto mayor cuanto más se acerque r a -1. IMPORTANTE:Como regla general, si | r| > 0.75 se dice que hay una dependencia lineal fuerte entre las variables. Cuidado: esto no significa que cuando | r| ≤ 0.75 no haya dependencia lineal. Valores del Coeficiente de correlación lineal -101 Dependencia o relación funcional lineal inversa Relación lineal estadística inversa o negativa No existe dependencia o relación lineal Dependencia o relación funcional lineal directa Relación lineal estadística directa o positiva 41 En el ejemplo 13, r = 0.609365. Esto indica una dependencia lineal directa moderadamente alta entre las variables Altura y Peso. 42 CAUSALIDAD Ejemplo 15: Se toman datos de 10 personas y se mide X: número de años de años de estudio eY: número de pulsaciones por minuto para esa persona. Los datos son Covarianza = -15.29 y coeficiente de correlación = -0.763803. Esto parece indicar dos cosas: 1.-El número de años de escolarización está fuertemente relacionado con el número de pulsaciones de una persona. 2.-El valor negativo indica que a menor número de años de escolarización mayor es el número de pulsaciones de una persona. años 12161318191218191214 pulsa 73677463738460627671 43 CAUSALIDAD ¿ Significa esto que los años de escolarización son la causa directa del número de pulsaciones que tiene una persona? NO La dependencia que se observa en este ejemplo se deberá, con seguridad, a factores que no se han tenido en cuenta. •Por ejemplo, el que una persona tenga más años de estudios conlleva conseguir un mejor trabajo que le deja más tiempo libre para hacer ejercicio y tener mejores hábitos de nutrición, lo que explicaría un menor número de pulsaciones. •Esta situación se conoce con el nombre de CAUSALIDAD. •Por tanto, hay que tener cuidado con sacar conclusiones sobre una relación de dependencia directa o inversa entre dos variables cualesquiera a través de los valores del coeficiente de correlación. 44 Matriz de varianzas-covarianzas. Matriz de correlaciones •Cuando para un grupo de individuos se estudian dos o más de dos características, las covarianzas de cada par de variables, junto con las varianzas de cada una de ellas ( en la diagonal principal) se recogen en una matriz que se llama MATRIZ DE VARIANZAS COVARIANZAS. •Si la matriz en vez de recoger las varianzas y covarianzas, recoge los coeficientes de correlación de cada par de variables, la matriz se llama MATRIZ DE CORRELACIONES. 45 Ejemplo 16: Se toman datos de la Altura(en pies), el Diámetro (en pulgadas) y el Volumen(pies cúbicos) de 14 árboles de un bosque. Los datos están recogidos en la tabla y en el fichero de datos “arboles.sgd”. Vamos a estudiar la dependencia existente entre los pares de variables. Vamos a obtener todos los gráficos de dispersión, la matriz de varianzas-covarianzas y la matriz de correlaciones. Diámetro8.8 10.7 11 11.1 11.3 11.4 12 12.9 13.7 14 14.5 16.3 17.5 18 Altura63 81 66 80 79 76 75 85 71 78 74 77 82 80 Volumen10.2 18.8 15.8 22.6 24.2 21.4 19.1 33.8 25.7 34.5 36.3 42.6 55.7 51.5 46 Los gráficos de dispersión para cada par de variables: La matriz de varianzas covarianzas para estas tres variables es: DiámetroAlturaVolumen Diámetro7,44447,3879135,5276 Altura7,3879137,412147,2209 Volumen35,527647,2209182,332 Comentar las relaciones de dependencia entre los distintos pares de variables ¿Qué par de variables están más relacionadas? 47 Y la matriz de correlaciones para estas tres variables es: DiámetroAlturaVolumen Diámetro0,44270,9643 Altura0,44270,5717 Volumen0,96430,5717