PyE
Tema 1 - Descriptiva y Regresión

Estadística descriptiva y regresión lineal

Resumir una muestra con medidas descriptivas (centro, dispersión, forma, atípicos) y modelar la relación lineal entre dos variables con regresión simple, usando Statgraphics para leer salidas y justificar conclusiones.

Para qué sirve este tema

Resume una muestra de datos: dónde está el centro, cuánto se dispersa, qué forma tiene y si hay valores raros. Además, cuando tienes dos variables, te dice si están relacionadas linealmente y te da una recta para predecir una a partir de la otra. Es la base de toda la asignatura: si no sabes leer una salida de Statgraphics, vas a sufrir en los demás temas.

Cuándo aplicarlo (señales del enunciado)

  • "Calcular e interpretar el percentil " → vas a Describir → Datos numéricos → Análisis de una variable → Opciones tabulares → Percentiles. La interpretación SIEMPRE es: "el de los datos tiene un valor menor o igual a...".
  • "Porcentaje de datos entre y " → tabla de frecuencias (clases de amplitud que cubran ) y sumas de .
  • "¿Es atípico el valor ?" / "Encuentra atípicos" → regla de Tukey con (alias ). Si pide "atípicos extremos", usa .
  • "¿Cuál es más asimétrica?" → compara (skewness muestral). El mayor en valor absoluto gana.
  • "Propón un modelo de distribución" → mira tipo de valores (discreto/continuo, soporte), histograma (simétrico/asimétrico) y compara con .
  • "Recta de regresión / predice cuando "Relacionar → Análisis de una variable → Regresión simple. Lee , y de la salida.
  • "¿Es buena la regresión?" → mira y el p-valor del contraste de (ANOVA de la regresión).

Conceptos clave

Medidas de centro y posición

  • Idea: media (sensible a atípicos), mediana (robusta), cuartiles y percentiles .
  • Fórmula clave: la posición del percentil es ; Statgraphics interpola.
  • Cuándo se usa: media si la distribución es simétrica sin atípicos; mediana si hay sesgo o valores extremos.

Medidas de dispersión

  • Idea: cuantifican lo "esparcida" que está la muestra.
  • Fórmula clave: varianza muestral , desviación , recorrido intercuartílico .
  • Cuándo se usa: con la media; con la mediana o para atípicos.

Asimetría (skewness)

  • Idea: mide si la cola es a la derecha () o a la izquierda ().
  • Fórmula clave: . Statgraphics lo da directo.
  • Cuándo se usa: para comparar formas y decidir entre modelos simétricos (normal) y asimétricos (exponencial, gamma).

Valores atípicos (regla de Tukey)

  • Idea: un dato es atípico si está demasiado lejos de la caja del box-plot.
  • Fórmula clave: atípico si o .
  • Cuándo se usa: SIEMPRE que el enunciado mencione "atípico", "box-plot" o "valor anómalo".

Regresión lineal simple

  • Idea: ajusta por mínimos cuadrados.
  • Fórmula clave: , .
  • Cuándo se usa: dos variables cuantitativas con relación aparentemente lineal en el diagrama de dispersión.

Correlación y determinación

  • Idea: mide fuerza y signo de la relación lineal; es el porcentaje de variabilidad de explicado por .
  • Fórmula clave: , .
  • Cuándo se usa: relación fuerte; buen ajuste; signo de = signo de .

Plantilla de resolución

  1. Identifica qué te piden: ¿descriptiva, atípicos, modelo o regresión?
  2. Abre Statgraphics en el menú adecuado (Describir o Relacionar).
  3. Pide la salida tabular que contenga: media, mediana, cuartiles, , , percentiles, mínimo y máximo.
  4. Lee los números exactos que necesitas (no los calcules a mano si Statgraphics los da).
  5. Aplica la fórmula o regla (Tukey, recta de regresión, comparar , etc.).
  6. Interpreta en palabras del enunciado (segundos, cm, kg…), no en jerga estadística pura.

Mini-ejemplo paso a paso

Tienes los tiempos (en s) de ciclistas. Del resumen de Statgraphics: , , , , , , , . Se pide , decidir si es atípico y comentar la asimetría.

Paso 1: Statgraphics devuelve s. Interpretación: el de los ciclistas hizo un tiempo s.

Paso 2: . Umbral superior:

Como , sí es atípico.

Paso 3: → asimetría positiva (cola a la derecha). Esto encaja con que y con el atípico por arriba.

Errores típicos

  • Interpretar como "el tiene un tiempo de s" en vez de "menor o igual a s".
  • Confundir con o con el rango total .
  • Usar cuando piden atípicos extremos (es ).
  • Comparar asimetrías con con signo en vez de .
  • Olvidar las unidades en la interpretación ("cm", "s", "kg").
  • En regresión, dar sin interpretar ("por cada unidad que aumenta , aumenta unidades").
  • Confundir (de a ) con (de a ).

Resumen en una tarjeta

  • Percentil : el está por debajo. Léelo de Statgraphics, no lo calcules.
  • Atípico Tukey: fuera de .
  • Asimetría: signo de dice hacia qué lado; dice cuánto.
  • Regresión: ; calidad con y p-valor del ANOVA.
  • Siempre interpreta en las unidades del enunciado.

📺 Vídeos sugeridos

Búsquedas en YouTube de canales reales en español. Click → abre YouTube.

🧠 Pon en práctica

Problemas reales de examen que aplican este tema (de los más fáciles a los más complejos).