Capítulo 6 Correlación lineal

La correlación lineal simple es una herramienta fundamental en el análisis estadístico para estudiar la relación entre dos variables cuantitativas. La correlación, mediante el coeficiente de Pearson, mide la intensidad y dirección de la asociación lineal, permitiendo identificar si las variables se mueven en el mismo sentido, en sentido opuesto o si no presentan relación lineal.

Algunos textos que tomaremos para el desarrollo del contenido son (Navidi 2021), (Montgomery, Peck, and Vining 2012) y (Solano 2019).

6.1 Definiciones y teorema de correlación

Recordemos los conceptos de momento, varianza, desviación estandar y covarianza

Definición. Momento, varianza y desviación estándar
  1. Sea \(X\) una variable aleatoria real. El k–ésimo momento central de \(X\) alrededor de cero, denotado por \(m_k\), se define como: \[ m_k(X) := E(X^k) \] siempre y cuando el valor esperado exista.
  2. Sea \(X\) una variable aleatoria real cuyo valor esperado existe. El k–ésimo momento central de \(X\) alrededor de \(E(X)\) se define como: \[ \mu_k(X) := E\left[(X - E(X))^k\right] \] siempre y cuando el valor esperado exista.
  3. Para \(k = 2\), la varianza de \(X\) es: \[ Var(X) := \mu_2(X) = E\left[(X - E(X))^2\right]. \] Y la desviación estándar es: \[ \sigma = \sqrt{Var(X)}, \quad \text{donde } E(X) < \infty. \]
Teorema. Propiedades de la varianza

Sean \(X\) una variable aleatoria, cuyo valor esperado existe, y \(a, b \in \mathbb{R}\). Entonces:

  1. \(Var(X) \geq 0\)
  2. \(Var(a) = 0\)
  3. \(Var(aX) = a^2 Var(X)\)
  4. \(Var(X + b) = Var(X)\)
  5. \(Var(X) = 0\), si y sólo si, \(P(X = E(X)) = 1\)
  6. \(Var(X) = E(X^2) - (E(X))^2\)

Demostración del teorema

Solo probemos que \(Var(X) = E(X^2) - (E(X))^2\). En efecto

\[ \mathrm{Var}(X) = \mathbb{E}\left[(X - \mathbb{E}[X])^2\right] \]

Aplicando la identidad del binomio cuadrado se tiene que

\[ (X - \mathbb{E}[X])^2 = X^2 - 2\,\mathbb{E}[X]\,X + (\mathbb{E}[X])^2. \]

Al tomar la esperanza y usando la propiedad de linealidad de \(\mathbb{E}\) se sigue que

\[ \mathbb{E}\left[X^2 - 2\,\mathbb{E}[X]\,X + (\mathbb{E}[X])^2\right] = \mathbb{E}[X^2] - 2\,\mathbb{E}[X]\,\mathbb{E}[X] + (\mathbb{E}[X])^2 \]

Finalmente, simplificando se obtiene que

\[ \mathrm{Var}(X) = \mathbb{E}[X^2] - \left(\mathbb{E}[X]\right)^2.\quad \square \]

Definición. Covarianza y coeficiente de correlación

Sean \(X, Y\) variables aleatorias reales sobre un espacio de probabilidad \((\Omega, \mathcal{F}, P)\) con esperanza y varianza finita. Entonces, la cantidad:

\[ Cov(X, Y) := E\left[(X - E(X))(Y - E(Y))\right] \in \mathbb{R}, \]

es la llamada covarianza de \(X\) y \(Y\).

El coeficiente de correlación de \(X\) y \(Y\) está definido por:

\[ \rho := \rho(X, Y) := \frac{Cov(X, Y)}{\sqrt{Var(X)Var(Y)}} \]

Teorema. Propiedades de la covarianza

Sean \((\Omega, \mathcal{F}, P)\) un espacio de probabilidad y \(X, Y\) variables aleatorias reales sobre \((\Omega, \mathcal{F}, P)\) con varianza finita. Entonces:

  1. \(Cov(X, X) = Var(X)\)
  2. \(Cov(X, Y) = Cov(Y, X)\)
  3. \(Cov(aX + b, Y) = a \, Cov(X, Y)\) para todo \(a, b \in \mathbb{R}\)
  4. \([Cov(X, Y)]^2 \leq Var(X) \, Var(Y)\)
  5. \(Cov(X, Y) = E(XY) - E(X)E(Y)\), es decir, \(X\) y \(Y\) son incorreladas si y sólo si \(Cov(X, Y) = 0\)
  6. Si \(X\) y \(Y\) son independientes, entonces \(Cov(X, Y) = 0\)

Demostración del teorema

Demostraremos que \(Cov(aX + b, Y) = a \, Cov(X, Y)\) para todo \(a, b \in \mathbb{R}\). En efecto

\[ \begin{align*} Cov(aX+b, Y) &= E\left[(aX+b - E[aX+b]) (Y - E[Y])\right]\\ & = E\left[(aX+b - (aE[X]+b)) (Y - E[Y])\right]\\ & = E\left[(aX+b - aE[X]-b) (Y - E[Y])\right]\\ & = E\left[(aX - aE[X]) (Y - E[Y])\right]\\ & = E\left[a(X - E[X]) (Y - E[Y])\right]\\ & = a E\left[(X - E[X]) (Y - E[Y])\right]\\ & = aCov(X, Y). \quad \square \end{align*} \]

Teorema. Propiedades del coeficiente de correlación

Sean \(X\) e \(Y\) variables aleatorias reales con \(Var(X), Var(Y) < \infty\).

  1. \(\rho(X, Y) = \rho(Y, X)\)
  2. \(|\rho(X, Y)| \leq 1\)
  3. \(\rho(X, X) = 1\) y \(\rho(X, -X) = -1\)
  4. \(\rho(aX + b, Y) = \rho(X, Y)\)
  5. \(\rho(X, Y) = 1\) si y sólo si existen constantes \(a, b \in \mathbb{R}\) no simultáneamente cero tales que \(P(Y = aX + b) = 1\)

Demostración del teorema

Sea \(\sigma_X^2 = \mathrm{Var}(X)\) y \(\sigma_Y^2 = \mathrm{Var}(Y)\) finitas y positivas.

Hagamos la estandarización

\[ U = \frac{X - E(X)}{\sigma_X}, \quad V = \frac{Y - E(Y)}{\sigma_Y}, \]

por lo que \(E(U) = E(V) = 0\), \(\mathrm{Var}(U) = \mathrm{Var}(V) = 1\) y

\[ \rho(X,Y) = \frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y} = E\!\left[ \frac{(X - E(X))(Y - E(Y))}{\sigma_X \sigma_Y} \right] = E(UV). \]

Aplicando la desigualdad de Cauchy–Schwarz tenemos que

\[ |E(UV)| \le \sqrt{E(U^2) \cdot E(V^2)}. \]

por lo que

\[ E(U^2) = E\left[ \frac{(X - E(X))^2}{\sigma_X^2} \right] = \frac{E[(X - E(X))^2]}{\sigma_X^2} = \frac{\mathrm{Var}(X)}{\sigma_X^2} = \frac{\sigma_X^2}{\sigma_X^2} = 1, \]

y análogamente \(E(V^2) = 1\). Por lo tanto

\[ |E(UV)| \le \sqrt{1 \cdot 1} = 1. \]

Como \(\rho(X,Y) = E(UV)\), se sigue que

\[ |\rho(X,Y)| \le 1. \quad \square \]

6.2 Análisis de correlación simple (dos variables)

En estadística, la correlación describe la relación cuantitativa entre dos variables medidas en escalas ordinales, de intervalos o de razón. Nos interesa especialmente cuantificar la intensidad y dirección de la relación lineal.

Cuando el aumento de una variable viene acompañado del aumento de la otra, la correlación es positiva o directa. Si el aumento de una variable viene acompañado de una disminución en la otra, la correlación es negativa o inversa.

La existencia de correlación no implica causalidad: dos variables pueden estar correlacionadas debido a la influencia de una tercera variable no observada.

Nota

Una correlación perfecta ocurre cuando todos los puntos de un diagrama de dispersión forman una línea recta. Estas correlaciones (positivas o negativas) son muy poco frecuentes fuera de contextos físicos o matemáticos ideales.

6.2.1 Tipos de coeficientes de correlación

  • Pearson (\(r\)): método paramétrico, se usa para datos en escala de intervalos o razón, mide la intensidad y dirección de la relación lineal y requiere supuestos como normalidad y homocedasticidad.
  • Spearman (\(\rho_S\)): método no paramétrico, basado en rangos, mide la relación monótona entre las variables. Útil cuando no se cumplen los supuestos de Pearson o con datos ordinales.
  • Kendall (\(\tau\)): método no paramétrico, basado en la concordancia y discordancia de pares de observaciones. Más robusto frente a valores atípicos y útil en muestras pequeñas o con empates en los datos.

6.2.2 Interpretación del coeficiente de correlación

El coeficiente de correlación varía entre -1 y 1:

Tabla 6.1: Interpretación del coeficiente de correlación
Rango.de.valores Interpretación
-1.00 a -0.75 Correlación negativa muy fuerte
-0.75 a -0.50 Correlación negativa moderada
-0.50 a -0.25 Correlación negativa débil
-0.25 a 0.25 Sin correlación o muy débil
0.25 a 0.50 Correlación positiva débil
0.50 a 0.75 Correlación positiva moderada
0.75 a 1.00 Correlación positiva muy fuerte
Nota

Un valor \(r = 0\) indica ausencia de correlación lineal, pero no descarta otros tipos de relación. Además, una correlación fuerte puede no ser significativa estadísticamente y una débil puede serlo, dependiendo de factores como el tamaño de muestra, variabilidad y poder de la prueba.

6.2.3 Correlación de Pearson

Definición. Coeficiente de correlación de Pearson (\(r\))

El coeficiente de correlación de Pearson es una medida estadística que cuantifica la intensidad y dirección de la relación lineal entre dos variables cuantitativas. Su valor está acotado entre \(-1\) y \(1\):

  • \(r = 1\): relación lineal positiva perfecta.
  • \(r = -1\): relación lineal negativa perfecta.
  • \(r = 0\): no existe relación lineal.

Se trata de una medida paramétrica y su uso adecuado requiere que se cumplan ciertos supuestos estadísticos.

Sea \((X, Y)\) un par de variables aleatorias con varianza finita, el coeficiente de correlación de Pearson se define como:

\[ \rho = \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y} \]

En su versión muestral, el estimador \(r\) se calcula como

\[ r = \frac{\sum_{i=1}^n (x_i - \bar{x}) (y_i - \bar{y})} {\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2} \, \sqrt{\sum_{i=1}^n (y_i - \bar{y})^2}} \]

donde

  • \(x_i, y_i\): valores individuales de las variables \(X\) e \(Y\).
  • \(\bar{x}, \bar{y}\): medias muestrales.
  • \(n\): número total de observaciones.
  • \(\sigma_X, \sigma_Y\): desviaciones estándar poblacionales.
Supuestos para Pearson
  1. Normalidad: Los datos de ambas variables deben seguir una distribución aproximadamente normal. Puede verificarse mediante pruebas como Shapiro–Wilk o Kolmogorov-Smirnoff u otra prueba o con gráficos de probabilidad normal.
  2. Linealidad: La relación entre las variables debe ser aproximadamente lineal. Puede evaluarse con un diagrama de dispersión.
  3. Homoscedasticidad: La variabilidad de una variable debe ser constante a lo largo de todos los valores de la otra.
  4. Escala de medida continua: Ambas variables deben estar medidas en escala de intervalos o de razón.
  5. Independencia: Cada observación debe ser independiente de las demás.
Pruebas de hipótesis para el coeficiente de correlación de Pearson

Sea \(\rho\) el coeficiente de correlación poblacional y \(r\) el estimador muestral. Consideremos dos casos:

1. Contraste para \(\rho = 0\)

La prueba de hipótesis será

\[ H_0: \rho = 0 \quad \text{vs} \quad H_1: \rho \neq 0 \]

El estadístico de prueba es:

\[ t_0 = \frac{r \sqrt{n - 2}}{\sqrt{1 - r^2}} \]

donde \(n - 2\) son los grados de libertad. Se rechaza \(H_0\) si \(|t_0| > t_{\alpha/2, n-2}\).

2. Contraste para \(\rho = \rho_0 \neq 0\)

Cuando el valor bajo \(H_0\) es distinto de cero, se emplea la transformación de Fisher:

\[ Z = \operatorname{arctanh}(r) = \frac{1}{2} \ln\left( \frac{1 + r}{1 - r} \right) \]

Para \(n \geq 25\), \(Z\) tiene distribución aproximadamente normal con media:

\[ \mu_Z = \operatorname{arctanh}(\rho) = \frac{1}{2} \ln\left( \frac{1 + \rho}{1 - \rho} \right) \]

y varianza

\[ \sigma_Z^2 = \frac{1}{n - 3} \]

El estadístico de prueba es

\[ Z_0 = \left[ \operatorname{arctanh}(r) - \operatorname{arctanh}(\rho_0) \right] \sqrt{n - 3} \]

y se rechaza \(H_0\) si \(|Z_0| > Z_{\alpha/2}\).

Intervalo de confianza para \(\rho\)

Un intervalo de confianza de \(100(1 - \alpha)\%\) para \(\rho\) es:

\[ \tanh\left( \operatorname{arctanh}(r) - \frac{Z_{1-\alpha/2}}{\sqrt{n-3}} \right) \leq \rho \leq \tanh\left( \operatorname{arctanh}(r) + \frac{Z_{1-\alpha/2}}{\sqrt{n-3}} \right) \]

donde \(\tanh(u) = \frac{e^u - e^{-u}}{e^u + e^{-u}}\).

Ejemplo

Un embotellador de bebidas gaseosas desea analizar las rutas de servicio de las máquinas expendedoras en su sistema de distribución. El objetivo es evaluar la relación existente entre el tiempo necesario para que el representante de ruta atienda las máquinas expendedoras en una tienda y el peso total de producto que debe abastecer.

Esta labor de servicio incluye dos actividades principales:

  • Abastecimiento de la máquina con productos embotellados.
  • Mantenimiento y limpieza básica del equipo.

El ingeniero industrial a cargo del estudio ha identificado que, entre las posibles variables, el peso total abastecido (x1, en kg) podría tener un efecto directo sobre el tiempo de entrega (y). Con este fin, se recolectaron 25 observaciones de ambas variables, registradas en el archivo datos_entrega_gaseosa.xlsx.


Preguntas a resolver:

  1. Realiza un diagrama de dispersión entre las variables tiempo de entrega (min) y peso total abastecido (kg).
  2. Verificar si las variables tiempo de entrega (min) y peso total abastecido (kg) presentan un comportamiento normal.
  3. Calcular el coeficiente de correlación de Pearson entre ambas variables.
  4. Determinar si la correlación obtenida es estadísticamente significativa.
  5. Calcular el intervalo de confianza para el coeficiente de correlación.

Solución

  • Carguemos las librerias a usar
Code
library(tidyverse)
library(readxl)
  • Carguemos los datos
Code
# Lectura de los datos
df <- read_excel("data/datos_entrega_gaseosa.xlsx")

# Ver las 5 primeras obeservaciones
head(df)
## # A tibble: 6 × 4
##   Observación `Tiempo de entrega (min)` `Peso en Kg` `Distancia (pies)`
##         <dbl>                     <dbl>        <dbl>              <dbl>
## 1           1                      25.7        10.1                 474
## 2           2                      20.0         7.76                382
## 3           3                      19.6         7.35                363
## 4           4                      23.6         9.28                416
## 5           5                      26.8        10.3                 537
## 6           6                      27.3         8.57                659
  • Renombremos las columnas
Code
# Renombrar columnas 
df <- df %>%
  rename(
    tiempo   = `Tiempo de entrega (min)`,
    peso_kg  = `Peso en Kg`
  )
  • Hagamos un diagrama de dispersión
Code
df %>% 
  ggplot(aes(x = peso_kg, y = tiempo)) +
  geom_point(color = "blue", size = 3) +                         
  geom_smooth(formula = 'y~x', method = "lm", se = TRUE, color = "red") +  
  labs(
    title = "Relación entre tiempo de entrega y peso abastecido",
    x = "Peso abastecido (kg)",
    y = "Tiempo de entrega (min)"
  ) +
  theme_bw()

  • Veamos si las variables tiempo de entrega y peso abastecido tienen comportamiento normal
Code
shapiro.test(df$tiempo)
## 
##  Shapiro-Wilk normality test
## 
## data:  df$tiempo
## W = 0.96225, p-value = 0.4612
Code
shapiro.test(df$peso_kg)
## 
##  Shapiro-Wilk normality test
## 
## data:  df$peso_kg
## W = 0.96538, p-value = 0.5316

Con una confianza del \(95\%\), se observa que las distribuciones de tiempo de entrega \((W = 0.96225,\ p\text{-valor} = 0.4612)\) y peso en kg \((W = 0.96538,\ p\text{-valor} = 0.5316)\) provienen de una distribución normal.

  • Hallemos la correlación de Pearson paso a paso:
Code
# 1) Vectores y tamaño muestral
x <- df$tiempo
y <- df$peso_kg
n <- length(x)

# 2) promedios
xbar <- sum(x) / n
ybar <- sum(y) / n

# 3) desviaciones
xc <- x - xbar
yc <- y - ybar

Sxy <- sum(xc * yc)          # sumatoria de productos centrados
Sxx <- sum(xc^2)             # sumatoria de cuadrados centrados de x
Syy <- sum(yc^2)             # sumatoria de cuadrados centrados de y

# 4) Coeficiente de correlación de Pearson 
r <- Sxy / sqrt(Sxx * Syy)

# 5) Resultados obtenidos y r
tibble(
  n = n,
  prom_tiempo = xbar,
  prom_peso   = ybar,
  Sxy = Sxy,
  Sxx = Sxx,
  Syy = Syy,
  r_pearson = r
)
## # A tibble: 1 × 7
##       n prom_tiempo prom_peso   Sxy   Sxx   Syy r_pearson
##   <int>       <dbl>     <dbl> <dbl> <dbl> <dbl>     <dbl>
## 1    25        25.3      9.17  111.  449.  63.0     0.662

Usando la función de cor tenemos

Code
cor(x, y, method = 'pearson')
## [1] 0.6615236
  • Ahora veamos si la correlación es significativa o no
Code
# 6) Estadístico t para H0: rho = 0
gl <- n - 2
t_0 <- r * sqrt(gl) / sqrt(1 - r^2)

# 7b) Valor crítico t_(α/2, gl) para α = 0.05 (bilateral)
alpha <- 0.05
t_tab <- qt(1 - alpha/2, df = gl)

# mostrar decision
if (abs(t_0) > t_tab) {
  decision <- "Rechazar H0: la correlación es significativa"
} else {
  decision <- "No rechazar H0: no hay evidencia suficiente de correlación"
}

decision
## [1] "Rechazar H0: la correlación es significativa"
Code
# 7b ) p-valor (bilateral) desde la t de Student
p_valor <- 2 * pt(-abs(t_0), df = gl)

# mostrar pvalor
p_valor
## [1] 0.0003170025
  • Hallemos el intervalo de confianza
Code
# 8) Intervalo de confianza del 95% vía Fisher z
# Transformación de r a z de Fisher
z0 <- atanh(r)              

# Error estándar de z
se_z <- 1 / sqrt(n - 3)

# Valor crítico z_(1-α/2) para α = 0.05 (bilateral)
alpha <- 0.05
z_tab <- qnorm(1 - alpha / 2)  

# Intervalo en la escala z
ci_z <- c(z0 - z_tab * se_z,z0 + z_tab * se_z)

# límite inferior y superior del IC para r
ci_r <- tanh(ci_z)  

# Mostrar resultados
ci_r
## [1] 0.3606668 0.8376916

Usando la función cor.test nos queda:

Code
cor.test(x,y, method = 'pearson')
## 
##  Pearson's product-moment correlation
## 
## data:  x and y
## t = 4.2305, df = 23, p-value = 0.000317
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.3606668 0.8376916
## sample estimates:
##       cor 
## 0.6615236

El análisis de correlación de Pearson entre el peso abastecido (kg) y el tiempo de entrega (min) mostró un coeficiente \(r = 0.6615,\ (IC_{95\%}=(0.3607, 0.8377))\), lo que indica una correlación positiva moderada-alta, es decir, a mayor peso abastecido, mayor es el tiempo de entrega. La prueba de significancia (\(t_{(23)} = 4.2305, p-valor < 0.001\)) permitió rechazar la hipótesis nula de ausencia de correlación.

6.2.4 Correlación de Spearman

Definición. Coeficiente de correlación de Spearman (\(\rho_S\))

El coeficiente de correlación de Spearman, también llamado coeficiente de correlación por rangos de Spearman, es una medida de correlación no paramétrica. Evalúa la fuerza y dirección de la relación monótona entre dos variables, basándose en el rango (orden) de los datos en lugar de los valores originales.

Se utiliza cuando:

  • Al menos una de las variables no sigue una distribución normal.
  • La relación entre las variables no es lineal, pero sí monótona.
  • Los datos están en escala ordinal o son susceptibles de ordenación.

Fórmula

Cuando no hay empates en los datos, \(\rho_S\) se calcula como:

\[ \rho_S = 1 - \frac{6 \sum_{i=1}^n d_i^2}{n(n^2 - 1)} \]

donde:

  • \(d_i\) = diferencia entre los rangos de las dos variables para la observación \(i\).
  • \(n\) = número total de observaciones.

En presencia de empates, los rangos se asignan usando promedios y la correlación se calcula como el coeficiente de Pearson aplicado a los rangos.

Supuestos de Spearman
  1. Escala ordinal o superior: Los datos deben poder ordenarse (ordinal, intervalo o razón).
  2. Relación monótona: A medida que una variable aumenta, la otra tiende a aumentar o disminuir, pero no necesariamente de forma lineal.
  3. Independencia: Las observaciones deben ser independientes entre sí.
  4. Manejo de empates: En caso de empates, deben asignarse rangos promedio antes de calcular \(\rho_S\).
Prueba de hipótesis para \(\ \rho_S\)

Para contrastar si existe correlación monótona significativa entre \(X\) e \(Y\):

  • Hipótesis nula \(H_0: \rho_S = 0\) (no hay relación monótona).
  • Hipótesis alternativa \(H_1: \rho_S \neq 0\) (existe relación monótona).

El estadístico de prueba, para \(n > 10\), puede aproximarse mediante la distribución t:

\[ t = \rho_S \sqrt{\frac{n - 2}{1 - \rho_S^2}} \] con \(n - 2\) grados de libertad.

Para muestras pequeñas o con muchos empates, se recomienda emplear tablas exactas o métodos de permutación.

Ejemplo

Un equipo de ingenieros ambientales desea analizar los factores que influyen en la calidad del aire en una zona urbana. El objetivo es evaluar la relación existente entre la concentración de material particulado PM2.5 y el volumen de tráfico vehicular en una avenida principal.

El monitoreo de la calidad del aire se realizó mediante:

  • Medición de la concentración de PM2.5 (μg/m3) usando equipos de muestreo en continuo.
  • Conteo del número de vehículos que transitan por hora en el punto de monitoreo.

El especialista a cargo del estudio ha identificado que, entre las posibles variables, el volumen de tráfico vehicular (x1) podría tener un efecto directo sobre la concentración de PM2.5 (y). Con este fin, se recolectaron 25 observaciones de ambas variables, registradas en el archivo datos_calidad_aire.xlsx.

Preguntas a resolver:

  1. Realiza un diagrama de dispersión de las variables concentración de PM2.5 y volumen de tráfico vehicular.
  2. Verificar si las variables concentración de PM2.5 y volumen de tráfico vehicular presentan un comportamiento normal.
  3. Calcular el coeficiente de correlación de spearman entre ambas variables.
  4. Determinar si la correlación obtenida es estadísticamente significativa.
  5. Calcular el intervalo de confianza para el coeficiente de correlación.

Solución

  • Carguemos los datos
Code
# Lectura de los datos
df <- read_excel("data/datos_calidad_aire.xlsx")

# Ver las 5 primeras observaciones
head(df)
## # A tibble: 6 × 4
##   Observación `Concentración PM2.5 (µg/m³)` Volumen de tráfico (vehículos/hora…¹
##         <dbl>                         <dbl>                                <dbl>
## 1           1                          15.7                                    7
## 2           2                          10.7                                    3
## 3           3                          11.9                                    3
## 4           4                          15.6                                    4
## 5           5                          14.3                                    6
## 6           6                          14.9                                    7
## # ℹ abbreviated name: ¹​`Volumen de tráfico (vehículos/hora)`
## # ℹ 1 more variable: `Distancia al punto de monitoreo (m)` <dbl>
  • Renombremos las columnas
Code
# Renombrar columnas 
df <- df %>%
  rename(
    concentracion = `Concentración PM2.5 (µg/m³)`,
    volumen = `Volumen de tráfico (vehículos/hora)`
  )
  • Hagamos un diagrama de dispersión
Code
df %>% 
  ggplot(aes(x = volumen, y = concentracion)) +
  geom_point(color = "blue", size = 3) +                         
  geom_smooth(formula = 'y~x', method = "lm", se = TRUE, color = "red") +  
  labs(
    title = "Relación entre la concentración PM2.5 y el volumen de tráfico",
    x = "Volumen de tráfico (vehículos/hora)",
    y = "Concentración PM2.5 (µg/m³)"
  ) +
  theme_bw()

  • Veamos si las variables concentración PM2.5 (µg/m³) y volumen de tráfico (vehículos/hora) tienen comportamiento normal
Code
shapiro.test(df$concentracion)
## 
##  Shapiro-Wilk normality test
## 
## data:  df$concentracion
## W = 0.77906, p-value = 0.0001038
Code
shapiro.test(df$volumen)
## 
##  Shapiro-Wilk normality test
## 
## data:  df$volumen
## W = 0.76566, p-value = 6.405e-05

Con una confianza del \(95\%\), se observa que las distribuciones de concentración PM2.5 \((W = 0.7791,\ p-valor < 0.001)\) y volumen de tráfico \((W = 0.7657,\ p-valor < 0.001)\) no tienen comportamiento de una distribución normal.

  • Veamos el coeficiente de correlación y su significancia
Code
cor.test(df$concentracion,df$volumen, method = 'spearman', exact=FALSE)
## 
##  Spearman's rank correlation rho
## 
## data:  df$concentracion and df$volumen
## S = 385.47, p-value = 6.662e-08
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.8517417

El análisis de correlación de Spearman entre la concentración de PM\(_{2.5}\) \((\mu_g/m^3)\) y el volumen de tráfico vehicular (vehículos/h) mostró un coeficiente \(\rho = 0.8517\), lo que indica una correlación positiva muy alta; es decir, a mayor volumen de tráfico, mayor es la concentración de PM\(_{2.5}\). La prueba de significancia (\(S = 385.47,\ p-valor < 0.001\)) permitió rechazar la hipótesis nula de ausencia de correlación, confirmando que la relación observada es estadísticamente significativa.

6.2.5 Correlación de Kendall

Definición

El coeficiente de correlación de rangos de Kendall (\(\tau\)) es una medida no paramétrica de asociación entre dos variables ordinales o continuas. Evalúa el grado de concordancia o discordancia entre todos los pares posibles de observaciones.

Definición: Cálculo del \(\ \tau\)

Sea un conjunto de n observaciones emparejadas \((x_i, y_i)\), se consideran todos los pares \((i, j)\) con \(i < j\):

  • Par concordante: si \((x_j - x_i)\) y \((y_j - y_i)\) tienen el mismo signo.
  • Par discordante: si \((x_j - x_i)\) y \((y_j - y_i)\) tienen signos opuestos.
  • Empate: si una de las diferencias es cero.

\(\tau = \frac{n_c - n_d}{\frac{1}{2}n(n-1)}\)

Nota
  • \(\tau \approx +1\): asociación positiva perfecta.
  • \(\tau \approx -1\): asociación negativa perfecta.
  • \(\tau \approx 0\): ausencia de asociación.
Observación: Supuestos
  • Las variables son al menos ordinales.
  • Observaciones independientes.
  • No se requiere normalidad.
Ventajas
  • Más robusto que Spearman cuando existen empates en los datos.
  • Interpretación directa como diferencia entre la probabilidad de concordancia y discordancia.
Teorema. Prueba de hipótesis

Para evaluar significancia estadística:

\(H_0: \tau = 0 \quad\text{vs.}\quad H_1: \tau \neq 0\)

En R:

cor.test(x, y, method = "kendall")
Ejercicio 1

Los siguientes datos representan los gastos anuales en publicidad \(x\) (en millones de pesos) y las ventas \(y\) (en millones de pesos):

x y x y x y
4.17 96.97 3.63 179.18 6.09 196.67
10.04 154.70 4.65 171.81 3.08 289.59
6.02 151.61 2.97 200.23 1.76 105.71
1.52 163.92 1.57 125.19 3.09 275.97
4.81 147.82 0.82 120.49 4.18 95.83
7.70 141.77 1.57 98.61
Preguntas a resolver
  1. Construya un diagrama de dispersión para visualizar la relación entre publicidad \(x\) y ventas \(y\).
  2. Calcule el coeficiente de correlación muestral entre \(x\) y \(y\).
  3. Plantee y contraste la hipótesis nula \(H_0: \rho = 0\) frente a la alternativa bilateral \(H_1: \rho \neq 0\).
  4. Interprete el resultado en términos de significancia estadística.
  5. Calcule e interprete el intervalo de confianza al 95% para el coeficiente de correlación poblacional.
Ejercicio 2

Los siguientes datos representan el número \(x\) de proyectos presentados el año pasado por 12 universidades privadas y la ayuda recibida \(y\) (en millones de pesos) para la ejecución de estos proyectos:

x 15.7 17.2 13.8 24.2 15.0 12.7 13.8 18.7 10.8 11.8 25.4 17.2
y 4 3 6 5 3 12 5 1 12 11 2 4
  1. Determine el coeficiente de correlación \(r\) de Pearson.
  2. Haga una prueba, con \(\alpha = 0.05\), para determinar si el número de proyectos está relacionado con las ayudas recibidas.
  3. Pruebe la hipótesis nula \(H_0: \rho \leq 0\) contra la hipótesis alternativa \(H_1: \rho > 0\), usando \(\alpha = 0.05\).
Ejercicio 3

Los siguientes datos se obtienen en un estudio de la relación entre el peso \(x\) (en kilogramos) y el volumen \(y\) (en centímetros cúbicos) de un tipo de recipiente:

x 5.52 3.21 4.32 2.31 4.30 3.71 2.75 2.15 4.41
y 36.5 27.2 27.7 28.3 30.3 29.7 29.5 26.3 32.2
  1. Calcule el coeficiente de correlación muestral \(r\).
  2. Pruebe la hipótesis nula \(H_0: \rho = 0\) contra la alternativa \(H_1: \rho > 0\), con un nivel de significancia de 0.01.
  3. ¿Qué porcentaje de la variación en los volúmenes de los recipientes se explica por la diferencia en peso?
Ejercicio 4

Se ha seleccionado una muestra aleatoria de 12 estudiantes de bachillerato que han repetido el séptimo grado este año y, para cada uno, se ha anotado el promedio global de las calificaciones de todas las asignaturas, tanto el de este año (\(y\)) como el del año pasado (\(x\)):

x 65 55 70 65 70 55 70 50 55 65 50 55
y 90 85 87 94 98 81 91 76 74 85 74 76
  1. Calcule e interprete el coeficiente de correlación muestral.
  2. Establezca las suposiciones necesarias sobre las variables aleatorias para la validez del análisis.
  3. Pruebe la hipótesis de que \(\rho = 0.5\) contra la alternativa de que \(\rho > 0.5\). Utilice un P-valor en las conclusiones.
Ejercicio 5

Los siguientes datos representan el tiempo de vida \(x\) de un bombillo de marca A (en horas), así como el tiempo de vida \(y\) de un bombillo de marca B (en minutos):

x 4200 3600 3750 3675 4050 2770 4870 4500 3450 2700 3750 3300
y 370 340 375 310 350 200 400 375 285 225 345 285
  1. Calcule e interprete el valor del coeficiente de correlación muestral \(r\).
  2. ¿Cómo cambiaría el valor de \(r\) si \(x\) es el tiempo del bombillo de marca B y \(y\), el del bombillo de marca A?
  3. ¿Cómo cambiaría el valor de \(r\) si el tiempo \(y\) se expresara en horas en lugar de minutos?
  4. Trace gráficas de probabilidad normal para las dos variables y coméntelas.
  5. Realice una prueba de hipótesis para decidir si el tiempo \(x\) y el tiempo \(y\) están correlacionados linealmente.
Ejercicio 6

Se muestran el peso y la presión sistólica sanguínea (BP) de 26 hombres seleccionados al azar, en el grupo de edades de 25 a 30 años. Suponer que el peso y la presión sanguínea tienen distribución normal conjunta.

Persona Peso BP sistólica Persona Peso BP sistólica
1 165 130 14 172 153
2 167 133 15 159 128
3 180 150 16 168 132
4 155 128 17 174 149
5 212 151 18 183 158
6 175 146 19 215 150
7 190 150 20 195 163
8 210 140 21 180 156
9 200 148 22 143 124
10 149 125 23 240 170
11 158 133 24 235 165
12 169 135 25 192 160
13 170 150 26 187 159
  1. Estime el coeficiente de correlación.
  2. Pruebe la hipótesis \(H_0: \rho = 0\).
  3. Pruebe la hipótesis \(H_0: \rho = 0.6\).
  4. Determine un intervalo de confianza al 95% para \(\rho\).

Referencias

Montgomery, Douglas C., Elizabeth A. Peck, and G. Geoffrey Vining. 2012. Introducción Al análisis de Regresión Lineal. 5ta ed. Hoboken, New Jersey: Wiley.
Navidi, William. 2021. Estadística Para Ingenieros y Científicos. 7ma ed. Ciudad de México, México: McGraw-Hill.
Solano, Humberto Llinás. 2019. Estadística Inferencial. Área metropolitana de Barranquilla, Colombia: Universidad del Norte.