En esta sección, estudiaremos el uso de la Cópulas para la dependencia o asociación de variables aleatorias.
Existen muchas medidas de dependencia, entre ellas el tau de Kendall o rho de Spearman o el coeficiente de correlación lineal (correlación de Pearson), aunque ciertos autores las denominan como medidas de correlación en general, otros las llaman medidas de asociación, y el término correlación lo asociacian a la dependencia lineal entre variables aleatorias.
11.2 Concordancia
La concordancia entre dos o más variables, podemos entenderla como que si la variable \(X\) toma valores “grandes” la variable \(Y\) toma también valores “grandes”, y cuando la variable \(X\) toma valores “pequeños”, \(Y\) toma valores “pequeños” también, es decir que posee un comportamiento similar, entonces \(X\) y \(Y\) son concordantes.
Este concepto también, coincide con la concordancia de modelos, pero con sus respectivas diferencias, si dos Modelos son concordantes, si cuando se acepta un caso, el otro lo acepta y cuando lo rechaza uno el otro también lo rechaza.
En una definición un poco más formal, podemos indicar que dado vector de variables aleatorias continuas \((X,Y)\), se dice que los puntos \((x_i,y_i)\) y \((x_j,y_j)\) son concordante si \(x_i<x_j\) y \(y_i<y_j\) o el caso contrario (\(x_i>x_j\) y \(y_i>y_j\)), y se dicen discordante si \(x_i<x_j\) y \(y_i>y_j\) o \(x_i>x_j\) y \(y_i<y_j\).
Podemos decir que dados dos puntos \((x_i,y_i)\) y \((x_j,y_j)\), son concordantes si:
\[(x_i-x_j)(y_i-y_j)>0\] y discordante si:
\[(x_i-x_j)(y_i-y_j)<0\]
11.3 Tau de Kendall
Sea \(\{(x_1,y_1),\dots,(x_n,y_n)\}\) una m.a.s. de un vector de variables aleatorias continuas \((X,Y)\).
Observe que tenemos \(\binom n 2\) pares \((x_i,y_i)\) y \((x_j,y_i)\) distintos y cada par puede ser concordante o discordante. Sea \(c\) el número de pares concordantes y \(d\) el número de pares discordantes.
El tau de Kendall de la muestra se define como:
\[t=\frac{c-d}{c+d}=\frac{c-d}{\binom n 2}\] En otra palabras el \(t\) es la probabilidad empírica de concordancia menos la probabilidad empírica de discordancia.
Podemos definir la tau de Kendall de la población, para un vector de variables aleatorias continuas \((X,Y)\) con distribución conjunta \(H\). y sea \((X_1,Y_1)\) y \((X_2,Y_2)\) iid vectores aleatorios con distribución conjunta \(H\).
Entonces el tau de Kendall de la población se define como la probabilidad de concordancia menos la probabilidad de discordancia:
La función de concordancia \(Q\), es la diferencia entre la probabilidad de concordancia y de discordancia entre dos vectores \((X_1,Y_1)\) y \((X_2,Y_2)\) vectores aleatorios continuos con distribuciónes conjunta \(H_1\) y \(H_2\) respectivamente y posiblemente distintas pero con distribuciones marginales en común \(F\) y \(G\).
Donde \(F\) es la distribución marginal de \(X_1\) y \(X_2\) y \(G\) la distribución marginal de \(Y_1\) y \(Y_2\).
Mostraremos con el siguiente Teorema que la función \(Q\) depende solamente de sus cópulas.
Teorema
Sea los vectores \((X_1,Y_1)\) y \((X_2,Y_2)\) vectores aleatorios continuos e independientes con distribuciónes conjunta \(H_1\) y \(H_2\) respectivamente con distribuciones marginales en común \(F\) y \(G\). Sea \(C_1\) y \(C_2\) Cópulas tales que:
Si tomamos una Cópula \(C\) cualquiera, cómo \(Q\) es la diferencia de dos probabilidades, entonces \(Q(C,C)\in[-1,1]\) (Primer eje de concordancia), También por ser \(W\) y \(M\) las cotas de la Cópulas, por la propiedad 2 se tiene que:
\(Q(C,\Pi) \in [-1/3,1/3]\) (Segundo eje de concordancia)
\(Q(C,M) \in [0,1]\) (Tercer eje de concordancia)
\(Q(C,W) \in [-1,0]\) (Cuarto eje de concordancia)
Gráfico de Ejes de Concordancia
Como definimos el tau de Kendall, donde las variables poseen la misma distribución \(H\),por lo que podemos escribirlo como:
\[\tau_{X,Y}=\tau_C=Q(C,C)=4\int \int_{\mathbb{I}^2}C(u,v)dC(u,v)-1=4E[C(u,v)]-1\] es decir el tau de Kendall es el primer eje de concordandia, del gráfico.
Nota
si denotamos una cópula por \(C_\theta\) o \(C_{\alpha,\beta}\) escribiremos los tau como \(\tau_\theta\) y \(\tau_{\alpha,\beta}\) respectivamente.
Ejemplo
Consideremos la familia de Cópulas Farlie-Gumbel-Morgenstern (FGM) definida como:
\[C_\theta(u,v)=uv+\theta uv(1-u)(1-v)\] con \(\theta \in[-1,1]\). Como \(C_\theta\) es absolutamente continua, se tiene que
\[dC_\theta(u,v)=\frac{\partial^2C_\theta(u,v)}{\partial u \partial v}dudv=[1+\theta (1-2u)(1-2v)]\]
\[\int \int_{\mathbb{I}^2}C_{\theta}(u,v)dC_{\theta}(u,v)=\frac{1}{4}+\frac{\theta}{18}\] por lo que \(\tau_\theta=2\theta/9\). Para la familia FGM \(\tau_\theta\in[-2/9,2/9]\).
Ejemplo (ejercicio)
Sea \(C_{\alpha,\beta} =\alpha M+(1-\alpha-\beta)\Pi+\beta W\), con \(\alpha,\beta\geq 0\) y \(\alpha+\beta \leq 1\). Entonces:
Junto con el tau de Kendall, el Rho de Spearman es otra medida de asociación basa en la concordancia y la discordancia de la población, Para esta medida se requerirá tres vectores \(\{(X_1,Y_1),(X_2,Y_2),(X_3,Y_3)\}\) iid con distribución conjunta \(H\) con marginales \(F\) y \(G\) y la cópula asociada \(C\).
Como se mencionó anteriormente hay autores que referencia esta medida como la correlación de Spearman. Esta medida usa como simbolo la letra \(\rho\) por lo que hay que tener cuidado en la lectura de artículos o documento y no confundirla con la correlación lineal de Pearson \(\rho=\frac{\sigma_{ij}}{\sigma_i\sigma_j}\).
Definición
Sea vectores aleatorios continuos \(\{(X_1,Y_1),(X_2,Y_2),(X_3,Y_3)\}\) iid con distribución conjunta \(H\) con marginales \(F\) y \(G\) y la cópula asociada \(C\), se define el rho de Spearman como:
\[\rho_{X,Y}=3(P((X_1-X_2)(Y_1-Y_3)>0)-P((X_1-X_2)(Y_1-Y_3)<0))\] (también se puede usar el par \((X_3,Y_3)\))
Observe que el par \((X_1,Y_1)\) tiene distribución \(H\), sin embargo el par \((X_2,Y_3)\) es independiente por lo que su cópula es \(\Pi\), es decir que:
\[\rho_{X,Y}=\rho_C=3Q(C,\Pi)\]
Dada la simetría de \(Q\) tenemos que el rho de Spearman se puede expresar de dos formas:
También podemos usar la función “Cor” de R, podemos estimar la correlación y con la función “cor.test” intervalos de confianza:
(cor(mate,espa))
[1] 0.2871756
(cor.test(mate,espa))
Pearson's product-moment correlation
data: mate and espa
t = 0.79321, df = 7, p-value = 0.4537
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.4657794 0.7989264
sample estimates:
cor
0.2871756
Estimaremos el tau de Kendall muestral, bajo la formula ya estudiada:
\[t=\frac{c-d}{c+d}=\frac{c-d}{n(n-1)/2}\] Para esto debemos analizar los pares que son concordantes y discordantes, veamos que Lucia tiene como notas 7 y 9.2 en Matemática y Español, y Pedro tiene como notas un 7.5 y 7.3 respectivamente. Por lo que para este par tendríamos que:
\[(7-9.2)(7.5-7.3)=(-2.2)(0.2)<0\] es discordante.
Tenemos en total 45 pares a analizar, de los cuales 18 son concordantes (\(C\)) y 18 son discordantes (\(d\)) por lo que:
\[t=\frac{c-d}{c+d}=\frac{18-18}{36}=0\]
usando R tenemos
(cor(mate,espa,method="kendall"))
[1] 0
(cor.test(mate,espa,method="kendall"))
Kendall's rank correlation tau
data: mate and espa
T = 18, p-value = 1
alternative hypothesis: true tau is not equal to 0
sample estimates:
tau
0
Para estimar el rho de Spearman, debemos definir que se entiende por rango, este es un número entero que se asigna a cada observación de una determinada variable, de tal manera que al menor valor se le asigna 1 y al mayor el valor de \(n\), donde \(n\) es la cantidad de observaciones.
Spearman's rank correlation rho
data: mate and espa
S = 126, p-value = 0.9116
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
-0.05
Definición
Sea \(\kappa\) número medida de asociación entre dos variables aleatorias continuas \(X\) y \(Y\) con Cópula \(C\), \(\kappa\) es una medida de concordacia si satisface las siguientes propiedades:
\(\kappa\) está definido para todo par \(X,Y\) variables aleatorias continuas.
Si \(X\) y \(Y\) son independientes, entonces \(\kappa_{X,Y}=\kappa_{\Pi}=0\)
\(\kappa_{-X,Y}=\kappa_{X,-Y}=-\kappa_{X,Y}\)
Si \(C_1 \prec C_2\) cópulas entonces \(\kappa_{C_1}\leq\kappa_{C_2}\)
Si \(C_n\) una sucesión de cópulas que converge a \(C\) Cópula, entonces:
\[\lim_{n\to\infty}\kappa_{C_n}\to\kappa_C\]
Nota
El tau de Kendall y el rho de Spearman son medidas de concordancia.
Propiedad de las Medidas de Concordancia
Si \(\kappa\) es una medida de concordancia para las variables aleatorias continuas \(X\) y \(Y\) entonces:
Si \(Y\) es casi seguramente una función creciente de \(X\), entonces \(\kappa_{X,Y}=\kappa_M=1\)
Si \(Y\) es casi seguramente una función decreciente de \(X\), entonces \(\kappa_{X,Y}=\kappa_W=-1\)
Si \(\alpha,\beta\) funciones monótonas estrictamente en los Rangos de \(X\) y \(Y\) respectivamente entonces:
\[\kappa_{\alpha(X),\beta(Y)}=\kappa_{X,Y}\].
Existe una relación entre el rho de Spearman y la correlación de Pearson, esto por que como \(u\) y \(v\) de la Cópula \(C\) poseen una distribución uniforme (0,1) entonces:
\[\rho_{X,Y}=\frac{E[U,V]-1/4}{1/12}=\frac{E(U,V)-E[U]E[V]}{\sqrt {Var[U]}\sqrt {Var[V]}}=\frac{\sigma_{UV}}{\sigma_u\sigma_V}\] En otras palabras el rho de Spearman es la correlación lineal de Pearson de los Rangos de \(U=F(X)\) y \(V=G(Y)\).
Otra interpretación del rho de Spearman es que es la distancia media entre la distribución \(X\) y \(Y\) (representada por \(C\)) y la independencia (representada por la Cópula \(\Pi\))
Ejercicios pág 171
11.4.1 Relaciones entre el tau de Kendall y el rho de Spearman.
Sea \(X\) y \(Y\) variables aleatorias continuas y \(\tau\) y \(\rho\) el tau de Kendall y el rho de Spearman respectivamente. Entonces:
Los limites del punto 5, nos dibujan una región para \(\rho\),como se muestra a continuación
Región Rho-Tau
11.5 Otras Medidas de Concordancia
Indice de Gini
El indice de Gini, es muy popular en temas económicos, en especial para medir grados de concentración de la riqueza de los países o regiones, pero también se usa para medir concentraciones de riesgo como por ejemplo en una cartera de crédito. Tradicionalmente se calcular como el doble del área entre la curva de Lorenz y la diagonal entre (0,0) y (1,1).
A nivel muestral este indice se determina como:
\[g=\frac{1}{\lfloor n^2/2\rfloor}\left[\sum_{i=1}^n|p_i+q_i-n-1|-|p_i+q_i| \right]\] donde \(p_i\) es el rango de la observación i-esima de la variable \(X\) y \(q_i\) el rango de la variable i-esima de \(Y\).
Si escribimos el coeficiente de gini con base a las Cópulas de las variables X y Y obtendremos que:
Si el rho de Spearman lo interpretamos como la distancia entre la Cópula \(C\) y la independencia \(\Pi\), una forma de interpretar el coeficiente de Gini es como la distancia entre la Cópula y las dependencias, y se puede escribir este coeficiente como:
\[\gamma_C=Q(C,M)+Q(C,W)\] (Prueba ejercicio)
Dada la expresión anterior se puede reescribir el coeficiente como:
Otra medida de concordancia que se utiliza en otros estudios estadísticos como por ejemplo para comparar el crecimiento del PIB entre dos países o regiones. También se le conoce como Coeficiente de correlación media y se define como:
\[\beta_C=4C(1/2,1/2)-1\]
11.6 Propiedades de la dependencia
Entre las propiedades de la dependencia entre dos variables aleatorias continuas \(X\) y \(Y\), la propiedad de su ausencia, es decir la Independencia es la más común de estudiar.
Si \(X\) y \(Y\) son independientes, significa que su distribución conjunta \(H(x,y)\), es el producto de las distribuciones marginales de \(X\)\((F(x))\) y de \(Y\)\((G(y))\), es decir que:
\[H(x,y)=F(x)G(y)\]
Y la Cópula asociada a estas distribuciones es \(\Pi\), lo que genera un sub-conjunto de distribuciones conjuntas.
También analizamos otros dos sub-conjuntos de distribuciones Conjuntas, cuando \(H(x,y)\) tiene asociada la cópula \(M(u,v)\), llamadas comonotocidad.
Otro sub-conjunto son las distribuciones con contramonotocidad, que son cuando la Cópula a asociada a \(H(x,y)\) es \(W(x,y)\).
Definición
Sea \(X\) y \(Y\) dos variable aleatorias, con distribución conjunta \(H\) y marginales \(F\) y \(G\) respectivamente.
Se dice que \(X\) y \(Y\) tiene dependencia en el cuadrante positivo (PQD) si para todo \((x,y) \in \mathbb{R}^2\), se cumple que:
\[H(x,y)\geq F(x)G(y)\] que es lo mismo que:
\[P(X\leq x,Y\leq y)\geq P(X\leq x)P(Y \leq y)\]
similarmente si se cumple que:
\[H(x,y)\leq F(x)G(y)\]
se dice que \(X\) y \(Y\) poseen dependencia en el cuadrante negativo (NQD)
Observe que estas desigualdades las podemos expresar a nivel de Cópulas, es decir si \(X\) y \(Y\) posee PQD, entonces:
\[H(x,y)\geq F(x)G(y) \iff C(u,v) \geq uv\] equivalentemente para las NQD.
Esto significa que si \(X\) y \(Y\) posee PQD, entonces \(\Pi \prec C\) (análogo para las NQD).
Otro hecho importante es que si \(X\) y \(Y\) variables aleatorias continua con distribución conjunta \(H\) y marginales \(F\) y \(G\) con Cópula asociada a \(C\). Si \(X\) y \(Y\) son PQD entonces:
También podemos hablar de dependencia en los cuadrantes localmente, si en vez de usar en la definición “un para todo”, se usa un subconjuto de \(\mathbb{R}^2\). También la definición de rho Spearman es:
\[\rho_C=12\int\int_{\mathbb{I}^2}C(u,v)-uvdudv\]
Por lo que el rho de Spearman, puede interpretarse como el promedio de la dependencia del cuadrante ( positivo o negativo), exactamente el valor de \(\rho_c/12\).
ejercicio 189-190
Nota
los ejercicios 5.26, 5.27, 5.28 solicitan probar que:
\[Cov(X,Y)=\int\int_{\mathbb{R}^2}H(x,y)-F(x)G(y)dxdy\] Entonces si \(X\) y \(Y\) son PQD la covarianza será positiva ( negativa si NQD), entonces la correlación de Person es positiva.
Ejemplo
Sea la Cópula de Gumbel-Barnett
\[C_\theta(u,v)=uv e^{\theta\ln(u)\ln(v)}\] con \(\theta \in [-1,0]\)
Estimemos:
\[C(u,v) - uv \Rightarrow uv e^{\theta\ln(u)\ln(v)}-uv\] Pero
\[e^{\theta\ln(u)\ln(v)}-1\leq 0\]
Es decir la Cópula es NQP.
11.7 Dependencia de la Cola
Definición
Sea \(X\) y \(Y\) variables aleatorias continuas con funciónes de distribución \(F\) y \(G\) respectivamente.
La Dependencia de la Cola Superior se denota por \(\lambda_U\) y se define como el límite ( si existe) de l aprobabilidad condiciona de \(Y\) sea mayor que el percentil 100 de \(G\) dado que \(X\) es mayor que la probabilidad del percentil 100 de \(F\) cuando \(t\) se aproxima a 1. Es decir:
Si tomamos \(X\), \(Y\) variales aleatoriass con marginales \(F\) y \(G\) respecticamente y con \(C\) Cópula asociada,con la sección diagonal \(\delta_c\). Si los límites de las dependencias de cola existen, \(\lambda_U\) y \(\lambda_L\) Entonces:
por la definición de la probabidad condicional, además que \(F(X)\) y \(G(X)\) se distribuyen Uniformente, se tiene que
\[=\lim_{t\to 1^-}\frac{\hat C(t,t)}{1-t}=\lim_{t\to 1^-}\frac{1-2u+C(u,u)}{1-u}=\lim_{t\to 1^-} 2-\frac{1-C(u,u)}{1-u}\] Similarmente se puede probar la otra igualdad (ejercicio)
Nota
Si \(\lambda_U=0\), Entonces X y Y son independientes en la cola superior.
Si \(\lambda_U \in (0,1]\), Entonces X y Y son dependientes en la cola superior.
Si \(\lambda_L=0\), Entonces X y Y son independientes en la cola inferior.
Si \(\lambda_L \in (0,1]\), Entonces X y Y son dependientes en la cola inferior.
Ejemplo
Consideremos \(C_\theta=\theta M(u,v)+(1-\theta)\Pi(u,v)\). Estimar \(\lambda_U\) y \(\lambda_L\) si existen
Estimemos la seccional diagonal:
\[\delta_C(t)=\theta M(t,t)+(1-\theta)\Pi(t,t)\]\[=\theta t+(1-\theta)t^2\] Por lo que:
Si \(C\) Cópula arquimediana con dependencia en las colas \(\lambda_U\) y \(\lambda_L\), entonces:
\(C_{\alpha,1}\) (producto interior) tiene dependencia en la cola superior \(\lambda_U\) y dependencia en la cola inferior \(\lambda_L^{1/\alpha}\).
\(C_{1,\beta}\) (producto exterior) tiene dependencia en la cola superior: \(2- (2-\lambda_U)^{1/\beta}\) y dependencia en la cola inferior \(\lambda_L^{1/\beta}\)
si \(C\) Cópula con dependencia en las colas \(\lambda_U\) y \(\lambda_L\), entonces la Cópula de sobreviviencia tiene dependencia en la cola superior: \(\lambda_L\) y dependencia en la cola inferior \(\lambda_U\)