4 Estadistica Bayesiana
4.1 Estadistica Bayesiana
En el lenguaje coloquial, las personas usan términos relacionados con la probabilidad para expresar la información o la incertidumbre que se tiene de las observaciones de eventos desconocidos.
Entre las frases cotidianas que indica probabilidad en el día a día podemos indicar:
No puede suceder
No sucede tan a menudo.
Sucede muy seguido.
Sucede casi siempre
En muy probable que…
Es improbable
Probable
no muy probable.
leer: Si afirma que “es muy posible, ¿Qué tan posible creen las personas que es?” https://www.elfinancierocr.com/gerencia/direccion-estrategica/si-afirma-que-es-muy-posible-que-tan-posible/UZO53M32GZGWNLYE7PMBDBAWAY/story/
Estas frases las podemos encontrar en las noticias:
Es muy probable que el SARS-COV-2 se atenúe y vuelva cada invierno, como la gripe. https://vinv.ucr.ac.cr/es/noticias/es-muy-probable-que-el-sars-cov-2-se-atenue-y-vuelva-cada-invierno-como-la-gripe
Qué se sabe de Kim Ju-ae, la hija y “más probable” sucesora del líder de Corea del Norte, Kim Jong-un. https://www.bbc.com/mundo/articles/cnd7kjx8dp5o
El “probable rebote” del IPC europeo esta semana amenaza con “enfriar” el mercado. https://www.bolsamania.com/noticias/mercados/probable-rebote-ipc-europeo-esta-semana-amenaza-enfriar-mercado–15734040.html
Aumentan las probabilidades de precipitaciones en las áreas mediterráneas afectadas por la sequía: nevadas a la vista. https://www.tiempo.com/ram/aumentan-las-probabilidades-de-precipitaciones-en-el-area-mediterranea-afectadas-por-la-sequia.html
Desde un aspecto probabilístico-matemático, las probabilidades pueden representar un modo numérico sobre las creencias de los datos, de tal manera que existe una relación entre la información y la probabilidad, cuando aparece nueva información, la regla o Teorema de Bayes nos proporciona una forma de actualizar esas creencias.
Este proceso de aprendizaje por medio del Teorema de Bayes es la base de la Inferencia Bayesiana o Estadística Bayesiana.
Los métodos Bayesianos nos permiten realizar entre otras cosas:
Construir estimadores de los parámetros.
Descripción parsimoniosa (simple) de los datos observados.
Estimados de datos perdidos o predicción de datos futuros.
Metodología computacionales potentes para la estimación, selección y validación de modelos.
Las metodologías Bayesianas consta de tres pasos fundamentales:
Especificar un modelo de probabilidad que incluye algún tipo de conocimiento previo ( a priori) sobre los parámetros del modelo dado.
Actualizar el conocimiento sobre los parámetros desconocidos condicionando el modelo de probabilidad a los datos observados.(verosimilitud)
Evaluar el ajuste del modelo a los datos y la sensibilidad de las conclusiones a los cambios en los supuestos del modelo.( a posteriori)
Estos tres pasos de las metodologías Bayesianas son las que generan un diferencia con la estadística clásica (frecuentista), ya que para la estadística clásica sólo se toma como fuente de información la muestra obtenida suponiendo, para los desarrollos matemáticos, que se podría tomar un tamaño infinito para una muestra.
Mientras que el caso Bayesiano, sin embargo, además de la muestra también juega un papel importante la información previa o externa que se posee en relación a los fenómenos a modelizar, en otras palabras mis creencias previas del comportamiento de los datos afectan mis resultados.
Esta sección es tomada de Sarabia (2003) y Gelman et al. (2013)
4.2 Teorema de Bayes
Teorema 4.1 Sea \(\{A_1,A_2,...,A_n \}\) una partición de espacio de eventos \(\Omega\), es decir es un conjunto mutuamente excluyentes y exhaustivo:
\[\text{ mutuamente excluyentes: } A_i \cap A_j =\emptyset \; \forall i,j=1,...,n \; i \neq j\]
\[\text{ exhaustivo } \bigcup_{i=n}^nA_i= \Omega\] tales que la probabilidad de cada uno de ellos es distinta de cero
\[P(A_i) \neq 0, \; \forall i=1,...,n\] Si B es un suceso cualquiera donde se conoce las probabilidades condicionadas \(P(B|A_i)\), entonces:
Definición 4.1 La Fórmula de Bayes o Regla de Bayes
La fórmula de Bayes se define como:
\[P(A_i|B)=\frac{P(B|A_i)P(A_i)}{\sum_{k=1}^nP(B|A_k)P(A_k)} \tag{4.1}\]
Nota \[\sum_{i=1}^nP(A_i|B)=1\]
Desde la perspectiva bayesiana, al existir información previa todas las probabilidades son condicionadas.
Ejemplo 4.1 Caso Judicial
En un caso Judicial en EEUU, se acusó a una universidad por una posible discriminación racial con base a un test para el ingresos de los estudiantes. Donde según la demanda cerca del 10% de los ingresaron a la Universidad eran afrodescendientes.
Tenemos como información que el test lo realizaron 48 personas afrodescendientes (\(A\)) y 259 personas caucásicas (\(C\)), los que aprobaron el test, fueron 26 afrodescendientes y 232 caucásicos.
Calcular la probabilidad de escoger un estudiantes al azar de los que realizaron el examen, según su etnia.
Estimar la proporción de los que aprobaron por etnia.
Estimar la probabilidad que apruebe un candidato dada su etnia.
Solución
La primera parte nos piden estimar la probabilidad de escoger un estudiante al azar según su etnia, esto sería:
\[P(A)=\frac{48}{48+259}=\frac{48}{307}=15.64 \%\]
\[P(C)=\frac{259}{307}=84.36\%\]
Observe que en este caso, la población analizada solo es determinada por dos etnias, lo que generan una partición de espacio. \(P(A)+P(C)=1\).
En la segunda parte de este ejemplo nos solicitan la proporción de los estudiantes que aprobaron es decir, la probabilidad de escoger un estudiante al azar de una determinada etnia.
\[P(A|R=\text{aprobado})=\frac{26}{26+232}=\frac{26}{258}=10.08\%\]
\[P(C|R)=\frac{232}{258}=89.92\%\]
Con este cálculo, se observa el número presentado por los demandantes, sin embargo, estos datos no consideran una información previa que es la cantidad de estudiantes por etnia que matricularon el examen.
La tercera parte de este problema consta en condicionar los que aprobaron según su etnia es decir:
\[P(R|A)=\frac{P(A|R)P(R)}{P(A)}=\frac{\frac{26}{258}\frac{258}{307}}{\frac{48}{307}}=\frac{26}{48}=54.17\%\]
\[P(R|C)=\frac{P(C|R)P(R)}{P(C)}=\frac{232}{259}=89.57\%\]
Se puede observar como se condiciona la información, la probabilidad que un estudiante afrodescendiente apruebe aumenta, y no se relaciona con el 10% indicado en la demanda, aunque sigue siendo un po
4.3 Ley de la Probabilidad Total
Teorema 4.2 Ley de la Probabilidad Total
Sea \(\{A_1,A_2,...,A_n \}\) una partición del espacio de eventos \(\Omega\), tal que la probabilidad de cada uno de ellos es distinta de cero (\(P(A_i)\neq 0\), \(\forall i=1,...n\)). Si \(B \in \Omega\), un evento cualquiera, entonces:
\[P(B)=\sum_{k=1}^nP(B|A_k)P(A_k)\] Esto lo podemos aplicar para el caso de distribuciones
- Caso Discreto
\[f(x)=\sum_{k=1}^nf(x|Y=k)P(Y=y) \tag{4.2}\]
- Caso Continuo
\[f(x)=\int f(x|y)f(y)dy \tag{4.3}\]
Ejemplo 4.2 Cadenas de Producción
En una fábrica posee 4 cadenas de producción: \(A_1,A_2,A_3,A_4\). El 35% de la producción total lo produce la cadena \(A_1\) y el 20%,24% y 21% en \(A_2,A_3,A_4\) respectivamente. Los datos indican de los productos fabricados el 1% de \(A_1\), el 3% de \(A_2\), el 2.5% de \(A_3\) y el 2% de \(A_4\) presentan algún error.
¿Cuál es la probabilidad de que un producto elegido al azar de la producción total sea defectuoso?
Dado que se detectó un producto con error. ¿De cuál proceso es más probable que lo haya producido?
Solución
La primera parte:
Sea \(E\) el evento que un producto sea defectuoso, por la Ley de la probabilidad Total, tenemos que:
\[P(E)=\sum_{k=1}^4P(E|A_k)P(A_k)=0.01(0.35)+0.03(0.20)+0.025(0.24)+0.02(0.21)=0.0197\] Segunda parte, observe que nos indica que el error se detectó y lo que queremos es hallar de cuál proceso es más probable que lo haya fabricado, para esto requerimos al Teorema de Bayes
\[P(A_1|E)=\frac{P(E|A_1)P(A_1)}{P(E)}=\frac{0.01(0.35)}{0.0197}=17.77\%\]
De similar manera podemos determinar que:
\[P(A_2|E)=30.46\%\] \[P(A_3|E)=30.46\%\] \[P(A_4|E)=21.32\%\]
Dado que encontramos un producto defectuoso, lo más probable es que haya sido producido o por el proceso \(A_2\) o el proceso \(A_3\) dado que tienen las misma probabilidad.
Ejemplo 4.3 Distribución Marginal
Sea \(X|Y \sim Poi(y)\) (Poisson de parámetro y) con \(Y \sim Exp(\beta)\), se quiere estimar la distribución Marginal de \(X\)
\[f(x)=\int f(x|y)f(y)dy\]
Nota: Si \(X \sim Poi(\lambda)\), entonces:
\[P(X=x)=\frac{e^{-\lambda}\lambda^x}{x!},x=1,2,...\]
Si \(Y \sim Exp(\beta)\), entonces
\[f(y)=\beta e^{-\beta y}, \; y\geq 0\]
Solución:
Retornando al Ejemplo 4.3 tenemos que:
\[f(x)=\int f(x|y)f(y)dy\]
\[f(x)=\int_0^\infty \frac{e^{-y}y^x}{x!}\beta e^{-\beta y}dy=\frac{\beta}{x!}\int_0^\infty y^x e^{-(\beta+1) y}dy\]
recordemos que la distribución gamma cumple: \[\gamma(a,b)= \frac{b^a}{\Gamma(a)}x^{a-1}e^{-bx},\;x\geq0\] \[\Rightarrow \int_0^\infty \frac{b^a}{\Gamma(a)}x^{a-1}e^{-bx}dx=1\]
Para resolver la integral agregaremos los elementos necesarios, tomando \(a=x+1\) y \(b=\beta+1\), este método se llama integración Gamma:
\[\int_0^\infty y^x e^{-(\beta+1) y}dy= \frac{\Gamma(x+1)}{(\beta+1)^{x+1}}\int_0^\infty \frac{(\beta+1)^{x+1}}{\Gamma(x+1)}y^x e^{-(\beta+1) y}dy=\frac{\Gamma(x+1)}{(\beta+1)^{x+1}}\] \[\Rightarrow f(x)=\frac{\beta}{x!}\int_0^\infty y^x e^{-(\beta+1) y}dy=\frac{\beta}{x!}\frac{\Gamma(x+1)}{(\beta+1)^{x+1}}\] Nota:
Recordar que \(\Gamma(x)=(x-1)\Gamma(x-1)\), en particular si \(x\in \mathbb{N}\), entonces \(\Gamma(x)=(x-1)!\). \(\Gamma(\frac{1}{2})=\sqrt{\pi}\)
\[\Rightarrow f(x)=\frac{\beta}{x!}\int_0^\infty y^x e^{-(\beta+1) y}dy=\frac{\beta}{x!}\frac{\Gamma(x+1)}{(\beta+1)^{x+1}}=\frac{\beta}{(\beta+1)^{(x+1)}}\] Si denotamos \(p=\frac{\beta}{\beta+1}\), entonces que \(0<p<1\).
\[\Rightarrow \beta=\frac{p}{1-p}\]
podemos reescribir \(f(x)\) como:
\[\Rightarrow f(x)=p(1-p)^x,\; x=1,2,...\]
Que esta última ecuación es la función de probabilidad de una geométrica.
Ejemplo 4.4 Caso Mellizos
Los mellizos pueden ser dos tipos: (\(M\)) monocigóticos, que proceden del mismo óvulo, o (\(D\)) dicigóticos, que proceden de óvulos diferentes. En general, los monocigóticos se parecen mucho y son del mismo sexo, mientras que los dicigóticos en ocasiones son bastantes diferentes e incluso de sexo diferentes.
Así, asumiendo que los sexos son igualmente probables y denotando para cada par de mellizos ( mujer o hombre) como \(mm, hh, mh\) tenemos:
\[P(mm|M)=P(hh|M)=\frac{1}{2}, \; P(mh|M)=0\]
\[P(mm|D)=P(hh|D)=\frac{1}{4},\; P(mh|D)=\frac{1}{2}\] Se nos solicita determinar \(P(mm)\) en términos de \(P(M)\)
Solución:
Estimemos por la Ley de la Probabilidad Total (Ecuación 4.2) el valor de \(P(mm)\), es decir:
\[P(mm)=P(mm|M)P(M)+P(mm|D)P(D)\] Pero sabemos que: \(P(M)=1-P(D)\) según el enunciado.
\[\Rightarrow P(mm)=P(mm|M)P(M)+P(mm|D)(1-P(M))=\frac{1}{2}P(M)+\frac{1}{4}-\frac{1}{4}P(M)\]
\[\Rightarrow P(M)= 4P(mm)-1\]
Ejemplo 4.5 Caso Concurso
En un concurso un participante tiene que elegir entre tres puertas cerradas \(A,B,C\). Detrás de dos puertas hay una cabra y en la otra hay un millón de dólares
- ¿Cuál es la probabilidad que esté el millón de dólares detrás de cada puerta?
Solución:
Con la información que tenemos, la probabilidad sería la misma en cada puerta esto sería de \(1/3\).
- Una vez elegida una puerta, asumamos que el participante escogió la \(B\), antes de continuar el presentador abre una puerta no escogida, supongamos que abre la \(A\), y se observa que lo que hay es una cabra. Y le ofrece cambiar la puerta, es decir escoger la \(C\). ¿Que le recomendaría al participante?
Solución:
Analicemos las probabilidades que el presentador haya escogido la puerta \(A\), estas son la siguientes:
La probabilidad que el presentador escoja la puerta \(A\) dado que el millón de dólares (M) está detrás de la puerta \(A\) es cero. \(P(abrir A|M \in A)=0\).
La probabilidad que el presentador escoja la puerta \(A\) dado que el millón es dólares está detrás de la puerta B es de \(1/2\), para el presentador le es indiferente abrir a puerta \(A\) o la \(C\). \(P(abrir A|M \in B)=1/2\)
La probabilidad que el presentador escoja la puerta \(A\) dado que el millón de dólares está detras de la puerta \(C\) es 1. \(P(abrir A|M \in C)=1\)
Aplicando la ley de probabilidades totales (Ecuación 4.2), tenemos que:
\[P(abrir A)=P(abrir A|M \in A)P(A)+P(abrir A|M \in B)P(B)+P(abrir A|M \in C)P(C)=\frac{1}{2}\]
Usando Bayes (Ecuación 4.1) tenemos para nuestro problema que:
\[P(M \in B|Abrir A)=\frac{P(abrir A|M \in B)P(B)}{P(abrir A)}=\frac{1}{3}\] \[P(M \in C|Abrir A)=\frac{P(abrir A|M \in C)P(C)}{P(abrir A)}=\frac{2}{3}\]
Una buena recomendación sería cambiar de puerta ya que posee una mayor probabilidad.
4.4 Integración Gamma e Integración Beta
En los ejemplos anteriores utilizamos la integral de la distribución Gamma para estimar probabilidades, es usual también utilizar la integral de la distribución Beta:
\[\beta(a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}x^{a-1}(1-x)^{b-1},\;0<x<1\]
\[\Rightarrow \int_{0}^{1}\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}x^{a-1}(1-x)^{b-1}dx=1\]
Ejercicios
Usando la Integración Gamma resuelva:
- \(\int_{0}^{\infty} x^6e^{-2x}dx\)
- \(\int_{0}^{\infty} \sqrt{y}e^{-y^3}dy\)
- \(\int_{0}^{\infty} 3^{-4z^2}dz\)
- \(\int_{-\infty}^{\infty} e^{-\frac{1}{2}x}dx\)
Usando la Integración Beta resuelva:
- \(\int_{0}^{1} x^4(1-x)^{3}dx\)
- \(\int_{0}^{2} \frac{x^2}{\sqrt{(2-x)}}dx\)
- \(\int_{0}^{a} y^4\sqrt{(a^2-y^2)}dy\)
- \(\int_{0}^{a} y^4\sqrt{(a^2-y^2)}dy\)
- \(\int_{-1}^{0} (x+1)^6x^2dx\)
4.5 Bayes Continuo
Para una v.a continua \(X\) podemos enunciar el Teorema de Bayes, Teorema 4.1, de la siguiente manera:
\[f(x|y)=\frac{f(y|x)f(x)}{f(y)}=\frac{f(y|x)f(x)}{\int f(y|x)f(x)dx}\]
como \(f(y)\) es independiente de \(X\), es decir es una constante con respecto a esa variable, podemos escribir el Teorema 4.1 en forma proporcional (\(\propto\)):
Nota: El símbolo \(\propto\) significa que es igual salvo una constante (proporcional)
El Teorema 4.1 lo podemos escribir como:
\[f(x|y) \propto f(y|x)f(x) \tag{4.4}\]
Esta notación, nos permite “olvidarnos” de las constantes multiplicativas hasta el final de los cálculos en los modelos complicados y concentrarnos en los núcleos o kernels de las densidades.
Ejemplo 4.6 Continuación Ejemplo 4.3, Poisson-Gamma
Sea \(X|Y \sim Poi(y)\) (Poisson de parámetro y) con \(Y \sim Exp(\beta)\), del Ejemplo 4.3, estimaremos la distribución \(Y|X\)
\[f(y|x)=\frac{P(x|y)f(y)}{P(x)} \propto P(x|y)f(y)\]
\[f(y|x) \propto \frac{e^{-y}y^x}{x!}\beta e^{-\beta y} \propto y^x e^{-(\beta+1)y}\]
Observe que la expresión \(y^x e^{-(\beta+1)y}\) es la función de densidad de una distribución Gamma, a esta expresión diremos que la distribución \(Y|X\) tiene como núcleo una distribución Gamma: \(\gamma(x+1,\beta+1)\)
Ejemplo 4.7 Caso Exponencial-Gamma
Sea \(X|\theta \sim Exp(\theta)\) y \(\theta \sim \gamma(\alpha,\beta)\), estimemos la distribución de \(\theta|x\)
\[f(y|x) \propto f(x|y)f(y)\]
\[f(y|x) \propto \theta e^{-\theta x}\frac{\beta^\alpha\theta^{\alpha-1}e^{-\beta \theta}}{\Gamma(\alpha)}\propto \theta^{\alpha}e^{-(\beta+x)\theta}\]
Es decir la distribución \(\theta|x\) posee como núcleo una distribución \(\gamma(\alpha+1,\beta+x)\), esto lo podemos escribir como:
\[\theta|x \sim \gamma(\alpha+1,\beta+x)\]
4.5.1 Media y Varianza Condicionada
Definición 4.2 Media y Varianza Condicionada
Dadas dos v.a. \(X\) y \(Y\), definimos la media y la varianza condicionada de \(X\) dado \(Y=y\) como:
\[E[x|Y=y]=\int xf(x|y)dx\]
\[var[x|Y=y]=\int (x-E[x|Y=y])^2f(x|y)dx\]
Teorema 4.3 Ley de la esperanza y varianza total Dadas dos v.a. \(X\) y \(Y\) se tiene:
Ley de la esperanza total (Propiedad de torre) \[E_x[X]=E_y[E_x[X|Y]] \tag{4.5}\]
Ley de la varianza total (desconmposición de la varianza) \[var_x[X]=E_y[var_x[X|Y]]+var_y[E_x[X|Y]] \tag{4.6}\]
Ejemplo 4.8 Continuación Ejemplo 4.3, Poisson-Gamma
Seguimos desarrollando los resultados para el Ejemplo 4.3.
Sea \(X|Y \sim Poi(y)\) (Poisson de parámetro \(y\)) con \(Y \sim Exp(\beta)\), calcularemos la media y la varianza de \(X\), asumiendo que no sabemos que sigue una distribución geométrica.
Nota Recordemos que si \(X \sim P(\lambda) \Rightarrow E[X]=var[x]=\lambda\) Recordemos que si \(X \sim exp(\lambda) \Rightarrow E[X]=1/\lambda,\;var[x]=1/\lambda^2\)
\[E_x[X]=E_y[E_x[X|Y]]=E_y[Y]=\frac{1}{\beta}\]
\[var_x[X]=E_y[var_x[X|Y]]+var_y[E_x[X|Y]]=E_y[Y]+var_y[Y]=\frac{1}{\beta}+\frac{1}{\beta^2}\]
Si hacemos la sustitución \(p=\frac{\beta}{\beta+1}\), obtenemos los momentos de una distribución geométrica, con la notación habitual.
Ejemplo 4.9 Continuación Ejemplo 4.7
Sea \(X|\theta \sim Exp(\theta)\) y \(\theta \sim \gamma(\alpha,\beta)\), los valores del Ejemplo 4.7. Estimemos la esperanza de \(X\)
\[E_x[X]=E_{\theta}[E_x[X|\theta]]=E_{\theta}[1/\theta]\]
\[E_x[X]=\int_{0}^{\infty}\frac{1}{\theta}\frac{\beta^\alpha}{\Gamma(\alpha)}\theta^{\alpha-1}e^{-\beta \theta}d\theta\]
\[E_x[X]=\frac{\beta^\alpha}{\Gamma(\alpha)}\int_{0}^{\infty}\theta^{\alpha}e^{-\beta \theta}d\theta=\frac{\beta^\alpha}{\Gamma(\alpha)}\frac{\Gamma(\alpha-1)}{\beta^{\alpha-1}}=\frac{\beta}{\alpha-1}\]
La esperanza sólo existe si \(\alpha>1\).
Nota
Si Tomamos \(Z=X+\beta\) con \(X\) del ejemplo anterior, \(Z\sim Pareto\) y \(E[Z]=\alpha\beta/(\alpha-1)\) para \(\alpha>1\)
4.6 Modelo Bayesiano
En la estadística bayesiana tenemos dos tipos de valores los conocidos y desconocidos, nuestro objetivo es usar las cantidades o datos conocidos mediante un modelo paramétrico para generar inferencias sobre las cantidades desconocidas, afectando nuestras creencias que teníamos al inicio.
Queremos encontrar la distribución del parámetro \(\theta\) dada la información conocida \(D\). Esto lo podemos expresar como:
4.6.1 Principio de Verosimilitud
Teorema 4.4 Dada una muestra de datos \(X=x_1,x_2,...,x_n\). Se dice que dos funciones de verosimilitud tiene la misma información sobre \(\theta\) si son proporcionales entre sí:
\[L_1(X|\theta) \propto L_2(X|\theta)\].
Los métodos bayesianos cumplen con el principio de verosimilitud, es decir que si \(L_1(X|\theta) \propto L_2(X|\theta)\), dada una distribución a priori \(\pi(\theta)\), entonces:
\[\pi_1(\theta|X)\propto\pi(\theta)L_1(X|\theta) \propto \pi(\theta)L_2(X|\theta)\propto \pi_2(\theta|X)\]
En los modelos Bayesianos, existen tres grandes modelos
Modelo Poisson-Gamma, que lo estudiamos en los ejemplos anteriores.
Modelo Binomial-Beta
Modelo Normal-Normal
Ejemplo 4.10 Modelo Binomial-Beta
Supongamos un experimento que consiste en analizar \(n\) casos independientes de éxito con probabilidad \(p\) y con fracaso (\(1-p\)), es decir la verosimilitud sigue unas distribución binomial
\[L(X|p)=\binom{n}{x}p^x(1-p)^{n-x}\]
Si asumimos que la distribución a priori es una distribución Beta de parámetros \(\alpha , \beta\). Entonces la distribución a posteriori es:
\[\pi(\theta|X)\propto\pi(\theta)L(X|\theta)\] \[\pi(\theta|X)\propto p^{\alpha-1}(1-p)^{\beta-1}p^x(1-p)^{n-x}\]
\[\pi(\theta|X)\propto p^{x+\alpha-1}(1-p)^{n-x+\beta-1}\]
Es decir la distribución a posteriori de p tiene núcleo una Beta de parámetros (\(x+\alpha,n-x+\beta\)).
Ejemplo 4.11 Modelo Normal-Normal
Sea \(X|\mu\sim N(\mu,\sigma^2)\) y \(\mu \sim N(\mu_0,\sigma^2_0)\), con \(X=x_1,x_2,...,x_n\) una m.a.s. con \(\mu\) desconocido y demás variables conocidas.
Halle el núcleo de la distribución Marginal X
Calcule el núcleo de la distribución a posteriori de \(\mu|X\)
Nota:
Si \(Z \sim N(m,s^2) \propto exp\left(-\frac{(z-m)^2}{2s^2}\right)\propto exp\left(-\frac{(z^2-2zm}{2s^2}\right)\)
Solución
- Halle la distribución Marginal X
\[f(\mu)=\int f(x|\mu)f(\mu)d\mu \propto f(x|\mu)f(\mu)\]
\[\Rightarrow f(x)\propto exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)exp\left(-\frac{(\mu-\mu_0)^2}{2\sigma_0^2}\right)\] Como realizamos la integral respecto a \(\mu\)
\[\Rightarrow f(x)\propto exp\left(\frac{2x\mu-\mu^2}{2\sigma^2}\right)exp\left(\frac{\mu^2-2\mu\mu_0}{2\sigma_0^2}\right)\]
\[\Rightarrow f(x)\sim N(a,b)\]
donde:
\(a=\left(x\sigma_0^2+\mu_0\sigma^2\right)/(\sigma^2+\sigma_0^2)\) y \(b=\frac{\sigma^2\sigma_0^2}{\sigma^2+\sigma_0^2}\)
Nota Estamos encontrando que la distribución marginal, tiene como núcleo una distribución normal, para más detalles ver la nota, al final del cápitulo.
- Calcule la distribución a posteriori de \(\mu|X\)
\[\pi(\theta|X)\propto\pi(\theta)L(X|\theta)\]
\[\Rightarrow \pi(\theta|X)\propto \prod_{i=1}^n exp\left(\frac{2x_i\mu-\mu^2}{2\sigma^2}\right)exp\left(\frac{\mu^2-2\mu\mu_0}{2\sigma_0^2}\right)\]
En un proceso similar, podemos llegar que \(\mu|X \sim N(A,B)\)
donde:
\[A=\frac{\frac{n\bar X}{\sigma^2}+\frac{\mu_o}{\sigma_0^2}}{\frac{n}{\sigma^2}+\frac{1}{\sigma_0^2}}\]
\[B=\frac{1}{\frac{n}{\sigma^2}+\frac{1}{\sigma_0^2}}\]
También a esta distribución recibe el nombre de distribución conjugada respecto a la verosimilitud.
Ejercicios
Se analizan a los 2 vendedores que tiene a su cargo un supervisor de una aseguradora: Carlos y Mariana; Carlos vende el 75% de las pólizas y Mariana el 25%. Carlos tiene quejas en el 15% de las pólizas y Mariana en un 20%. Si un Cliente presenta una queja, ¿Cuál es la probabilidad de que Carlos vendiera la póliza?
El director de una compañía productora de refrescos planea la introducción de un nuevo sabor. Anteriormente, 45% de los productos lanzados al mercado tuvieron éxito; antes de lanzar algún refresco se realiza una investigación, de la cual se expide un informe favorable. En el pasado, el 75% de los refrescos exitosos recibieron informes favorables y el 25% de refrescos sin éxito también recibieron un informe favorable. ¿Cuál es la probabilidad de que el nuevo sabor de refresco tenga éxito si recibió un informe favorable?
Tenemos 2 bolsas, A y B. la bolsa A tiene 2 monedas de 100 colones y 8 de 500 colones; mientras la bolsa B tiene 4 monedas de 100 colones y 6 de 500 colones. Si la probabilidad de escoger cualquier bolsa es 0.5. Se escoge una bolsa al azar y se saca una moneda de 500 colones ¿Cuál es la probabilidad de que sea de la bolsa A?
Si hay inundaciones en la provincia de Limón en este año, la probabilidad que suba el precio del banano es de un 80%. Pero si no se presentan inundaciones, la probabilidad de que se incremente el precio es de un 45%. Se estimó que hay un 60% de probabilidad de que se presenten inundaciones este año en esta provincia. Si el precio del banano aumenta. ¿Cuál es la probabilidad de que se deba a las inundaciones?
Para una muestra de tamaño n, obtener la distribución a posteriori y la marginal de los siguientes casos:
- \(X|\mu \sim N(\mu,1)\) y \(\pi(\mu)\propto 1\) (caso probabilidad a priori no informativa)
- \(X|\mu \sim N(\mu,\sigma^2)\) y \(\mu \sim N(2,4)\)
- \(X|\mu \sim N(\mu,\sigma^2)\) y \(\mu \sim N(0,1)\)
- \(X|\mu \sim N(0,\sigma^2)\) y \(\sigma^2 \sim \gamma(1,2)\)
- \(X|\lambda \sim P(\lambda)\) y \(\lambda \sim \gamma(2,1)\)
- \(X|\theta \sim Exp(\theta)\) y \(\theta \sim \gamma(2,2)\)
- \(X|p \sim B(n,p)\) y \(p \sim \beta(1,2)\)
Estimar para todos los incisos anteriores, excepto el d, la esperanza y varianza de X.
Los datos siguientes representan el número de llegadas (intervalos de 2 minutos) a una caja de un supermercado: 0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4,4,5. Usando una distribución a priori \(\gamma(2,1)\) obtener la densidad a posteriori bajo un modelo \(P(\theta)\).
Un asegurador está modelando el monto de las reclamaciones \(X\) con una variable exponencial de parámetro \(\lambda\) desconocido, es decir: \[f(x|\lambda)=\lambda e^{(-\lambda x)},x \geq 0\] Con \(\pi (\theta)=10e^{(-10\lambda)}\) , las últimas tres reclamaciones fueron \(x_1=2,x_2=3,x_3=5\)
- Determine el núcleo de la distribución a posteriori de \(\lambda\) e indique que tipo de distribución es.
- Asuma que \(\lambda | x_1,x_2,x_3 \sim \gamma(4,20)\). Determine la esperanza de la cuarta reclamación (prima de bayes), es decir E[x_4|x_1,x_2,x_3]
4.7 Intervalos de Credibilidad
El equivalente de los intervalos de confianza de la estadística clásica en la estadística bayesiana son los intervalos de credibilidad.
Definición 4.3 Intervalos de credibilidad Los puntos \(a_1,a_2\) definen un intervalo de credibilidad con probabilidad \(1-\alpha\) si cumplen
\[P(a_1\leq x \leq a_2)=\int_{a_1}^{a_2} \pi(\theta|x)d\theta=1-\alpha \]
Ejemplo 4.12 Caso Normal
Sea \(X|\mu \sim N(\mu,1)\). sea \(\pi(\mu) \propto 1\), es decir una probabilidad a priori no informativa, se sabe por los ejercicios anteriores que
\[X|\mu\sim N(\bar X,1/n)\] Por lo que podemos construir varios intervalos de credibilidad a posteriori con un nivel de creencia del 95%, por ejemplo
\(]-\infty,\bar X+\frac{1.64}{\sqrt{n}}]\)
\([\bar X-\frac{1.64}{\sqrt{n}},\infty[\)
\([\bar X\pm\frac{1.96}{\sqrt{n}}]\)
Cómo podemos observar existen muchos (infinitos) intervalos de credibilidad posibles. El intervalo más corto, se llama un invervalo de máxima densidad (MD), del ejemplo anterior el MD a posteriori del 95% es \([\bar X\pm\frac{1.96}{\sqrt{n}}]\).
En este caso nos coincide con el intervalo con el p-valor de confianza.
Teorema 4.5 Teorema de Bernstein-von Mises
El teorema de Bernstein-von Mises, también se le conoce como teorema de la normalidad asintótica del posterior o Teorema del límite Central Bayesiano, y enuncia lo siguiente:
Supongamos una muestra de tamaño grande y que las variables aleatorias \(X_i|\theta \sim f(x_i|\theta)\) i.i.d y la densidad de priori para \(\theta\) es \(\pi(\theta)\). Entonces la muestra \(\textbf{x}=(x_1,x_2,...,x_n)\), cuando \(n \rightarrow \infty\) se tiene que la densidad a posteriori \(\pi(\theta | \textbf{x})\) es:
- Si existe la media y la varianza de la distribución a posteriori: \(\pi(\theta | \textbf{x}) \sim N(E(\theta | \textbf{x}),Var(\theta | \textbf{x}))\)
- Si existe la moda \(\tilde \theta\) y \(i(\theta)\) es \(-\frac{\partial^2L(\theta | \textbf{x})}{\partial^2\theta}\): \(\pi(\theta | \textbf{x}) \sim N(\tilde \theta,i(\tilde\theta)^{-1})\)
- Si existe el estimador de máxima verosimilitud \(\hat{\theta}\) de \(\theta\): \(\pi(\theta | \textbf{x}) \sim N(\hat \theta,i(\hat\theta)^{-1})\)
- Si existe el estimador de máxima verosimilitud \(\hat{\theta}\) de \(\theta\): \(\pi(\theta | \textbf{x}) \sim N(\hat \theta,I(\hat\theta)^{-1})\) donde \(I(\theta)\) es la Información de Fischer. \(\blacksquare\)
Ejemplo 4.13 Aplicación Teorema de Bernstein-von Mises
Sea una muestra grande de 50 datos de una variable aleatoria $ X_i | () $, donde \(\theta\) representa el parámetro de tasa, con media muestral igual a 1.5. La densidad a priori para $ $ es \(\pi(\theta) \sim \text{Gamma}(2, 3)\)
- Determine la función de verosimilitud para la muestra.
- Construya la función de distribución a posteriori de \(\theta\)
- Determine la media y la varianza a posteriori.
- Determine un intervalo de credibilidad de máxima densidad al 95%.
Solución
La función de verosimilitud para una muestra \(x = (x_1, x_2, \dots, x_n)\) es: \[ L(\theta | x) \propto \theta^n e^{-\theta \sum_{i=1}^n x_i}. \] \[ L(\theta | x) \propto \theta^{50} e^{-75\theta}. \] Combinando la verosimilitud con la distribución a priori, se obtiene la distribución a posteriori de \(\theta\): \[ \theta | x \sim \gamma(52, 78). \] La media y la varianza de la distribución a posteriori son: \[ E(\theta | x) = \frac{52}{78}=\frac{2}{3}, \quad \text{Var}(\theta | x) = \frac{52}{(78)^2}=\frac{1}{117}. \] Usando inciso 1 del Teorema 4.5, el intervalo de credibilidad de máxima densidad al 95% para \(\theta\) es: \[ \left( E(\theta | x) - 1.96 \sqrt{\text{Var}(\theta | x)}, \, E(\theta | x) + 1.96 \sqrt{\text{Var}(\theta | x)} \right). \] \[ IC_{0.95}=\left( 0.4854, \, 0.8478 \right). \]
Ejercicios
- Dada una muestra grande de 150 datos de una variable aleatoria $ X_i | p BN(n, p) $, donde $ p $ representaba la probabilidad de éxito en cada prueba. La distribución a priori de $ p $ se asume $ (2,2) $. La muestra presentó 60 casos de éxito.
- Aproxime el valor de \(p\) según la muestra.
- Determine la función de verosimilitud para la muestra.
- Construya la función de distribución a posteriori de \(\theta\)
- Determine la media y la varianza a posteriori.
- Determine un intervalo de credibilidad de máxima densidad al 95%.
- Estime un intervalo de confianza al 95 %
- Una muestra de 55 eventos de una variable $ X_i | () $, con la suma de los eventos igual a 5.5. Se considera una distribución a priori para $ $ es $ (2.5, 1) $.
- Determine la función de verosimilitud para la muestra.
- Construya la función de distribución a posteriori de \(\theta\)
- Determine la media y la varianza a posteriori.
- Determine un intervalo de credibilidad de máxima densidad al 90%.
Sea \(X_i | \mu \sim N(\mu,2)\) con distribución a priori de \(\mu\) de \(\pi(\mu) \sim N(0,1)\) Construya un intervalo de credibilidad al 90% para \(\mu\)
Sea una muestra de 50 datos de una variable una variable aleatoria \(X_i |\theta~Poi(\theta)\), con media muestral igual a 2. La densidad a priori para \(\theta\) es \(\pi (\theta) \sim \gamma(2,3)\) .
- Determine la distribución a posteriori de \(\theta\) dado la muestra.
- Determine la Esperanza y varianza de la distribución a posteriori
- Determine un intervalo de credibilidad de máxima densidad al 95%
4.8 Test de Hipótesis Bayesianos
En la teoría bayesiana se admite el contraste de hipótesis, que a diferencia de la teoría clásica no depende del p-valor. El contraste de hipótesis bayesiana es sencillo, sólo necesitamos calcular las probabilidades a posteriori de cada una de las hipótesis.
\[p_0=P(H_0 \text{ cierta }|x)\] \[p_1=P(H_1 \text{ cierta }|x)\]
Para estas debemos disponer de las probabilidades a priori
\[\pi_0=P(H_0 \text{ cierta })\] \[\pi_1=P(H_1 \text{ cierta })\] Para los casos que no tenemos información previa sobre \(\pi_0\) y de \(\pi_1\) podemos asumir el caso no informativo, que sería dar la misma probabilidad a ambas hipótesis, es decir para el analista es indiferente que sea \(\pi_0\) o \(\pi_1\), para esto se estiman como:
\[\pi_0= \pi_1= \frac{1}{2}\]
Otra forma de estimar la distribución a priori es utilizar la llamada Distribución a priori de Jeffreys que se define como:
\[\pi(\theta)\propto \sqrt{I(\theta)}\]
Donde \(I(\theta)\) es la información de Fischer de \(\theta\).
Definición 4.4 Definición de los odds
Los odds a priori de \(H_0\) frente \(H_1\) como el cociente \(\frac{\pi_0}{\pi_1}\), cuando es no informativa el odd a priori es 1.
Los odds a posterior de \(H_0\) frente \(H_1\) como el cociente \(\frac{p_0}{p_1}\)
Si los odds son cercanos a 1 indican que son igualmente probables ambas probabilidades, la a priori o a posteriori.
Definición 4.5 Definición Factor Bayes
Denominaremos factor de Bayes en favor de \(H_0\) frente a \(H_1\) al cociente
\[B_{01}=\frac{\frac{p_0}{p_1}}{\frac{\pi_0}{\pi_1}}=\frac{p_0\pi_1}{p_1\pi_0} \tag{4.7}\]
También podemos definir el factor de Bayes en favor de \(H_1\) frente a \(H_0\) como:
\[B_{10}=\frac{1}{B_{01}} \tag{4.8}\]
4.8.1 Pruebas de Hipótesis Simple
\[H_0:\theta=\theta_0\;vs\;\theta = \theta_1\]
Tenemos que por Ecuación 4.7 que
\[B_{01}=\frac{p_0\pi_1}{p_1\pi_0}\]
Al ser simple nuestra prueba cada probabilidad de a posteriori las podemos escribir como
\[p_0 \propto L(X|\theta_0)\pi_0 \;,\; p_1 \propto L(X|\theta_1)\pi_1\] Por lo que si sustituimos en Ecuación 4.7 tenemos que:
\[B_{01}=\frac{p_0\pi_1}{p_1\pi_0}=\frac{L(X|\theta_0)\pi_0\pi_1}{L(X|\theta_1)\pi_1\pi_0}=\frac{L(X|\theta_0)}{L(X|\theta_1)}\]
Ejemplo 4.14 Caso goleador
La posibilidad que un jugador de fútbol anote después de \(x\) intentos se sabe que sige una distribución geométrica, \(f(x|\theta)=\theta(1-\theta)^x\), tenemos una muestra de los últimos 10 goles anotados, en promedio requirió 1,3 intentos. Un analista deportivo estima que su probabilidad de anotar es de \(\frac{3}{4}\) mientras que otro analista asegura que es de \(\frac{1}{2}\). Asumiendo una situación no informativa \((\pi_0=\pi_1=\frac{1}{2})\).
¿Cuál analista tiene más grado de credibilidad?
solución:
Realicemos el siguiente contraste:
\[H_0:\theta_0=\frac{3}{4}\;vs\;H_1:\theta_1=\frac{1}{2}\]
estimemos \(p_0\)
\[p_0=\pi_0L(x|\theta_0)\]
\[\Rightarrow p_0=\frac{1}{2}\theta_0^n(1-\theta_0)^{n\bar x}\]
similarmente tenemos que:
\[p_1=\frac{1}{2}\theta_1^n(1-\theta_1)^{n\bar x}\]
Analizando los cocientes para encontrar el factor de bayes tenemos:
\[\frac{\pi_0}{\pi_1}=1\]
\[\frac{p_0}{p_1}=\left(\frac{\theta_0}{\theta_1} \right)^n\left(\frac{1-\theta_0}{1-\theta_1} \right)^n\bar x=0.61\]
Con base en la siguiente tabla nuestro factor de bayes es igual a 0.61 se rechaza la hipótesis nula, se acepta la alternativa, de forma debil, es decir su probabilidad de goles es \(\frac{1}{2}\), dado que es 1,63 (\(1/B_{01}\)) veces más probable o creíble.
| Valor | \(B_{01}\) |
|---|---|
| >30 | Muy fuerte a favor de \(H_0\) |
| 10–30 | Fuerte a favor de \(H_0\) |
| 3–10 | Moderada a favor de \(H_0\) |
| 1–3 | Débil a favor de \(H_0\) |
| 1 | No hay evidencia (conclusión) |
| 0,3–1 | Débil a favor de \(H_1\) |
| 0,3–0,1 | Moderada a favor de \(H_1\) |
| 0,1–0,03 | Fuerte a favor de \(H_1\) |
| <0,03 | Muy fuerte a favor de \(H_1\) |
Ejemplo 4.15 Varianza
Consideremos \(X \sim N(0,\sigma^2)\) se define el estadístico \(h=\frac{1}{\sigma^2}\), supongamos el contraste:
\[H_0:h_0=1\;vs\;H_1:h_1=\frac{1}{2}\]
Para una m.a.s de n elementos. Encuentre el valor máximo de la varianza poblacional para aceptar la hipótesis nula. Suponga una probabilidad a priori no informativa.
\[B_{01}=\frac{p_0\pi_1}{p_1\pi_0}=\frac{L(x|\sigma^2=1)}{L(x|\sigma^2=2)}\]
Como \(X\sim N(0,\sigma^2)\) entonces:
\[L(x|\sigma^2)=\frac{1}{(2\pi)^{n/2}(\sigma^2)^{n/2}}e^{\left(-\frac{\sum x_i^2}{2\sigma^2}\right)}\]
\[\Rightarrow B_{01}=\left(\frac{\sigma_1^2}{\sigma_0^2}\right)^{n/2}e^{\left(-\frac{1}{2}\frac{\sigma_1^2-\sigma_0^2}{\sigma_1^2\sigma_0^2}\sum x_i^2\right)}\]
sustituyendo por los valores de las hipótesis obtenemos que:
\[B_{01}=2^{n/2}e^{\left(-\frac{1}{4}\sum x_i^2\right)}\]
\[\Rightarrow S^2<2ln(2) \approx 1,38\]
El valor máximo de la varianza muestral para aceptar la hipótesis nula h=1 es de 1,38.
4.8.2 Pruebas de Hipótesis Desigualdad
\[H_0:\theta\leq\theta_0\;vs\;\theta > \theta_0\]
Para este caso tenemos que:
\[p_0=P(H_0 \text{ cierta }|x)=P(\theta\leq\theta_0|x)\]
\[p_1=P(H_1 \text{ cierta }|x)=P(\theta>\theta_0|x)=1-P(\theta\leq\theta_0|x)=1-p_0\]
donde:
\[p_0=\int_{-\infty}^{\theta_0} L(x|\theta)\pi(\theta)d\theta\]
por lo que el Factor de Bayes lo podemos escribir como:
\[B_{01}=\frac{p_0\pi_1}{(1-p_0)\pi_0}\]
Si el caso es no informativo entonces:
\[B_{01}=\frac{p_0}{(1-p_0)}\]
Este cociente en general se le conoce como odd ratio de una probabilidad y mide que tan frecuente puede ocurrir un evento en general.
Ejemplo 4.16 Odd ratio
Si \(P(A)=1/3\), el odd ratio de A es:
\[\frac{1/3}{2/3}=\frac{1}{2}\]
Es decir que de por cada dos veces que no ocurre el evento \(A\), ocurre una vez el evento, o que de 1 de cada 3 experimentos uno espera que ocurra una vez \(A\)
Si \(P(B)=e^{-0.5}\), el odd ratio de B es:
\[\frac{e^{-0.5}}{1-e^{-0.5}}\approx 1.5414\]
Lo que uno podría decir que el evento B es exitoso aproximadamente cada 3 veces por 2 de fracaso.
Nota
Cuando el caso es no informativo y la distribución es normal, la prueba sobre la media \[H_0:\mu\leq\theta_0\;vs\;\mu > \theta_0\] coincide con la prueba del p-valor de la estadística clásica.
4.8.3 Pruebas de Hipótesis Diferencias
\[H_0:\theta=\theta_0\;vs\;\theta \neq \theta_0\]
El Factor de Bayes es
\[B_{01}=\frac{L(x|\theta_0)}{p_1}=\frac{L(x\mid\theta_0)}{\displaystyle\int L(x\mid\theta)\,\pi_1(\theta)\,d\theta}\]
Ejemplo 15 Aplicación caso Cartera de Mora
Un Banco desea estimar el porcentaje de morosidad en una determinada cartera de gran dimensión que tiene 10 000 créditos. El investigador encargado, teniendo en cuenta toda la información disponible y su conocimiento, considera evaluar la morosidad mediante la siguiente distribución a priori o inicial asignada a cada porcentaje de morosidad susceptibles de ocurrir (según la historia y lo que considere oportuno el investigador)
| Porcentaje de morosidad | Probabilidad a priori |
|---|---|
| 0,01 | 0,12 |
| 0,02 | 0,30 |
| 0,03 | 0,28 |
| 0,04 | 0,15 |
| 0,05 | 0,12 |
| 0,06 | 0,02 |
| 0,10 | 0,01 |
El investigador se plantea si en el momento actual puede admitir la misma evaluación o modificarla, y decide tomar una muestra aleatoria de 5 créditos entre los que encuentra m morosos.
Estudiaremos el caso \(m=0\), sin morosos, como ejercicio se asigna \(m=1, 2\).
Solución
Para el caso \(m=0\). En el sentido clásico el resultado sería 0% (0/5).
Primero observemos que el modelo sigue una distribución binomial ( el cliente es o no moroso) con \(n=5\) y de acuerdo con el porcentaje de morosidad (verosimilitud)
Para \(p=0.01\)
\[L(x|p) \propto p^m(1-p)^{n-m}\propto (0.01)^0(1-0.01)^{5}=0.951\]
De igual forma podemos construir los demás elementos de verosimilitud y estimar la probabilidad a posteriori
| Porcentaje de morosidad | Probabilidad a priori | Verosimilitud | Verosimilitud × Probabilidad a priori |
|---|---|---|---|
| 0,01 | 0,12 | 0,951 | 0,114 |
| 0,02 | 0,30 | 0,904 | 0,271 |
| 0,03 | 0,28 | 0,859 | 0,240 |
| 0,04 | 0,15 | 0,815 | 0,122 |
| 0,05 | 0,12 | 0,774 | 0,093 |
| 0,06 | 0,02 | 0,734 | 0,015 |
| 0,10 | 0,01 | 0,590 | 0,006 |
| Proba predictiva | 0,8615 |
Como la verosimilitudes por la probabilidad a priori nos ofrecen los valores proporcionales para la probabilidad a posteriori, si queremos estimarla en forma exacta, hay que normalizarla, es decir dividir entre la probabilidad predictiva ( la suma de priori*Verosimilitud de cada caso), como se puede observar en el siguiente cuadro:
| Porcentaje de morosidad | Probabilidad a priori | Verosimilitud | Verosimilitud × Probabilidad a priori | a Posteriori |
|---|---|---|---|---|
| 0,01 | 0,12 | 0,951 | 0,114 | 0,132 |
| 0,02 | 0,30 | 0,904 | 0,271 | 0,315 |
| 0,03 | 0,28 | 0,859 | 0,240 | 0,279 |
| 0,04 | 0,15 | 0,815 | 0,122 | 0,142 |
| 0,05 | 0,12 | 0,774 | 0,093 | 0,108 |
| 0,06 | 0,02 | 0,734 | 0,015 | 0,017 |
| 0,10 | 0,01 | 0,590 | 0,006 | 0,007 |
| Media = 3 % | Proba predictiva | 0,8615 | Media = 2,5 % |
Se puede considerar según la muestra obtenida, que las probabilidades actuales son conservadoras, y que no requieren ser modificadas, claro podríamos mejorar el cálculo con una muestra más grande.
También si sumamos la probabilidades para los porcentajes de morosidad menores o iguales al 5%, obtenemos que con una probabilidad del 97,6% la morosidad es menor al 5%.
4.9 Nota: Distribución Marginal de la Normal
Esta nota desarrolla más detalladamente el ejemplo de la distribución normal, indicada en este capítulo (Ejemplo 4.11). Para encontrar la distribución marginal de \(X\), donde sabemos que:
\(X|\mu \sim \mathcal{N}(\mu, \sigma^2)\)
\(\mu \sim \mathcal{N}(\nu, \tau^2)\)
La distribución marginal de \(X\) puede calcularse aplicando la ley de probabilidad total:
\[ f_X(x)= \int_{-\infty}^{\infty}f(X|\mu)f_\mu(\mu)d\mu \]
Paso 1: Especificar las distribuciones condicionales
- \(X|\mu \sim \mathcal{N}(\mu,\sigma^2)\)
\[ f_{X|\mu}(x|\mu) \propto \exp \left(-\frac{(x -\mu)^2}{2\sigma^2} \right) \Rightarrow \exp \left( \frac{2x\mu - \mu^2}{2\sigma^2} \right) \]
- \(\mu \sim \mathcal{N}(\nu, \tau^2)\)
\[f_{\mu}(\mu) \propto \exp \left(-\frac{(\mu-\nu)^2}{2 \tau^2} \right) \Rightarrow \exp \left(\frac{2\mu\nu-\mu^2}{2\tau^2} \right)\]
Paso 2: Aplicar la ley de probabilidad total
Sustituyendo en la integral:
\[ f_X(x) \propto \int_{-\infty}^{\infty} \exp \left( \frac{2x\mu - \mu^2}{2\sigma^2} \right)\exp \left(\frac{2\mu\nu-\mu^2}{2\tau^2} \right)d\mu \]
Paso 3: Combinación de términos del exponente
Se agrupan los términos del exponente:
\[ \left( \frac{x}{\sigma^2}+\frac{\nu}{\tau^2} \right)\mu-\left(\frac{1}{2\sigma^2}+\frac{1}{2\tau^2} \right)\mu^2 \]
O de forma general:
\[ -\frac{1}{2B}(\mu^2 - 2A\mu) \]
donde:
\[ A=\frac{x\tau^2+\nu\sigma^2}{\sigma^2+\tau^2}, \quad B=\frac{\sigma^2\tau^2}{\sigma^2+\tau^2} \]
Por lo tanto, podemos afirmar que \(X\) tiene una función marginal con núcleo una normal \(\mathcal{N}(A,B)\)
Para hallar la distribución marginal de \(X\) en forma exacta debemos resolver la integral
\[ f_X(x)= \int_{-\infty}^{\infty}f(X|\mu)f_\mu(\mu)d\mu \]
Simplificando el término de \(\mu\) se obtiene que:
\[ f_X(x)=\exp \left(-\frac{(x-\nu)^2}{2(\sigma^2+\tau^2)} \right) \]
Por lo tanto, \(X\) sigue una distribución normal \(\mathcal{N}(\nu, \sigma^2 + \tau^2)\)
Paso 4: Teorema 4.3
Dado que en el Paso 3, nos indican que el resultado tiene como núcleo una normal, podemos obtener el resultado integrado y obteniendo los términos independientes de \(\mu\), una forma más directa es usar el Teorema 4.3
\[ E[X] = E_\mu[E[X|\mu]] = E_\mu[\mu] = \nu \]
\[\mathrm{Var}[X] = \mathrm{Var}_\mu[E[X|\mu]] + E_\mu[\mathrm{Var}(X|\mu)]= \tau^2 + \sigma^2\]
Por lo tanto, la distribución marginal de \(X\) es:
\[ X \sim \mathcal{N}(\nu, \sigma^2 + \tau^2) \]