Sesión Estadística y sus Aplicaciones
Diciembre 15, 15:30 ~ 15:50
Estimación de modelos gráficos gaussianos: graphical stepwise
RUIZ, Marcelo
Sea $ \textbf{x}=(X_1,\ldots,X_p)^T $ un vector aleatorio con distribución normal multivariada de media $\boldsymbol{\mu}=\boldsymbol{0}$ y matriz de covarianza $\boldsymbol{\Sigma}=(\sigma_{ij})_{i,j=1 \ldots,p}$ invertible. A la matriz de precisión, $\boldsymbol{\Sigma}^{-1}$, la denotaremos con $\boldsymbol{\Omega}=(\omega_{ij})_{i,j=1 \ldots,p}$. Sea $\mathcal{G}=(V,E)$ el modelo gráfico asociado a $\textbf{x}$ donde $V=\left\{1, \ldots, p \right\}$ es el conjunto de vértices o nodos y $E \subseteq V\times V$ es el conjunto de lados tal que $\forall i\in V: (i,i)\notin E$. En un Modelo Gráfico Gaussiano (MGG), $E$ describe la estructura de independencia condicional: $(i,j)\in E$ si y sólo si $X_i$ y $X_j$ son condicionalmente dependientes dada la colección $\displaystyle \left\{X_k: k\in V \setminus \left\{i,j\right\} \right\}$. De este modo, $\displaystyle E=\left\{ (i,j): \omega_{i,j} \neq 0 \right\}$.
Consideremos $\textbf{X}=(\textbf{x}_1,\ldots,\textbf{x}_n)^T\in \mathbb{R}^{n\times p}$ la matriz de datos donde $\{\textbf{x}_1,\ldots,\textbf{x}_n\}$ es una muestra aleatoria de $\textbf{x}$. El problema de la ``selección de la covarianza'' definido en [2] persigue el objetivo de estimar el patrón de entradas nulas (fuera de la diagonal) de $\boldsymbol{\Omega}$ en base a la información contenida en $\textbf{X}$. Aún para $pn$, no se garantiza la existencia de estimadores de máxima verosimilitud.
En contraste, ``la selección de entornos o vecindades'' propuesta en [4] es muy eficiente computacionalmente. El entorno de un nodo $i\in V$, $ \displaystyle \mathcal{A}_i $, se define como el mínimo subconjunto de $V \setminus \left\{ i \right\}$ tal que $X_i$ es condicionalmente independiente de todas las restantes variables. El objetivo de esta selección es, en base a $\textbf{X}$, estimar individualmente el entorno de cada variable o nodo y puede ser planteado en término de un problema de regresión. En efecto, si para cada $i$, definimos $ \boldsymbol{\beta}^{i} =\text{argmin}_{\boldsymbol{\beta}\in \mathbb{R}^p: \boldsymbol{\beta}_i=0} \text{E} \left[ X_i- \sum_{j \in V} \boldsymbol{\beta}_j X_j \right]^2$ entonces para cada $j\in V \setminus \left\{ i \right\}$ se cumple que $ \boldsymbol{\beta}^{i}_j=-\omega_{ij}/\omega_{ii}$ de donde se deduce que $ \mathcal{A}_i=\left\{j\in V: \boldsymbol{\beta}^{i}_j\neq 0\right\}$. De este modo, el mejor predictor de $X_i$ es una función lineal de las variables que sólo se encuentran en el entorno. Esta relación permite estimar un entorno como $\widehat{\mathcal{A}}_i=\left\{j: \widehat{\boldsymbol{\beta}}^{i}_j \neq 0\right\}$ donde $\widehat{\boldsymbol{\beta}}^{i}_j $ se puede obtener a través de una regresión por mínimos cuadrados o por medio de una regularización $\ell_1$ o lasso como se realiza en [4].
Observar que ambos problemas de ``selección'' están relacionados ya que $\displaystyle E = \{(i,j): i\in \mathcal{A}_j \text{ y } j \in \mathcal{A}_i \} $.
En esta comunicación proponemos un método de estimación de MGG de alta dimensión basado en la estimación de entornos a través de un algoritmo del tipo forward-backward, al que denominamos \textit{Graphical Stepwise} (GS). A través de diferentes escenarios de simulación mostramos que GS mejora a otras propuestas como Graphical Lasso [3] y CLIME [1]. Introducimos también una derivación heurística del comportamiento asintótico de los entornos estimados.
\noindent \textbf{Bibliografía }
\noindent [1] Cai, T., Liu, W., Luo, X. (2011). A constrained $\ell_1$ minimization approach to sparse precision matrix estimation. \textit{Journal of the American Statistical Association}. {\bf 106}, 594--607.
\noindent [2] Dempster, A. (1972). Covariance selection. \textit{Biometrics}. {\bf 1}, 157--175.
\noindent [3] Friedman, J., Hastie, T., Tibshirani, R. (2008). Sparse inverse covariance estimation with the graphical lasso. \textit{Biostatistics}. {\bf 9}, 432--441.
\noindent [4] Meinshausen, N., B{\"u}hlmann, P. (2006). High-dimensional graphs and variable selection with the lasso. \textit{The Annals of Statistics}. {\bf 34}, 1436--1462.
Autores: RUIZ, Marcelo / Zamar, Ruben / Lafit, Ginette / Nogales, Javier .