Pavel Erofeev edited GP.tex  over 9 years ago

Commit id: 259c9777413464422aab05adde85716a2903fe42

deletions | additions      

       

\subsection{Gaussain Processes}  \label{sec:GaussinaProcesses}  In this paper we consider a specific class of regression functions $\mathcal{GP}$ -- Gaussian Processes.  Гауссовский процесс является одним из возможных способов задания распределения на пространстве функций.  Гауссовский процесс $f(\vecX)$ полностью определяется своей функцией среднего $m(\vecX) = \EE[f(\vecX)]$ и ковариационной функцией $cov(\vecY, \vecY') = k(\vecX, \vecX') = \EE[(f(\vecX) - m(\vecX)) (f(\vecX') - m(\vecX'))]$.  Если положить функцию среднего нулевой $m(\vecX) = \EE[f(\vecX)] = 0$, а ковариационную функцию считать известной, то функция апостериорного (для заданной обучающей выборки) среднего значения гауссовского процесса в точках контрольной выборки $X_*$ имеет вид \cite{Rasmussen} $\hat{f}(X_*) = K_* K^{-1} Y$, где $K_* = K(X_*, X) = \bigl[k(\vecX_i, \vecX_j), i = \overline{1, N_*}, j = \overline{1,N}\bigr], K = K(X, X) = \bigl[k(\vecX_i, \vecX_j), i, j = \overline{1, N}\bigr]$.  Обычно предполагается, что данные наблюдаются с шумом:  $ \vecY(\vecX) = f(\vecX) + \eps(\vecX)$,  где $\eps(\vecX)\sim\mathcal{N}(0, \tilde{\sigma}^2)$ --- белый шум.  В таком случае наблюдения $\vecY(\vecX)$ являются реализацией гауссовского процесса с нулевым средним и ковариационной функцией $cov(\vecY(\vecX), \vecY(\vecX')) = k(\vecX, \vecX') + \tilde{\sigma}^2\delta(\vecX- \vecX')$, где $\delta(\vecX)$ --- дельта-функция.  Таким образом, функция апостериорного (для заданной обучающей выборки) среднего значения гауссовского процесса $f(\vecX)$ в точках контрольной выборки $X_*$ принимает вид:  \begin{equation}  \label{meanNoise}  \hat{f}(X_*) = K_* \bigl(K + \tilde{\sigma}^2 I\bigr)^{-1} Y,  \end{equation}  где $I$ --- единичная матрица размера $N \t N$.  Заметим, что наличие в формуле (\ref{meanNoise}) дисперсии шума $\tilde{\sigma}^2$ фактически приводит к регуляризации, что позволяет улучшить обобщающую способность аппроксиматора.  При этом апостериорная ковариационная функция гауссовского процесса в точках контрольной выборки имеет вид  \begin{equation}  \label{covarianceNoise}  \VV \bigl[X_*\bigr] = K(X_*, X_*) + \tilde{\sigma}^2 I_* - K_* \bigl(K + \tilde{\sigma}^2 I \bigr)^{-1} K_*^T,  \end{equation}  где $K(X_*, X_*) = \bigl[k(\vecX_i, \vecX_j), i, j = 1, \dots, N_*\bigr]$, $I_*$ --- единичная матрица размера $N_* \t N_*$.  Дисперсии гауссовского процесса в точках контрольной выборки могут быть использованы как оценки ожидаемой ошибки аппроксимации в этих точках.  Заметим, что для этого нет необходимости вычислять по формуле (\ref{covarianceNoise}) всю матрицу $\VV \bigl[X_*\bigr]$, а достаточно вычислить только элементы ее главной диагонали, которые и являются искомыми дисперсиями.  Кроме того, зная среднее и ковариационную функцию, можно так же получить апостериорную оценку среднего и дисперсии производной гауссовского процесса в точках.  Если  \[  g(\vecX_0) = \frac{\partial f(\vecX)}{\partial \vecX} \Big |_{\vecX=\vecX_0},  \]  то  $  \mathrm{Law}\left(g(\vecX_0) | (X, Y)\right) = \mathcal{N}(J^T \bigl(K + \tilde{\sigma}^2 I\bigr)^{-1} Y, \, B - J^T \bigl(K + \tilde{\sigma}^2I)^{-1} J),  $  где  \[  J^T = \Big [ \frac{\partial k (\vecX_0 - \vecX_1)}{\partial \vecX_0} , ... , \frac{\partial k (\vecX_0 - \vecX_n)}{\partial \vecX_0} \Big ],  \]    \[  B = \begin{bmatrix}  cov(g_1(\vecX_0),g_1(\vecX_0)) & .&.&. & cov(g_1(\vecX_0),g_m(\vecX_0)) \\  . & . & & & .\\  . & & . & & .\\  . & & & . & .\\  cov(g_m(\vecX_0),g_1(\vecX_0)) & .&.&. & cov(g_m(\vecX_0),g_m(\vecX_0)) \\  \end{bmatrix},  \]  \[  cov(g_i, g_j) = \frac{\partial^2 k (\vecX_0, \vecX_0)}{\partial x^i \partial x^j},  \]  $g_i$ --- $i$-я компонента вектора градиента $g$.