deletions | additions
diff --git a/GP.tex b/GP.tex
index 6d322fa..df6efff 100644
--- a/GP.tex
+++ b/GP.tex
...
\subsection{Gaussain Processes}
\label{sec:GaussinaProcesses}
In this paper we consider a specific class of regression functions $\mathcal{GP}$ -- Gaussian Processes. Any process
$g\in\mathcal{GP}$ $P\in\mathcal{GP}$ is uniqely defined by its mean $\mu(\mathbf{x}) = \mathrm{E}\left[f(\mathbf{x})\right]$ and covariance $\mathrm{Cov}(y, y^\prime) = k(\mathbf{x}, \mathbf{x}^\prime) = \mathrm{E}\left[(f(\mathbf{x}) - \mu(\mathbf{x})) (f(\mathbf{x}^\prime) - \mu(\mathbf{x}^\prime))\right]$ functions.
Гауссовский процесс является одним из возможных способов задания распределения на пространстве функций.
Гауссовский процесс $f(\vecX)$ полностью определяется своей функцией среднего $m(\vecX) = \EE[f(\vecX)]$ и ковариационной функцией $cov(\vecY, \vecY') = k(\vecX, \vecX') = \EE[(f(\vecX) - m(\vecX)) (f(\vecX') - m(\vecX'))]$. Если положить функцию среднего нулевой
$m(\vecX) $m(\mathbf{x}) =
\EE[f(\vecX)] \EE[f(\mathbf{x})] = 0$, а ковариационную функцию считать известной, то функция апостериорного (для заданной обучающей выборки) среднего значения гауссовского процесса в точках контрольной выборки $X_*$ имеет вид \cite{Rasmussen} $\hat{f}(X_*) = K_* K^{-1} Y$, где $K_* = K(X_*, X) =
\bigl[k(\vecX_i, \vecX_j), \bigl[k(\mathbf{x}_i, \mathbf{x}_j), i = \overline{1, N_*}, j = \overline{1,N}\bigr], K = K(X, X) =
\bigl[k(\vecX_i, \vecX_j), \bigl[k(\mathbf{x}_i, \mathbf{x}_j), i, j = \overline{1, N}\bigr]$.
Обычно предполагается, что данные наблюдаются с шумом:
$
\vecY(\vecX) \vecY(\mathbf{x}) =
f(\vecX) f(\mathbf{x}) +
\eps(\vecX)$, \eps(\mathbf{x})$,
где
$\eps(\vecX)\sim\mathcal{N}(0, $\eps(\mathbf{x})\sim\mathcal{N}(0, \tilde{\sigma}^2)$ --- белый шум.
В таком случае наблюдения
$\vecY(\vecX)$ $\vecY(\mathbf{x})$ являются реализацией гауссовского процесса с нулевым средним и ковариационной функцией
$cov(\vecY(\vecX), \vecY(\vecX')) $cov(\vecY(\mathbf{x}), \vecY(\mathbf{x}')) =
k(\vecX, \vecX') k(\mathbf{x}, \mathbf{x}') +
\tilde{\sigma}^2\delta(\vecX- \vecX')$, \tilde{\sigma}^2\delta(\mathbf{x}- \mathbf{x}')$, где
$\delta(\vecX)$ $\delta(\mathbf{x})$ --- дельта-функция.
Таким образом, функция апостериорного (для заданной обучающей выборки) среднего значения гауссовского процесса
$f(\vecX)$ $f(\mathbf{x})$ в точках контрольной выборки $X_*$ принимает вид:
\begin{equation}
\label{meanNoise}
\hat{f}(X_*) = K_* \bigl(K + \tilde{\sigma}^2 I\bigr)^{-1} Y,
...
\label{covarianceNoise}
\VV \bigl[X_*\bigr] = K(X_*, X_*) + \tilde{\sigma}^2 I_* - K_* \bigl(K + \tilde{\sigma}^2 I \bigr)^{-1} K_*^T,
\end{equation}
где $K(X_*, X_*) =
\bigl[k(\vecX_i, \vecX_j), \bigl[k(\mathbf{x}_i, \mathbf{x}_j), i, j = 1, \dots, N_*\bigr]$, $I_*$ --- единичная матрица размера $N_* \t N_*$.
Дисперсии гауссовского процесса в точках контрольной выборки могут быть использованы как оценки ожидаемой ошибки аппроксимации в этих точках.
Заметим, что для этого нет необходимости вычислять по формуле (\ref{covarianceNoise}) всю матрицу $\VV \bigl[X_*\bigr]$, а достаточно вычислить только элементы ее главной диагонали, которые и являются искомыми дисперсиями.
...
Кроме того, зная среднее и ковариационную функцию, можно так же получить апостериорную оценку среднего и дисперсии производной гауссовского процесса в точках.
Если
\[
g(\vecX_0) g(\mathbf{x}_0) = \frac{\partial
f(\vecX)}{\partial \vecX} f(\mathbf{x})}{\partial \mathbf{x}} \Big
|_{\vecX=\vecX_0}, |_{\mathbf{x}=\mathbf{x}_0},
\]
то
$
\mathrm{Law}\left(g(\vecX_0) \mathrm{Law}\left(g(\mathbf{x}_0) | (X, Y)\right) = \mathcal{N}(J^T \bigl(K + \tilde{\sigma}^2 I\bigr)^{-1} Y, \, B - J^T \bigl(K + \tilde{\sigma}^2I)^{-1} J),
$
где
\[
J^T = \Big [ \frac{\partial k
(\vecX_0 (\mathbf{x}_0 -
\vecX_1)}{\partial \vecX_0} \mathbf{x}_1)}{\partial \mathbf{x}_0} , ... , \frac{\partial k
(\vecX_0 (\mathbf{x}_0 -
\vecX_n)}{\partial \vecX_0} \mathbf{x}_n)}{\partial \mathbf{x}_0} \Big ],
\]
\[
B = \begin{bmatrix}
cov(g_1(\vecX_0),g_1(\vecX_0)) cov(g_1(\mathbf{x}_0),g_1(\mathbf{x}_0)) & .&.&. &
cov(g_1(\vecX_0),g_m(\vecX_0)) cov(g_1(\mathbf{x}_0),g_m(\mathbf{x}_0)) \\
. & . & & & .\\
. & & . & & .\\
. & & & . & .\\
cov(g_m(\vecX_0),g_1(\vecX_0)) cov(g_m(\mathbf{x}_0),g_1(\mathbf{x}_0)) & .&.&. &
cov(g_m(\vecX_0),g_m(\vecX_0)) cov(g_m(\mathbf{x}_0),g_m(\mathbf{x}_0)) \\
\end{bmatrix},
\]
\[
cov(g_i, g_j) = \frac{\partial^2 k
(\vecX_0, \vecX_0)}{\partial (\mathbf{x}_0, \mathbf{x}_0)}{\partial x^i \partial x^j},
\]
$g_i$ --- $i$-я компонента вектора градиента $g$.