this is for holding javascript data
Andrew Krizhanovsky + Huang
almost 8 years ago
Commit id: 3a47cd1b39e8b2a188f7c3bd157bc560a7216035
deletions | additions
diff --git a/WVR.tex b/WVR.tex
index 6d8eb9b..c39b3b4 100644
--- a/WVR.tex
+++ b/WVR.tex
...
p(w_{t+j}|w_t)=\frac{\exp u_{t+j}}{\sum_{i=1}^{|D|}\exp u_i}, \qquad u_i = (Ww_i, Ww_t)
$$
где $(\cdot, \cdot)$~--- символ скалярного произведения, $T$~--- объем обучающего контекста. Здесь по слову
$w_t$ находится содержащий его контекст, составляющий "окно" размера $2c$ слов. В методе CBOW (continuous bag of words), наоборот, по контексту находится слово, входящее в него. Для максимизации $F(W)$ используется метод стохастического градиентного спуска.
В работах Т.~Миколова при построении нейронных сетей учитывается только локальный контекст слов
(так называемое "окно").
Существуют попытки \cite{Huang2012} учесть глобальный контекст (весь документ). Это полезно при разрешении лексической многозначности.