Andrew Krizhanovsky + Huang  almost 8 years ago

Commit id: 3a47cd1b39e8b2a188f7c3bd157bc560a7216035

deletions | additions      

       

p(w_{t+j}|w_t)=\frac{\exp u_{t+j}}{\sum_{i=1}^{|D|}\exp u_i}, \qquad u_i = (Ww_i, Ww_t)  $$  где $(\cdot, \cdot)$~--- символ скалярного произведения, $T$~--- объем обучающего контекста. Здесь по слову  $w_t$ находится содержащий его контекст, составляющий "окно" размера $2c$ слов. В методе CBOW (continuous bag of words), наоборот, по контексту находится слово, входящее в него. Для максимизации $F(W)$ используется метод стохастического градиентного спуска. В работах Т.~Миколова при построении нейронных сетей учитывается только локальный контекст слов   (так называемое "окно").  Существуют попытки \cite{Huang2012} учесть глобальный контекст (весь документ). Это полезно при разрешении лексической многозначности.