Authorea

Andrew Krizhanovsky перенёс (continuous bag of words) в первое умоминание CBOW almost 8 years ago

Commit id: 579ed0a725c7742c3ba556dca06674e06e038412

deletions | additions

где $N \ll |D|$, а вектор $v=L(w), w \in D$, $v$ имеет компоненты $v_j \in \mathbb{R}$. Этот процесс называется распределенным (distributed) векторным представлением слов. Цель его состоит в замене очень "тощего" (разреженного) множества $D \in \mathbb{R}^{|D|}$, в которое входят векторы с нулевым взаимным скалярным произведением, на некоторое подмножество из $\mathbb{R}^N$, векторы которого расположены таким образом, что их компоненты позволяют использовать скалярное произведение нормированных векторов в качестве меры их похожести (similarity), что принято в соотвествующих задачах обработки языков. Полагая что линейное отображение $L$ реализуется с помощью матрицы $W$, получаем $v=Ww$, причем для нахождении матрицы $W$ используют различные методы, в частности, основанные на нейронных сетях. Наибольшую популярность в самое последнее время приобрели CBOW (continuous bag of words) и Skip-gram методы, предложенные в работе~\cite{Mikolov_2013} и являющиеся, по сути, модификацией метода максимального правдоподобия. При этом в методе Skip-gram матрица $W$ максимизирует функцию $F(W)$ вида $$ F(W)=\frac{1}{T}\sum_{t=1}^T \sum_{-c\leq j\leq c, j\neq 0} \ln p(w_{t+j}|w_{t})

p(w_{t+j}|w_t)=\frac{\exp u_{t+j}}{\sum_{i=1}^{|D|}\exp u_i}, \qquad u_i = (Ww_i, Ww_t) $$ где $(\cdot, \cdot)$~--- символ скалярного произведения, $T$~--- объем обучающего контекста. Здесь по слову $w_t$ находится содержащий его контекст, составляющий "окно" размера $2c$ слов. В методе CBOW (continuous bag of words), CBOW, наоборот, по контексту находится слово, входящее в него. Для максимизации $F(W)$ используется метод стохастического градиентного спуска. В работах Т.~Миколова при построении нейронных сетей учитывается только локальный контекст слов (так называемое "окно").