Authorea

Andrew Krizhanovsky edited section_Methods_of_word_vector__.tex about 8 years ago

Commit id: 59091e6718c18c5462771f91411149349d677af5

deletions | additions

Векторным словарем назовем множество $D=\{w_i \in \mathbb{R}^{|D|}\}$, где $i$-ая компонента вектора $w_i$ равна 1, а остальные компоненты -- нули. \end{definition} Задача векторного представления слов состоит в построении линейного отображения $L: D \rightarrow \mathbb{R}^N$, где $N<<|D|$, а вектор $v=L(w), w \in D$ имеет компоненты $v_i \in \mathbb{R}$. Полагая что линейное отображение $L$ реализуется с помощью матрицы $W$, получаем $v=Ww$, причем для нахождении матрицы $W$ используют различные методы, в частности, основанные на нейронных сетях. Наибольшую популярность в самое последнее время приобрели CBOW и Skip-gram методы, предложенные в \cite{mikolov2013efficient} и являющиеся, по сути, модификацией метода максимального правдоподобия.