Authorea

Andrew Krizhanovsky Результат отображения almost 8 years ago

Commit id: bac4037b7df7ea9f42b2c2a21dbe0f692d8b1d41

deletions | additions

Задача векторного представления слов состоит в построении линейного отображения $L: D \rightarrow \mathbb{R}^N$, где $N \ll |D|$, а вектор $v=L(w), w \in D$, $v$ имеет компоненты $v_j \in \mathbb{R}$. Этот процесс Результат отображения называется распределенным (distributed) векторным представлением слов. Цель его состоит в замене очень "тощего" (разреженного) множества $D \in \mathbb{R}^{|D|}$, в которое входят векторы с нулевым взаимным скалярным произведением, на некоторое подмножество из $\mathbb{R}^N$, векторы которого расположены таким образом, что их компоненты позволяют использовать скалярное произведение нормированных векторов в качестве меры их похожести (similarity), что принято в соотвествующих задачах обработки языков. Полагая, что линейное отображение $L$ реализуется с помощью матрицы $W$, получаем $v=Ww$, причем для нахождении матрицы $W$ используют различные методы, в частности, основанные на нейронных сетях. Наибольшую популярность в самое последнее время приобрели CBOW (continuous bag of words) и Skip-gram методы, предложенные в работе~\cite{Mikolov_2013} и являющиеся, по сути, модификацией метода максимального правдоподобия.