Andrew Krizhanovsky edited section_Methods_of_word_vector__.tex  about 8 years ago

Commit id: 62ec4256427908042cace1f531e705c6d0d43a15

deletions | additions      

       

Задача векторного представления слов состоит в построении линейного отображения   $L: D \rightarrow \mathbb{R}^N$,  где $N<<|D|$, а вектор $v=L(w), w \in D$ имеет компоненты $v_i \in \mathbb{R}$.Эот процесс называется рапсределенным (distributed) векторным представлением слов (cite). Цель его состоит в замене очень "тощего"  множества $D \in \mathbb{R}^{|D|}$, в которое входят веторы с нулевым взаимным скалярным произведением, на некоторое подмножество из $\mathbb{R}^N$, векторы которого расположены таким образом, что их компоненты позволяют использовать скалярное произведение нормированных векторов в качестве меры их похожести (similarity), что принято в соотвествующих задачах обработки языков.  Полагая что линейное отображение $L$ реализуется с помощью матрицы $W$, получаем $v=Ww$, прчем причем  для нахождении матрицы $W$ используют различные методы, в частности, основанные на нейронных сетях. Наибольшую популярность в самое последнее время приобрели CBOW и Skip-gram методы, предложенные в \cite{mikolov2013efficient} и являющиеся, по сути, модификацией метода максимального правдоподобия. При этом в методе Skip-gram матрица $W$ максимизирует функцию $F(W)$ вида   $$  F(W)=\frac{1}{T}\sum_{t=1}^T \sum_{-c\leq j\leq c, j\neq 0} \ln p(w_{t+j}|w_{t)}