Andrew Krizhanovsky -я  almost 8 years ago

Commit id: 7b11ddfdee572ddd07b47b6722bc7902321bb7ad

deletions | additions      

       

Кратко осветим подход Т.~Миколова.  \begin{definition}  Векторным словарем назовем множество $D=\{w_i \in \mathbb{R}^{|D|}\}$, где $i$-ая $i$-я  компонента вектора $w_i$ равна 1, а остальные компоненты -- нули. \end{definition}  Рассмотрим некоторый словарь и пронумеруем все слова, входящие в него. Пусть $|D|$~--- количество слов в словаре, $i$~--- номер слова. 

где $N \ll |D|$, а вектор $v=L(w), w \in D$, $v$ имеет компоненты $v_j \in \mathbb{R}$. Результат отображения называется распределенным (distributed) векторным представлением слов.   Цель его состоит в замене очень "тощего" (разреженного) множества $D \in \mathbb{R}^{|D|}$,   в которое входят векторы с нулевым взаимным скалярным произведением, на некоторое подмножество из $\mathbb{R}^N$,   векторы которого расположены таким образом, что их компоненты позволяют использовать скалярное произведение нормированных векторов в качестве меры их похожести (similarity), что принято в соотвествующих соответствующих  задачах обработки языков. Полагая, что линейное отображение $L$ реализуется с помощью матрицы $W$, получаем $v=Ww$, причем для нахождении матрицы $W$ используют различные методы, в частности, основанные на нейронных сетях. Наибольшую популярность в самое последнее время приобрели CBOW (continuous bag of words) и Skip-gram методы, предложенные в работе~\cite{Mikolov_2013} и являющиеся, по сути, модификацией метода максимального правдоподобия. При этом в методе Skip-gram матрица $W$ максимизирует функцию $F(W)$ вида   $$  F(W)=\frac{1}{T}\sum_{t=1}^T \sum_{-c\leq j\leq c, j\neq 0} \ln p(w_{t+j}|w_{t})