this is for holding javascript data
Andrew Krizhanovsky added section_Methods_of_word_vector__.tex
about 8 years ago
Commit id: 88722dd4288f22b623b40842af265dfe55ba4e77
deletions | additions
diff --git a/section_Methods_of_word_vector__.tex b/section_Methods_of_word_vector__.tex
new file mode 100644
index 0000000..8b62e40
--- /dev/null
+++ b/section_Methods_of_word_vector__.tex
...
%\section{Methods of word vector representation}
\section{Векторное представление слов}
%Рассматриваемая задача относится к разработки количественных и качественных математических методов %обработки естественных языков (NLP).
%Последняя задча не исследована.
\subsection{Mikolov}
\begin{definition}
Векторным словарем назовем множество $D=\{w_i \in \mathbb{R}^{|D|}\}$, где $i$-ая компонента вектора $w_i$ равна 1, а остальные компоненты -- нули.
\end{definition}
Для разработки модели синсета слова представляются в виде векторов. Рассмотрим некоторый словарь и пронумеруем некоторым образом все слова, входящие в него. Пусть $|D|$~--- количество слов в словаре, $i$~--- номер слова.
Задача векторного представления слов состоит в построении линейного отображения
$L: D \rightarrow \mathbb{R}^N$,
где $N<<|D|$, а вектор $v=L(w), w \in D$, $v$ имеет компоненты $v_j \in \mathbb{R}$. Эот процесс называется рапсределенным (distributed) векторным представлением слов (cite). Цель его состоит в замене очень "тощего"
множества $D \in \mathbb{R}^{|D|}$, в которое входят веторы с нулевым взаимным скалярным произведением, на некоторое подмножество из $\mathbb{R}^N$, векторы которого расположены таким образом, что их компоненты позволяют использовать скалярное произведение нормированных векторов в качестве меры их похожести (similarity), что принято в соотвествующих задачах обработки языков. Полагая что линейное отображение $L$ реализуется с помощью матрицы $W$, получаем $v=Ww$, прчем для нахождении матрицы $W$ используют различные методы, в частности, основанные на нейронных сетях. Наибольшую популярность в самое последнее время приобрели CBOW и Skip-gram методы, предложенные в \cite{Mikolov_2012}, \cite{Mikolov_2011} и являющиеся, по сути, модификацией метода максимального правдоподобия.
При этом в методе Skip-gram матрица $W$ максимизирует функцию $F(W)$ вида
$$
F(W)=\frac{1}{T}\sum_{t=1}^T \sum_{-c\leq j\leq c, j\neq 0} \ln p(w_{t+j}|w_{t})
$$
$$
p(w_{t+j}|w_t)=\frac{\exp u_{t+j}}{\sum_{i=1}^{|D|}\exp u_i}, \qquad u_i = (Ww_i, Ww_t)
$$
где $(\cdot, \cdot)$~--- символ скалярного произведения, $T$~--- объем обучающего контекста. Здесь по слову
$w_t$ находится содержащий его контекст, составляющий "окно" размера $2c$ слов. В методе CBOW (continuous bag of words), наоборот, по контексту находится слово, входящее в него. Для максимизации $F(W)$ используется метод стохастического градиентного спуска.