this is for holding javascript data
Andrew Krizhanovsky edited section_Thesaurus_expansion_algorithm_word2vec__.tex
about 8 years ago
Commit id: d004c8ac6f5bc4ec05473f22846aa17f6260e2a5
deletions | additions
diff --git a/section_Thesaurus_expansion_algorithm_word2vec__.tex b/section_Thesaurus_expansion_algorithm_word2vec__.tex
index c4691c3..13d2a86 100644
--- a/section_Thesaurus_expansion_algorithm_word2vec__.tex
+++ b/section_Thesaurus_expansion_algorithm_word2vec__.tex
...
Благодаря интеграции данных корпусов (в модели, построенной программой word2vec) и тезаурусов (тезаурус Викисловаря) мы с минимальными усилиями получаем ответы на множество важных вопросов. Например, такая прикладная задача как поиск семантически близких слов:
\textbf{Закон векторных синсетов (неформально):} близость слова к среднему вектору синсета определяется степенью его синонимичности этому набору синонимов.
Пусть $\vec{v_1}, \vec{v_2}, \ldots, \vec{v_n}$~--- это вектора для слов $w_1, w_2, \ldots, w_n$, входящих в набор синонимов (синсет) $S$. Средний вектор векторов $\vec{v_1}, \vec{v_2}, \ldots, \vec{v_n}$ обозначим $\vec{v_{avg}}$. Слову $y$ будет соответствовать вектор $\vec{Y}$.
\textbf{Закон векторных синсетов (формально):} Для синсета $S$ существует такое $\epsilon$, что любой вектор $\vec{Y}$, находящийся на расстоянии $\epsilon$ (1) от среднего вектора $\vec{v_{avg}}$ или (2) от любого из векторов $\vec{v_1}, \vec{v_2}, \ldots, \vec{v_n}$, или (3) от n-мерного выпуклого конуса, задаваемого векторами $\vec{v_1}, \vec{v_2}, \ldots \vec{v_n}$, будет соответствовать слову $y$ синонимичному синсету $S$.
Примечания:
\begin{enumerate}
\item Подсчитать определитель матрицы, составленной из векторов $\vec{v_1}, \vec{v_2} ... \vec{v_n}$. Если не ноль, то конус, составленный из векторов $\vec{v_1}, \vec{v_2} ... \vec{v_n}$ будет n-мерным. В противном случае размерность будет ниже.
\item Выпуклость конуса даёт возможность рассматривать \textit{линейные комбинации} векторов (слов) с положительными коэффициентами.
\end{enumerate}
Алгоритм проверки гипотезы (2)$\implies$(1):
\begin{enumerate}
\item Input data: $L$~--- list of synonyms (synset) (What about antonyms, hyponyms, hyperonyms?)