Authorea

Andrew Krizhanovsky edited section_Thesaurus_expansion_algorithm_word2vec__.tex about 8 years ago

Commit id: d004c8ac6f5bc4ec05473f22846aa17f6260e2a5

deletions | additions

Благодаря интеграции данных корпусов (в модели, построенной программой word2vec) и тезаурусов (тезаурус Викисловаря) мы с минимальными усилиями получаем ответы на множество важных вопросов. Например, такая прикладная задача как поиск семантически близких слов: \textbf{Закон векторных синсетов (неформально):} близость слова к среднему вектору синсета определяется степенью его синонимичности этому набору синонимов. Пусть $\vec{v_1}, \vec{v_2}, \ldots, \vec{v_n}$~--- это вектора для слов $w_1, w_2, \ldots, w_n$, входящих в набор синонимов (синсет) $S$. Средний вектор векторов $\vec{v_1}, \vec{v_2}, \ldots, \vec{v_n}$ обозначим $\vec{v_{avg}}$. Слову $y$ будет соответствовать вектор $\vec{Y}$. \textbf{Закон векторных синсетов (формально):} Для синсета $S$ существует такое $\epsilon$, что любой вектор $\vec{Y}$, находящийся на расстоянии $\epsilon$ (1) от среднего вектора $\vec{v_{avg}}$ или (2) от любого из векторов $\vec{v_1}, \vec{v_2}, \ldots, \vec{v_n}$, или (3) от n-мерного выпуклого конуса, задаваемого векторами $\vec{v_1}, \vec{v_2}, \ldots \vec{v_n}$, будет соответствовать слову $y$ синонимичному синсету $S$. Примечания: \begin{enumerate} \item Подсчитать определитель матрицы, составленной из векторов $\vec{v_1}, \vec{v_2} ... \vec{v_n}$. Если не ноль, то конус, составленный из векторов $\vec{v_1}, \vec{v_2} ... \vec{v_n}$ будет n-мерным. В противном случае размерность будет ниже. \item Выпуклость конуса даёт возможность рассматривать \textit{линейные комбинации} векторов (слов) с положительными коэффициентами. \end{enumerate} Алгоритм проверки гипотезы (2)$\implies$(1): \begin{enumerate} \item Input data: $L$~--- list of synonyms (synset) (What about antonyms, hyponyms, hyperonyms?)