this is for holding javascript data
Andrew Krizhanovsky edited section_Thesaurus_expansion_algorithm_word2vec__.tex
about 8 years ago
Commit id: fe0d40bc5739fab42ef38883f057d999a73a329b
deletions | additions
diff --git a/section_Thesaurus_expansion_algorithm_word2vec__.tex b/section_Thesaurus_expansion_algorithm_word2vec__.tex
index ca5d1d3..06de78c 100644
--- a/section_Thesaurus_expansion_algorithm_word2vec__.tex
+++ b/section_Thesaurus_expansion_algorithm_word2vec__.tex
...
\section{Thesaurus %\section{Thesaurus expansion algorithm}
Благодаря интеграции данных корпусов (в модели, построенной программой word2vec) и тезаурусов (тезаурус Викисловаря) мы с минимальными усилиями получаем ответы на множество важных вопросов. Например, такая прикладная задача как поиск семантически близких
слов: слов.
\begin{definition}
Границей синсета $S$ называется множество $Bd S= S\setminus Int S$ (synset's edge)~$s$~--- это такие синонимы из $s$, добавление которых в любые непустые разбиения синсета не сближает средние вектора этих разбиений.
\end{definition}
Проверка гипотезы с помощью "положительного" эксперимента (слово $w$ заведомо является синонимом):
\begin{itemize}
\item перебрать все синсеты Викисловаря:
\item Берём синсет, исключаем из него одно слово.
\item Пробуем включить это слово обратно в синсет с помощью указанного выше алгоритма.
\item Получаем статистику - для скольких синсетов и слов алгоритм дал добро на включение (в идеале - 100 процентов), но исходные данные могут быть с ошибками.
\item Получаем список слов и синсетов, на которых алгоритм "спорит" с редакторами Викисловаря и не включает слово в список синонимов. Анализируем этот список вручную. Считаем ошибки.
\end{itemize}
Проверка гипотезы с помощью "нейтрального" эксперимента (берётся произвольное слово $w$): ..?
Открытые вопросы к алгоритму (нужна экспериментальная проверка):
\begin{itemize}
\item Разбиение исходного списка L. Если перебирать все разбиения, то условие включения слова в синсет: (1) должно выполняться для всех разбиений или (2) хотя бы для одного разбиения?
\item ещё?
\end{itemize}
Рассказать про RusVectores\cite{Kutuzov_2015}.
+ Ссылка на работу RadimHurek (Gensim).