Andrew Krizhanovsky edited section_Thesaurus_expansion_algorithm_word2vec__.tex  about 8 years ago

Commit id: fe0d40bc5739fab42ef38883f057d999a73a329b

deletions | additions      

       

\section{Thesaurus %\section{Thesaurus  expansion algorithm} Благодаря интеграции данных корпусов (в модели, построенной программой word2vec) и тезаурусов (тезаурус Викисловаря) мы с минимальными усилиями получаем ответы на множество важных вопросов. Например, такая прикладная задача как поиск семантически близких слов: слов.  \begin{definition}  Границей синсета $S$ называется множество $Bd S= S\setminus Int S$ (synset's edge)~$s$~--- это такие синонимы из $s$, добавление которых в любые непустые разбиения синсета не сближает средние вектора этих разбиений.  \end{definition}Проверка гипотезы с помощью "положительного" эксперимента (слово $w$ заведомо является синонимом):  \begin{itemize}  \item перебрать все синсеты Викисловаря:  \item Берём синсет, исключаем из него одно слово.  \item Пробуем включить это слово обратно в синсет с помощью указанного выше алгоритма.  \item Получаем статистику - для скольких синсетов и слов алгоритм дал добро на включение (в идеале - 100 процентов), но исходные данные могут быть с ошибками.  \item Получаем список слов и синсетов, на которых алгоритм "спорит" с редакторами Викисловаря и не включает слово в список синонимов. Анализируем этот список вручную. Считаем ошибки.  \end{itemize}  Проверка гипотезы с помощью "нейтрального" эксперимента (берётся произвольное слово $w$): ..?  Открытые вопросы к алгоритму (нужна экспериментальная проверка):  \begin{itemize}  \item Разбиение исходного списка L. Если перебирать все разбиения, то условие включения слова в синсет: (1) должно выполняться для всех разбиений или (2) хотя бы для одного разбиения?  \item ещё?  \end{itemize}  Рассказать про RusVectores\cite{Kutuzov_2015}.  + Ссылка на работу RadimHurek (Gensim).