Authorea

Andrew Krizhanovsky edited section_Thesaurus_expansion_algorithm_word2vec__.tex about 8 years ago

Commit id: fe0d40bc5739fab42ef38883f057d999a73a329b

deletions | additions

\section{Thesaurus %\section{Thesaurus expansion algorithm} Благодаря интеграции данных корпусов (в модели, построенной программой word2vec) и тезаурусов (тезаурус Викисловаря) мы с минимальными усилиями получаем ответы на множество важных вопросов. Например, такая прикладная задача как поиск семантически близких слов: слов. \begin{definition} Границей синсета $S$ называется множество $Bd S= S\setminus Int S$ (synset's edge)~$s$~--- это такие синонимы из $s$, добавление которых в любые непустые разбиения синсета не сближает средние вектора этих разбиений. \end{definition}Проверка гипотезы с помощью "положительного" эксперимента (слово $w$ заведомо является синонимом): \begin{itemize} \item перебрать все синсеты Викисловаря: \item Берём синсет, исключаем из него одно слово. \item Пробуем включить это слово обратно в синсет с помощью указанного выше алгоритма. \item Получаем статистику - для скольких синсетов и слов алгоритм дал добро на включение (в идеале - 100 процентов), но исходные данные могут быть с ошибками. \item Получаем список слов и синсетов, на которых алгоритм "спорит" с редакторами Викисловаря и не включает слово в список синонимов. Анализируем этот список вручную. Считаем ошибки. \end{itemize} Проверка гипотезы с помощью "нейтрального" эксперимента (берётся произвольное слово $w$): ..? Открытые вопросы к алгоритму (нужна экспериментальная проверка): \begin{itemize} \item Разбиение исходного списка L. Если перебирать все разбиения, то условие включения слова в синсет: (1) должно выполняться для всех разбиений или (2) хотя бы для одного разбиения? \item ещё? \end{itemize} Рассказать про RusVectores\cite{Kutuzov_2015}. + Ссылка на работу RadimHurek (Gensim).