Andrew Krizhanovsky edited IntS relaxed.tex  about 8 years ago

Commit id: e93cb5ca946ff7c4670302915b2332581c7d480e

deletions | additions      

       

\section{IntS %\section{IntS  relaxed} Введём понятие \textit{IntS relaxed}~--- ослабленный $IntS$, внутренность синсета с меньшими ограничениями.  К конструированию такого понятия подтолкнуло, во-первых, неожиданное открытие,   что для ряда синсетов Викисловаря (табл.~\ref{tab:IntSEmpty}) IntS оказался пустым множеством.   Во-вторых, хотелось бы уметь строить IntS для произвольного множества слов, для предложений и фрагментов текста с тем, чтобы анализировать текст, находить "компактные" (близкие по значению) множества слов Добавить  в нём.  \begin{definition}  Границей синсета $S$ называется множество $Out S= S\setminus Int S$ (synset's edge).  \end{definition}  Поясним, что граница таблицу примеров с непустым $IntS$, интереснее примеры одного  синсета $OutS$ включает такие синонимы из $S$, добавление которых сразу  в любые непустые разбиения синсета не сближает средние векторы этих разбиений. двух корпусах.  \begin{table}   \label{tab:IntSEmpty} 

\caption{Примеры синсетов, ряд которых имеет пустую внутренность ($IntS = \varnothing$). Синсеты взяты из словарных статей Русского Викисловаря, слова в синсете упорядочены по рангу и центральности. Указан корпус, по которому в проекте $RusVect\bar{o}r\bar{e}s$ построена нейронная модель, использованная для вычислений $IntS$.}  \end{table}  Обсудим данные табл.~\ref{tab:IntSEmpty}. Очевидно, что одному и тому же слову в разных нейронных моделях, построенных по разным корпусам, будут соответствовать разные вектора. И сами словари этих нейронных моделей будут отличаться, см.~\cite{Kutuzov2015}. Именно по этой причине отрадно видеть, что результаты в табл.~\ref{tab:IntSEmpty}, полученные по разным корпусам, в значительной степени совпадают. Это говорит о некоторой универсальности предлагаемой математической модели.Todo: Сколько всего синсетов с пустым IntS получено по разным частям речи (абсолютное число и $\%$ относительно всех синсетов)?  Todo: Сравнить два упорядочения синсета: "rank and centrality" и IntS relaxed. Разное упорядочение? Что лучше?  Варианты названий:  \begin{itemize}  \item RelaxIntS (w, S)  \item RelaxIntSent (w, S) (поскольку здесь $S$~--- это, скорее, Sentence, а не Synset).  \end{itemize}  Неформальное определение. $RelaxIntSent (w, Sentence)$~--- это функция от двух переменных: целевого слова $w$ и некоторого множества слов $Sentence$, при этом $w \in Sentence$.  $RelaxIntSent (w, Sentence)$~--- это такое максимальное (по количеству слов) подмножество $S \in Sentence$, что $IntS \neq \varnothing$.  Условия и ограничения на $RelaxIntSent (w, S)$:  \begin{itemize}  \item Сначала $IntS$ вычисляется для всего Sentence, то есть положим $S := Sentence$. Если $IntS = \varnothing$, то множество $S$ сокращается на одно слово и снова вычисляется $IntS$. До тех пор, пока не будет получен ненулевой $IntS$, который и будет принят за $RelaxIntSent (w, S)$.  \item целевое слово $w$ не обязательно будет входить в итоговый $IntS$, но при выборе "крайнего" слова, которое будет "утрачено" для сокращения текущего подмножества $Sentence$, будет выбираться наиболее удалённое слово в $Sentence$ от $w$.  \end{itemize}  Таким образом, $RelaxIntSent (w, Sentence)$~--- это множество (различных) $IntS$, получаемых при выборе различных $w$ из $Sentence$.  Ссылка на табл.~\ref{tab:IntSReduced}  \begin{table}   \label{tab:IntSReduced}  \begin{tabular}{ c c c c c }  целевое слово $t$ & $IntS$ & число вхождений $t$ в разные $IntS$ (это ли $RelaxIntSent$?) \\  план & план, проект, замысел & 1 \\  умысел & замысел & 0 \\  намерение & замысел & 0 \\  прожект & задумка, проект & 0 \\  задумка & задумка, проект, замысел & 2 \\  проект & проект, замысел & 4 \\  замысел & замысел & 6 \\  \end{tabular}  \caption{Непустые $IntS$ для подмножеств $S$, построенных для разных целевых слов,   соответствующих словам синсета $S$=(план, умысел, намерение, прожект, задумка, проект, замысел), причем $IntS = \varnothing$.}  \end{table}  Нужно ли ещё формальное и математическое определение? Или достаточно процедуры выше + ссылки на код программы?