this is for holding javascript data
Andrew Krizhanovsky added section_IntS_relaxed_textit_IntS__.tex
about 8 years ago
Commit id: 2c6637f297c956b7eb4c4bfc48ce17cbdebc2157
deletions | additions
diff --git a/section_IntS_relaxed_textit_IntS__.tex b/section_IntS_relaxed_textit_IntS__.tex
new file mode 100644
index 0000000..fc0cafe
--- /dev/null
+++ b/section_IntS_relaxed_textit_IntS__.tex
...
\section{IntS relaxed}
Введём понятие \textit{IntS relaxed}~--- ослабленный IntS, внутренность синсета с меньшими ограничениями.
К конструированию такого понятия подтолкнуло, во-первых, неожиданное открытие,
что для ряда синсетов Викисловаря (табл.~\ref{tab:IntSEmpty}) IntS оказался пустым множеством.
Во-вторых, хотелось бы уметь строить IntS для произвольного множества слов, для предложений и фрагментов текста с тем, чтобы анализировать текст, находить "компактные" (близкие по значению) множества слов в нём.
Обозначим под $OutS$ те слова синсета $S$, которые не вошли в $IntS$, то есть $OutS = S \setminus IntS$.
todo Перенести сюда или выше определение границы синсета $BdS$. Какое сокращение лучше $OutS$ или $BdS$? Интуитивно, кажется понятным противопоставлением Int и Out (внутреннее и наружное). Так ли?
\begin{table}
\label{tab:IntSEmpty}
\begin{tabular}{ c c c c c }
словарная статья & синсет (из статьи), по умолчанию целиком входит в $OutS$ & $|| S ||$ & $|| IntS ||$ & корпус \\
план & умысел, намерение, прожект, задумка, план, проект, замысел & 7 & 0 & НКРЯ\\
хвороба & нездоровье, хворость, хвороба, хворь, болезнь & 5 & 0 & НКРЯ\\ \hline
прекрасно & чудесно, замечательно, отлично, превосходно, прекрасно & 5 & 0 & НКРЯ\\
прекрасно & IntS(превосходно, замечательно), OutS(чудесно, прекрасно, отлично) & 5 & 2 & News\\ \hline
добрый & душевный, добросердечный, отзывчивый, сердечный, добрый & 5 & 0 & НКРЯ, News\\ \hline
каменный & каменный, бесчувственный, суровый, жестокий, безжалостный & 5 & 0 & НКРЯ\\
каменный & IntS(безжалостный), OutS(каменный, бесчувственный, суровый, жестокий) & 5 & 1 & News\\ \hline
обличать & обличать, изобличать, обвинять, разоблачать, уличать & 5 & 0 & НКРЯ, News \\
казаться & сдаваться, представляться, думаться, казаться & 4 & 0 & НКРЯ, News \\
изготовлять & делать, создавать, производить, сооружать, мастерить, изготавливать, изготовлять & 7 & 0 & НКРЯ, News \\
\end{tabular}
\caption{Примеры синсетов, ряд которых имеет пустую внутренность ($IntS = \varnothing$). Синсеты взяты из словарных статей Русского Викисловаря, слова в синсете упорядочены по рангу и центральности. Указан корпус, по которому в проекте $RusVect\bar{o}r\bar{e}s$ построена нейронная модель, использованная для вычислений $IntS$.}
\end{table}
Обсудим данные табл.~\ref{tab:IntSEmpty}. Очевидно, что одному и тому же слову в разных нейронных моделях, построенных по разным корпусам, будут соответствовать разные вектора. И сами словари этих нейронных моделей будут отличаться, см.~\cite{Kutuzov_2015}. Именно по этой причине отрадно видеть, что результаты в табл.~\ref{tab:IntSEmpty}, полученные по разным корпусам, в значительной степени совпадают. Это говорит о некоторой универсальности предлагаемой математической модели.
Todo: Сколько всего синсетов с пустым IntS получено по разным частям речи (абсолютное число и $\%$ относительно всех синсетов)?
Todo: Сравнить два упорядочения синсета: "rank and centrality" и IntS relaxed. Разное упорядочение? Что лучше?
Варианты названий:
\begin{itemize}
\item RelaxIntS (w, S)
\item RelaxIntSent (w, S) (поскольку здесь $S$~--- это, скорее, Sentence, а не Synset).
\end{itemize}
Неформальное определение. $RelaxIntSent (w, Sentence)$~--- это функция от двух переменных: целевого слова $w$ и некоторого множества слов $Sentence$, при этом $w \in Sentence$.
$RelaxIntSent (w, Sentence)$~--- это такое максимальное (по количеству слов) подмножество $S \in Sentence$, что $IntS \neq \varnothing$.
Условия и ограничения на $RelaxIntSent (w, S)$:
\begin{itemize}
\item Сначала $IntS$ вычисляется для всего Sentence, то есть положим $S := Sentence$. Если $IntS = \varnothing$, то множество $S$ сокращается на одно слово и снова вычисляется $IntS$. До тех пор, пока не будет получен ненулевой $IntS$, который и будет принят за $RelaxIntSent (w, S)$.
\item целевое слово $w$ не обязательно будет входить в итоговый $IntS$, но при выборе "крайнего" слова, которое будет "утрачено" для сокращения текущего подмножества $Sentence$, будет выбираться наиболее удалённое слово в $Sentence$ от $w$.
\end{itemize}
Таким образом, $RelaxIntSent (w, Sentence)$~--- это множество (различных) $IntS$, получаемых при выборе различных $w$ из $Sentence$.
Ссылка на табл.~\ref{tab:IntSReduced}
\begin{table}
\label{tab:IntSReduced}
\begin{tabular}{ c c c c c }
целевое слово $t$ & $IntS$ & число вхождений $t$ в разные $IntS$ (это ли $RelaxIntSent$?) \\
план & план, проект, замысел & 1 \\
умысел & замысел & 0 \\
намерение & замысел & 0 \\
прожект & задумка, проект & 0 \\
задумка & задумка, проект, замысел & 2 \\
проект & проект, замысел & 4 \\
замысел & замысел & 6 \\
\end{tabular}
\caption{Непустые $IntS$ для подмножеств $S$, построенных для разных целевых слов,
соответствующих словам синсета $S$=(план, умысел, намерение, прожект, задумка, проект, замысел), причем $IntS = \varnothing$.}
\end{table}
Нужно ли ещё формальное и математическое определение? Или достаточно процедуры выше + ссылки на код программы?