Authorea

Andrew Krizhanovsky example rewritten almost 8 years ago

Commit id: 34854ced2dbc9a2b45b947d4a698dc43460909d6

deletions | additions

Дан синсет $S$ = \textit{(баюкать, убаюкивать, укачивать, усыплять)}. Нужно найти $IntS$, вычислить ранг и центральность для каждого слова в синсете. Пример вычисления ранга и степени центральности для слова "\textit{усыплять}" в этом синсете показан на рис.~\ref{fig:SynsetSetsRank}. Множество мощности $3 = |S \setminus \{v\}|$ можно разбить тремя способами на два непустых подмножества. Каждое такое разбиение добавляет в $rank (v)$ 1, 0 или -1 (рис.~\ref{fig:SynsetSetsRank}). Значение ранга получилось равным -1, степень центральности равна -0,071. В табл.~\ref{tab:CentralityRankIntS} указаны значения ранга, степени центральности и принадлежность $IntS$ для слов синсета. В соответствии с изложенной выше теоремой ранг синонимов, принадлежащих внутренности синсета $IntS$, должен быть равен $$ 2^{|S|-2}-1 = 2^{|4|-2}-1 = 3 $$ В табл.~\ref{tab:CentralityRankIntS} видно, что ранг 3 и наибольшие значения центральности у слов "баюкать", "убаюкивать". Итак, $Int$ (баюкать, убаюкивать, укачивать, усыплять) = (баюкать, убаюкивать), то есть в $IntS$ вошли векторы, соответветствующие словам "убаюкивать" и "баюкать". Это указывает на то, что эта пара наиболее близка по смыслу среди четырёх слов синсета. В табл.~\ref{tab:CentralityRankIntS} видно, что эти два слова получили ранг 3 и наибольшие значения центральности. Ранг 3 является максимально возможным для слова $v$ синсета $S$, состоящего из четырёх слов, поскольку множество мощности $3 = |S \setminus \{v\}|$ можно разбить тремя способами на два непустых подмножества. Каждое такое разбиение добавляет в $rank (v)$ 1, 0 или -1 (рис.~\ref{fig:SynsetSetsRank}). \end{example}