Andrew Krizhanovsky edited section_begin_definition_textit_w__.tex  about 8 years ago

Commit id: d5cad4bcf05ce76c01cb821bc8734beeb48fff30

deletions | additions      

       

Пусть $sim_i$ -- расстояние между элементами разбиения $p_i$, $sim_i(v,1), sim_i(v, 2)$ -- расстояния между одним из элементов разбиения и множеством, являющимся объединением другого элемента и слова $v$.  temp: Для любых дизъюнктных разбиений $S\setminus \{v_l\}=\{v_{i_s}\}\sqcup \{v_{j_p}\},$   $ s=1,...,q,$ $ p=1,...,r,$ $q+r=|S|-1, \ i_s\neq j_p $.  Определим \textbf{степень центральности синонима} $w$ в синсете $S$ (centrality) через процедуру вычисления этой степени:  \begin{enumerate}  \item $S \setminus w$~--- обозначим синсет $S$ без слова $w$  \item Рассмотрим все возможные разбиения $S \setminus w$ на два непустых множества. Например, Пусть  одним из разбиений $S \setminus w$  является пара подмножеств $l_1$ и $l_2$, т.е. $S \setminus w = l_1 \sqcup l_2$. \item$centrality = 0$  \item  Для всех таких пар $l_1$ и $l_2$: такого разбиения $l_1 \sqcup l_2$ вычислим:  \begin{enumerate}  \itemВычислить расстояние между двумя подмножествами слов с помощью функции n_similarity так:  $sim_0 = model.n\_similarity distance  (l_1, l_2)$ \itemТо же, но заданное слово $w$ добавляется к первому подмножеству:  $sim_1 = model.n\_similarity distance  (l_1 \cup w, l_2)$ // слово $w$ добавляется к первому подмножеству $l_1$  \itemКо второму:  $sim_2 = model.n_similarity distance  (l_1, l_2 \cup w)$ // слово $w$ добавляется ко второму подмножеству $l_2$  \item $\Delta centrality_ = (sim_1 - sim_0) + (sim_2 - sim_0)$  \item $if( sim_1 < sim_0 AND sim_2 < sim_0 ) then w \rightarrow L$ // Если добавление слова $w$ сближает подмножества, то это слово является синонимом (добавляем это слово в синсет $L$).  \end{enumerate}  \item \item   \item   \item $centrality = \sum \Delta centrality_i$, где $i$ задаёт обход по всем возможным разбиениям $S \setminus w$ на два непустых множества  \end{enumerate}  Пояснения и примечания:  \begin{itemize}  \item $s \setminus w$~--- это синсет $s$ без синонима $w$