Andrew Krizhanovsky added section_IntS_a_b_sim__.tex  about 8 years ago

Commit id: 13999443b46ed06a3729a927c22b0cc1ecd3386b

deletions | additions      

         

\section{IntS}  Расстояние между векторами-словами (нормированными) измеряется их скалярным произведением, или углом между векторами, как в теории проективных пространств.  Таким образом, увеличение скалярного произведения соответствует уменьшению расстояния между векторами-словами $a, b$, которое принято обозначать как $sim\{a, b\}$, что является сокращением термина $similarity$ -- "похожесть" или "сходство" слов\footnote{Будем использовать фигурные скобки $sim\{a, b\}$, чтобы отличать запись от скалярного произведения $(\cdot, \cdot)$.}.  Итак, $sim\{a, b\} = \frac{ (a,b) }{ ||a|| \dot ||b|| }$~---~это расстояние между векторами $a$ и $b$.  Предлагаются и другие способы определения расстояния между словами-векторами (ССЫЛКИ), но в их основе также лежит скалярное произведение.   Введем обозначения для нормированных сумм векторов: $M((a_{i}),n)=\frac{\sum_{i=1}^n a_{i}}{||\sum_{i=1}^n a_{i}||}$. Расстояние между множествами векторов будем понимать как расстояния между средними векторов этих сумм. Таким образом, если даны два множества веторов $A=\{a_1,...,a_n\}$ и $B=\{b_1,...,b_m\}$, то расстояние между ними, $sim\{A, B\}$, определяется следующим образом $sim\{A, B\}=(M((a_i),n),(M((b_j),m))) $.  Рассмотрим синсет $S=\{v_k, k=1,...,|S|\}$. Удалим какое-либо слово $v$ из синсета. Индекс слова опускаем для сокращения записи. Разобъем множество $S\setminus \{v\}$ на два непересекающихся подмножества: $S\setminus \{v\}=\{v_{i_s}\}\sqcup \{v_{j_p}\},$ $ s=1,...,q,$ $ p=1,...,r,$ $q+r=|S|-1, \ i_s\neq j_p $.   Обозначим $S_1=\{v_{i_s}\}, S_2=\{v_{j_p}\}$. Тогда введенное выше дизъюнктное разбиение запишется в виде $S\setminus \{v\}=S_1 \cup S_2$.  \begin{definition}  Внутренностью $Int S$ синсета $S$ называется множество всех векторов $v \in S$, удовлетворяющих условию   $$  Int S = \{v \in S: sim\{S_1, S_2\} < sim\{S_1 \cup v, S_2\} \ \bigwedge \ sim\{S_1, S_2\} < sim\{S_1, S_2 \cup v\}\}  $$  для всех дизъюнктных разбиений $S\setminus \{v\}=S_1 \cup S_2$, где $S_1 \neq \emptyset,\ S_2 \neq \emptyset$.  \end{definition}  %$$  %Int S = \{v \in S: sim(\{v_{i_s}\}, \{v_{j_p}\}) < sim(\{v_{i_s}, v\}, \{v_{j_p}\}) \wedge sim(\{v_{i_s}\}, \{v_{j_p}\}%) < sim(\{v_{i_s}\}, \{v_{j_p}, v\})\}  %$$  %для любых дизъюнктных разбиений $S\setminus \{v\}=\{v_{i_s}\}\sqcup \{v_{j_p}\},$   %$ s=1,...,q,$ $ p=1,...,r,$ $q+r=|S|-1, \ i_s\neq j_p $.  Смысл определения состоит в том, что добавление вектора $v \in Int S$ в любое из двух подмножеств   множества $S\setminus \{v\}$, образующих его дизъюнктное разбиение, уменьшает расстояние между этими подмножествами.  Чтобы проиллюстрировать IntS и показать, какие слова в него входят, предположим, что вектора имеют размерность не 100 или 300, а всего два. На рис.~\ref{fig:IntSWithTwoSets} представлена такая конфигурация синсета $S$, что вершина $v$ не может не входить в $IntS$. То есть любые разбиения $S$ будут "стягиваться", сближаться добавлением $v$ к одному из разбиений ($S_1$ или $S_2$).