Модель синсета: геометрия и статистика (тезисы)

Трудности в определении понятия синонима, влекущие к неоднозначности в понимании этого термина, приводят к необходимости введения некоторой формализации, которая позволила бы дать количественные характеристики для описания соотношений между словами. В докладе предложен подход к математическому моделированию понятия синсета (набора синонимов).

Для разработки модели синсета слова представляются в виде векторов. Рассмотрим некоторый словарь и пронумеруем все слова, порождающие словарные статьи и входящие в них. Пусть \(|D|\) - количество слов в словаре.

Векторным словарем назовем множество \(D=\{w_{i}\in\mathbb{R}^{|D|}\}\), где \(i\)-ая компонента вектора \(w_{i}\) равна 1, а остальные компоненты – нули.

Задача векторного представления слов состоит в построении линейного отображения \(L:D\rightarrow\mathbb{R}^{N}\), где \(N<<|D|\), а вектор \(v=L(w),w\in D\) имеет компоненты \(v_{i}\in\mathbb{R}\). Полагая что линейное отображение \(L\) реализуется с помощью матрицы \(W\), получаем \(v=Ww\), причем для нахождении матрицы \(W\) используют различные методы, в частности, основанные на нейронных сетях. Наибольшую популярность в самое последнее время приобрели CBOW и Skip-gram методы, предложенные в (Mikolov 2013) и являющиеся, по сути, модификацией метода максимального правдоподобия. При этом в методе Skip-gram матрица \(W\) максимизирует функцию \(F(W)\) вида

\begin{equation} F(W)=\frac{1}{T}\sum_{t=1}^{T}\sum_{-c\leq j\leq c,j\neq 0}\ln p(w_{t+j}|w_{t)}\nonumber \\ \end{equation} \begin{equation} p(w_{t+j}|w_{t})=\frac{\exp u_{t+j}}{\sum_{i=1}^{|D|}\exp u_{i}},\qquad u_{i}=(Ww_{i},Ww_{t})\nonumber \\ \end{equation}

где \((\cdot,\cdot)\) – символ скалярного произведения, \(T\)– объем обучающего контекста. Здесь по слову \(w(t)\) находится содержащий его контекст, составляющий ”окно” размера \(2c\). В методе CBOW (continuous bag of words), наоборот, по контексту находится слово, входящее в него. Для максимизации \(F(W)\) используется метод стохастического градиентного спуска.

Введем обозначения для нормированных сумм векторов: \(M((a_{i}),n)=\frac{\sum_{i=1}^{n}a_{i}}{||\sum_{i=1}^{n}a_{i}||}\), \(M((a_{i},v),n+1)=\frac{\sum_{i=1}^{n}a_{i}+v}{||\sum_{i=1}^{n}a_{i}+v||}\). Рассмотрим синсет \(S=\{v_{k},k=1,...,|S|\}\).

Внутренностью \(IntS\) синсета \(S\) называется множество всех векторов \(v_{l}\in S\), удовле