ROUGH DRAFT authorea.com/104012
Main Data History
Export
Show Index Toggle 0 comments
  •  Quick Edit
  • Модель синсета: геометрия и статистика (тезисы)

    Трудности в определениии понятия синонима, влекущие к неоднозначности в понимании этого термина, приводят к необходимости введения некоторой формализации, которая позволила бы дать количественные характеристики для описания соотношений между словами. В докладе предложен подход к математическому моделированию понятия синсета (набора синонимов).

    Для разработки модели синсета слова представляются в виде векторов. Рассмотрим некоторый словарь и пронумеруем все слова, порождающие словарные статьи и входящие в них. Пусть \(|D|\) - количество слов в словаре.

    Векторным словарем назовем множество \(D=\{w_{i}\in\mathbb{R}^{|D|}\}\), где \(i\)-ая компонента вектора \(w_{i}\) равна 1, а остальные компоненты – нули.

    Задача векторного представления слов состоит в построении линейного отображения \(L:D\rightarrow\mathbb{R}^{N}\), где \(N<<|D|\), а вектор \(v=L(w),w\in D\) имеет компоненты \(v_{i}\in\mathbb{R}\). Полагая что линейное отображение \(L\) реализуется с помощью матрицы \(W\), получаем \(v=Ww\), причем для нахождении матрицы \(W\) используют различные методы, в частности, основанные на нейронных сетях. Наибольшую популярность в самое последнее время приобрели CBOW и Skip-gram методы, предложенные в (Mikolov 2013) и являющиеся, по сути, модификацией метода максимального правдоподобия. При этом в методе Skip-gram матрица \(W\) максимизирует функцию \(F(W)\) вида

    \begin{equation} F(W)=\frac{1}{T}\sum_{t=1}^{T}\sum_{-c\leq j\leq c,j\neq 0}\ln p(w_{t+j}|w_{t)}\nonumber \\ \end{equation} \begin{equation} p(w_{t+j}|w_{t})=\frac{\exp u_{t+j}}{\sum_{i=1}^{|D|}\exp u_{i}},\qquad u_{i}=(Ww_{i},Ww_{t})\nonumber \\ \end{equation}

    где \((\cdot,\cdot)\) – символ скалярного произведения, \(T\)– объем обучающего контекста. Здесь по слову \(w(t)\) находится содержащий его контекст, составляющий ”окно” размера \(2c\). В методе CBOW (continuous bag of words), наоборот, по контексту находится слово, входящее в него. Для максимизации \(F(W)\) используется метод стохастического градиентного спуска.

    Введем обозначения для нормированных сумм векторов: \(M((a_{i}),n)=\frac{\sum_{i=1}^{n}a_{i}}{||\sum_{i=1}^{n}a_{i}||}\), \(M((a_{i},v),n+1)=\frac{\sum_{i=1}^{n}a_{i}+v}{||\sum_{i=1}^{n}a_{i}+v||}\). Рассмотрим синсет \(S=\{v_{k},k=1,...,|S|\}\).

    Внутренностью \(IntS\) синсета \(S\) называется множество всех векторов \(v_{l}\in S\), удовлетворяющих условию

    \begin{equation} IntS=\{v_{l}\in S:(M((v_{i_{s}}),q)-M((V_{i_{s}},v_{l}),n+1),M((v_{j_{p}}),r))<0\}\nonumber \\ \end{equation}

    для любых дизъюнктных разбиений \(S\setminus\{v_{l}\}=\{v_{i_{s}}\}\sqcup\{v_{j_{p}}\},\) \(s=1,...,q,\) \(p=1,...,r,\) \(q+r=|S|-1,\ i_{s}\neq j_{p}\).

    Смысл определения состоит в том, что добавление вектора \(v_{l}\in S\) в любое из двух подмножеств множества \(S\setminus\{v_{l}\}\), образующих его дизъюнктное разбиение, уменьшает расстояние между этими подмножествами.

    Расстояние между множествами \(\{a_{1},...,a_{n}\}\) и \(\{b_{1},...,b_{m}\}\) определим значением скалярного произведения нормированных средних векторов этих множеств \((M((a_{i}),n),M((b_{j}),m))\). Определим ранг синонима \(v\in S\). Дизъюнктное разбиение на два множества будем называть разбиением. Пусть \(P=\{p_{i},i=1,...,2^{n-2}-1\}\) - множество всех пронумерованных каким-либо образом разбиений \((n-1)-\)элементного множества \(S\setminus v\).

    Пусть \(sim_{i}\) – расстояние между элементами разбиения \(p_{i}\), \(sim_{i}(v,1),sim_{i}(v,2)\) – расстояния между одним из элементов разбиения и множеством, являющимся объединением другого элемента и слова \(v\).

    Введем функцию \(r:P\rightarrow\{-1,0,1\}\). Пусть \(r(p_{i})=r_{i}\), где \(r_{i}=-1,1\) или 0, если добавление слова \(v\) к каждому из элементов разбиения \(p_{i}\) увеличивает, уменьшает расстояние \(sim_{i}\) или добавление к одному элементу увеличивает, а к другому – уменьшает расстояние \(sim_{i}\), соответственно.

    \begin{equation} rank\ v=\sum_{i=1}^{|S\setminus v|}r_{i}\nonumber \\ \end{equation}

    Утверждение. Если \(v\in IntS\), то \(rank\ v=d=2^{|S|-2}-1\) – это число всех непустых дизъюнктных разбиений \((|S|-1)-\)элементного множества \(S\setminus v\), т.е. \(rank\ v\) максимален и совпадает с числом Стирлинга второго рода: \(\binom{n}{k}=\binom{|s|}{2}\), где n – мощность разбиваемого множества, а k — число подмножеств, здесь два.