ROUGH DRAFT authorea.com/110705
Main Data History
Export
Show Index Toggle 3 comments
  •  Quick Edit
  • Модель геометрической структуры синсета

    Abstract The goal of formalization, proposed in this paper, is to bring together, as near as possible, the theoretic linguistic problem of synonym conception and the computer linguistic methods based generally on empirical intuitive unjustified factors. Using the word vector representation we have proposed the geometric approach to mathematical modeling of synset. The word embedding is based on the neural networks (Skip-gram, CBOW), developed and realized as word2vec program by T. Mikolov. The standard cosine similarity is used as the distance between word-vectors. Several geometric characteristics of the synset words are introduced: the interior of synset, the synset word rank and centrality. These notions are intended to select the most significant synset words, i.e. the words which senses are the nearest to the sense of a synset. Some experiments with proposed notions, based on RusVectores resources, are represented.

    Abstract

    Аннотация

    В статье поставлен вопрос формализации понятия синонимии. На основе векторного представления слов в работе предлагается геометрический подход для математического моделирования наборов синонимов (синсетов). Определен такой вычислимый атрибут синсетов, как внутренность синсета (IntS). Введены понятия ранг и центральность слов в синсете, позволяющие определить более значимые, ”центральные” слова в синсете. Для ранга и центральности дана математическая формулировка и предложена процедура их вычисления. Для вычислений использованы нейронные модели (Skip-gram, CBOW), созданные программой Т. Миколова word2vec. На примере синсетов Русского Викисловаря построены IntS по нейронным моделям корпусов проекта RusVectores. Результаты, полученные по двум корпусам (Национальный корпус русского языка и новостной корпус), в значительной степени совпадают. Это говорит о некоторой универсальности предлагаемой математической модели.

    Ключевые слова: синоним, синсет, нейронная сеть, корпусная лингвистика, word2vec, RusVectores, gensim, Русский Викисловарь

    Keywords: synonym, synset, neural network, corpus linguistics, word2vec, RusVectores, gensim, Russian Wiktionary

    Введение

    Понятие синонима не имеет строгого определения, хотя на бытовом уровне оно прижилось и достаточно часто используется. Приведем описательное определение синонима из известного словаря синонимов русского языка З. Е. Александровой (Alexandrova Z. E. 2001):

    Синонимами считаются слова, выражающие одно и то же понятие, тождественные или близкие по значению, отличающиеся друг от друга оттенками значений, принадлежностью к тому или иному стилистическому слою языка и экспрессивной окраской.

    Это определение вызывает ряд вопросов: что такое понятие, значение и т. д.? В результате нет единого строгого определения термина синонимии. Имеются многочисленные научные работы, отражающие различные подходы в его понимании.

    Таким образом, возникает необходимость введения некоторой формализации, которая позволила бы дать количественные характеристики для описания соотношений между словами, что особенно важно в задачах автоматической обработки языка (англ. natural language processing).

    В настоящей работе предложен подход к математическому моделированию понятия синсета.

    Понятие синсет (набор синонимов) обязано своим появлением системе WordNet, в которой различные отношения (синонимия, антонимия и др.) указываются не между словами, а между синсетами (от англ. synonym set, группа синонимов) (Princeton University 2016).

    Для исследования были использованы синонимы Русского Викисловаря. Викисловарь — это свободно пополняемый многофункциональный многоязычный онлайн-словарь и тезаурус. Машиночитаемый Викисловарь, используемый в этой работе, регулярно обновляется и строится с помощью программы wikokit11https://github.com/componavt/wikokit на основе данных Викисловаря (Krizhanovsky 2013).

    Авторы статьи ставят перед собой ряд задач, решение которых в большей или меньшей степени представлено в этой работе:

    • автоматически упорядочивать синонимы внутри синсета по степени близости слов к тому смыслу, который представлен этим синсетом;

    • предложить математический аппарат для анализа, характеристики и сравнения синсетов, проверить его экспериментально на данных онлайн-словаря (Русский Викисловарь);

    • в перспективе с помощью предлагаемого математического аппарата найти ”слабые” синсеты с целью повышения качества словаря;

    • важное направление, занятие которым побудило авторов к этой работе, это разрешение лексической многозначности (word-sense disambiguation или WSD). Программа максимум заключается в том, чтобы использовать нейронные сети и предлагаемые методы для решения WSD-задачи на качественно новом уровне по сравнению с текущими методами (Kaushinis 2015).