ROUGH DRAFT authorea.com/104927
Main Data History
Export
Show Index Toggle 0 comments
  •  Quick Edit
  • Применение лексических цепочек для разрешения лексической многозначности на основе Русского Викисловаря

    Человеческому языку присуща неоднозначность. В частности лексическая неоднозначность представлена во всех естественных языках. Например, в английском языке существительное «plant» может означать «зеленое растение» или «завод», аналогично французское слово «feuille» может иметь значение «лист (растения или дерева)» или «лист бумаги». Точное толкование многозначного слова может быть выбрано на основе контекста, в котором оно употребляется и соответственно задача выбора верного значения слова определяется как задача автоматического назначения наиболее подходящего для пользователя толкования данного слова в пределах контекста (Mihalcea 2007).

    Лексическая многозначность (полисемия) — это фундаментальное свойство естественных языков: каждое слово может иметь более одного значения.

    Разрешение лексической многозначности (англ. word sense disambiguation или WSD) — задача определения смысла (значения) слова, которое принимается в определенном контексте (Edmonds 2008).

    В данном исследовании рассматривается метод построения лексических цепочек. Данный метод подразумевает, что у отрывков из разговорного или письменного текста есть свойство единства. Синтаксические и лексические средства могут использоваться, чтобы создать ощущение связности между предложениями, явление, известное как текстовая связность(Halliday 1976). Из всех средств связи лексическая связность, вероятно, наиболее поддающаяся автоматической идентификации. Лексическая связность возникает, когда слова связаны семантически, например в отношениях повторения между термином и синонимом. Формирование лексической цепочки – это процесс соединения семантически связанных слов (Galley 2003).

    В статье (Barzilay 1997) с целью реферирования текста строится модель в виде лексических цепочек. Реферирование включает четыре этапа: оригинальный текст делится на блоки (сегменты), строятся лексические цепочки, определяются сильные цепочки, извлекаются важные предложения.

    Суть метода заключается в объединении разных частей текста в одно целое, в то, что имеет общее значение (смысл).

    В данной статье объединяются различные слова в тексте с целью нахождения общего значения между ними. Таким образом, происходит избавление от лексической многозначности.

    В статье (Halliday 1976) описывается два способа формирования лексической связности:

    • Лексическая связность повторений (reiteration category) достигается повтором слов, использованием синонимов и гипонимов;

    • Лексическая связность словосочетаний (collocation category) определена для слов, которые часто употребляются вместе, то есть встречаются в одних и тех же контекстах;

    Слова и фразы, между которыми существует лексическая связность, представляют собой лексическую цепочку (lexical chains). Метод лексических цепочек основан на анализе совместной встречаемости слов и лексических связей между словами.

    Достоинство лексических цепочек состоит в том, что их не сложно распознать и построить.

    Метод построения лексических цепочек включает шаги:

    1. 1.

      Выбирается набор слов-кандидатов (существительные и составные существительные). Это кандидаты на включение в цепочки;

    2. 2.

      Строится список всех значений для каждого слова-кандидата (по данным словаря);

    3. 3.

      Для каждого значения каждого слова-кандидата находится связь для каждого слова во всех уже построенных цепочках (слово в цепочке имеет строго определённое значение, задаваемые другими словами в той же цепочке);

    4. 4.

      Слово-кандидат добавляется в цепочки со словами, в которых найдена связь. Смысловая неоднозначность устраняется, то есть в цепочку добавляется не просто слово, а его конкретное значение;

    Для иллюстрации метода приведем пример на отрывке текста, представленного ниже, и определим, какие значения будут выбраны для слов «любовь» и «дом». Первым существительным в тексте является слово «любовь», исходя из данных Русского Викисловаря, у него есть семь различных значений (Wiktionary):

    1. 1.

      чувство глубокой привязанности к кому-либо, чему-либо; Материнская любовь; Любовь к другу; цит. Люблю отчизну я, но странною любовью! Не победит её рассудок мой. [М. Ю. Лермонтов, «Родина», 1841 г.];

    2. 2.

      чувство расположения, симпатии к кому-либо;

    3. 3.

      чувство горячей сердечной склонности, влечение к другому человеку;

    4. 4.

      чья-то о человеке, внушающем чувство любви (в предыдущем значении);

    5. 5.

      любовные отношения;

    6. 6.

      внутреннее стремление, влечение, склонность, тяготение к чему-либо;

    7. 7.

      пристрастие к чему-либо, предпочтение чего-либо;

    Наличие нескольких значений разбивает пространство цепочек на несколько множеств интерпретаций, в каждой из которых используются разные значения слова «любовь». Четыре первых значения слова «любовь» связаны со словом «чувство» и только в первом значении «любовь» (цит. Люблю отчизну я, но странною любовью! Не победит её рассудок мой. [М. Ю. Лермонтов, «Родина», 1841 г.]) связана со словом «Родина», отсюда получаем две интерпретации (Рис.1).

    Любовь к Родине – одно из самых мощных, возвышенных чувств. Она в полной мере проявилась в братской поддержке жителей Крыма и Севастополя, когда они твердо решили вернуться в свой родной дом. (В. В. Путин)