Применение лексических цепочек для разрешения лексической многозначности на основе Русского Викисловаря

Человеческому языку присуща неоднозначность. В частности лексическая неоднозначность представлена во всех естественных языках. Например, в английском языке существительное «plant» может означать «зеленое растение» или «завод», аналогично французское слово «feuille» может иметь значение «лист (растения или дерева)» или «лист бумаги». Точное толкование многозначного слова может быть выбрано на основе контекста, в котором оно употребляется и соответственно задача выбора верного значения слова определяется как задача автоматического назначения наиболее подходящего для пользователя толкования данного слова в пределах контекста (Mihalcea 2007).

Лексическая многозначность (полисемия) — это фундаментальное свойство естественных языков: каждое слово может иметь более одного значения.

Разрешение лексической многозначности (англ. word sense disambiguation или WSD) — задача определения смысла (значения) слова, которое принимается в определенном контексте (Edmonds 2008).

В данном исследовании рассматривается метод построения лексических цепочек. Данный метод подразумевает, что у отрывков из разговорного или письменного текста есть свойство единства. Синтаксические и лексические средства могут использоваться, чтобы создать ощущение связности между предложениями, явление, известное как текстовая связность(Halliday 1976). Из всех средств связи лексическая связность, вероятно, наиболее поддающаяся автоматической идентификации. Лексическая связность возникает, когда слова связаны семантически, например в отношениях повторения между термином и синонимом. Формирование лексической цепочки – это процесс соединения семантически связанных слов (Galley 2003).

В статье (Barzilay 1997) с целью реферирования текста строится модель в виде лексических цепочек. Реферирование включает четыре этапа: оригинальный текст делится на блоки (сегменты), строятся лексические цепочки, определяются сильные цепочки, извлекаются важные предложения.

Суть метода заключается в объединении разных частей текста в одно целое, в то, что имеет общее значение (смысл).

В данной статье объединяются различные слова в тексте с целью нахождения общего значения между ними. Таким образом, происходит избавление от лексической многозначности.

В статье (Halliday 1976) описывается два способа формирования лексической связности:

  • Лексическая связность повторений (reiteration category) достигается повтором слов, использованием синонимов и гипонимов;

  • Лексическая связность словосочетаний (collocation category) определена для слов, которые часто употребляются вместе, то есть встречаются в одних и тех же контекстах;

Слова и фразы, между которыми существует лексическая связность, представляют собой лексическую цепочку (lexical chains). Метод лексических цепочек основан на анализе совместной встречаемости слов и лексических связей между словами.

Достоинство лексических цепочек состоит в том, что их не сложно распознать и построить.

Метод построения лексических цепочек включает шаги:

  1. 1.

    Выби