Authorea

Stanislav Tkach edited textit_plant_textit_textit_textit__.tex about 8 years ago

Commit id: 25ff99ee2aab0416a8af45b79cdf260b46c028d3

deletions | additions

Человеческому языку присуща неоднозначность. В частности лексическая неоднозначность распространена во всех естественных языках, в которыхбольшинство слов имеют более одного толкования. Например в английском языке существительное «\textit{plant}» может означать «\textit{зеленое} \textit{растение}» или «\textit{завод}», аналогично французское слово «\textit{feuille}» может иметь значение «\textit{лист}» или «\textit{газета}». Верное толкование многозначного слова может быть выбрано на основе контекста, в котором оно употребляется и соответственно задача выбора верного значения слова определяется как задача автоматического назначения наиболее подходящего для пользователя толкования данного слова в пределах контекста\cite{Dandala_2013}. Лексическая многозначность — это фундаментальное свойство естественных языков: каждое слово может иметь более одного значения. Разрешение лексической многозначности (англ. word sense disambiguation или WSD) — задача определения смысла (значения) слова, которое принимается в определенном контексте. В своем исследовании мы опираемся на метод построения лексических цепочек. Данный метод подразумевает, что у отрывков из разговорного или письменного текста есть свойство единства. Синтаксические и лексические средства могут использоваться, чтобы создать ощущение связности между предложениями, явление, известное как текстовая связность\cite{Halliday_1976}. Из всех средств связи лексическая связность, вероятно, наиболее поддающаяся автоматической идентификации\cite{Hoey_1991}. Лексическая связность возникает, когда слова связаны семантически, например в отношениях повторения между термином и синонимом. Формирование лексической цепочки – это процесс соединения семантически связанных слов \cite{Galley_2003}. В статье \cite{Barzilay_1997} с целью реферирования текста строится модель в виде лексических цепочек. Реферирование включает четыре этапа: оригинальный текст делится на блоки (сегменты), строятся лексические цепочки, определяются сильные цепочки, извлекаются важные предложения. Суть метода заключается в объединении разных частей текста в одно целое, в то, что имеет общее значение (смысл). В нашем случае мы будем объединять различные слова в тексте с целью нахождения общего значения между ними. Таким образом мы будем избавляться от лексической многозначности. Холлидей и Хасан \cite{Halliday_1976} выделили два способа формирования лексической связности: \begin{itemize} \item Лексическая связность повторений (reiteration category) достигается повтором слов, использованием синонимов и гипонимов \item Лексическая связность словосочетаний (collocation category) определена для слов, которые часто употребляются вместе, то есть встречаются в одних и тех же контекстах \end{itemize} Слова и фразы, между которыми существует лексическая связность, формируют лексическую цепочку (lexical chains). Метод лексических цепочек основан на анализе совместной встречаемости слов и лексических связей между словами. Достоинство лексических цепочек состоит в том, что их не сложно распознать и построить. Метод построения лексических цепочек включает шаги: \begin{enumerate} \item Выбирается набор слов-кандидатов (существительные и составные существительные). Это кандидаты на включение в цепочки \item Строится список всех значений для каждого слова-кандидата (по данным словаря) \item Для каждого значения каждого слова-кандидата находится связь для каждого слова во всех уже построенных цепочках (слово в цепочке имеет строго определённое значение, задаваемые другими словами в той же цепочке) \item Слово-кандидат добавляется в цепочки со словами, в которых найдена связь. Смысловая неоднозначность устраняется, то есть в цепочку добавляется не просто слово, а его конкретное значение \end{enumerate} Для иллюстрации метода приведем пример на отрывке текста, представленного ниже, и определим, какие значения будут выбраны для слов «\textit{любовь}» и «\textit{дом}». Первым существительным в тексте является слово «\textit{любовь}», исходя из данных Русского Викисловаря, у него есть семь различных значений. Наличие нескольких значений, разбивает пространство цепочек на несколько множеств интерпретаций, в каждой из которых используются разные значения слова «любовь». Практически все значения слова «\textit{любовь}» связаны со словом «\textit{чувство}» и только в первом значении «\textit{любовь}» (цит. Люблю отчизну я, но странною любовью! Не победит её рассудок мой. [М. Ю. Лермонтов, «Родина», 1841 г.]) связана со словом «\textit{Родина}», отсюда получаем две интерпретации (Рис.1). \begin{quote} \textbf{Любовь} к \textbf{Родине} – одно из самых мощных, возвышенных \textbf{чувств}. Она в полной \textbf{мере} проявилась в братской \textbf{поддержке} \textbf{жителей} Крыма и Севастополя, когда они твердо решили вернуться в свой родной \textbf{дом}. (В. В. Путин) \end{quote}