Authorea

stasonmokoron edited untitled.tex about 8 years ago

Commit id: a193b7de4a4159cdfc2dd473a204521566dc2b77

deletions | additions

\textit{Oh, an empty article!} Человеческому языку присуща неоднозначность. В частности лексическая неоднозначность распространена во всех естественных языках, в которых большинство слов имеют более одного толкования. Например в английском языке существительное «\textit{plant}» может означать «\textit{зеленое} \textit{растение}» или «\textit{завод}», аналогично французское слово «\textit{feuille}» может иметь значение «\textit{лист}» или «\textit{газета}». Верное толкование многозначного слова может быть выбрано на основе контекста, в котором оно употребляется и соответственно задача выбора верного значения слова определяется как задача автоматического назначения наиболее подходящего для пользователя толкования данного слова в пределах контекста [Bharath Dandala, Rada Mihalcea, and Razvan Bunescu, Word Sense Disambiguation Using Wikipedia]. You can get started by \textbf{double clicking} this text block Лексическая многозначность — это фундаментальное свойство естественных языков: каждое слово может иметь более одного значения. Разрешение лексической многозначности (англ. word sense disambiguation или WSD) — задача определения смысла (значения) слова, которое принимается в определенном контексте. В своем исследовании мы опираемся на метод построения лексических цепочек. У отрывков из разговорного или письменного текста есть свойство единства. Синтаксические и лексические средства могут использоваться, чтобы создать ощущение связности между предложениями, явление, известное как текстовая связность [Halliday and begin editing. You can also click the \textbf{Text} button below to add new block elements. Or you can \textbf{drag Hasan, 1976]. Из всех средств связи лексическая связность, вероятно, наиболее поддающаяся автоматической идентификации [Hoey, 1991]. Лексическая связность возникает, когда слова связаны семантически, например в отношениях повторения между термином и синонимом. Формирование лексической цепочки – это процесс соединения семантически связанных слов [Michel Galley and drop an image} right onto this text. Happy writing! Kathleen McKeown]. В статье [Barzilay, Elhadad, 1997] с целью реферирования текста строится модель в виде лексических цепочек. Реферирование включает четыре этапа: оригинальный текст делится на блоки (сегменты), строятся лексические цепочки, определяются сильные цепочки, извлекаются важные предложения. Суть метода заключается в объединении разных частей текста в одно целое, в то, что имеет общее значение (смысл). В нашем случае мы будем объединять различные слова в тексте с целью нахождения общего значения между ними. Таким образом мы будем избавляться от лексической многозначности. Холлидей и Хасан [1] выделили два способа формирования лексической связности: \begin{itemize} \item Лексическая связность повторений (reiteration category) достигается повтором слов, использованием синонимов и гипонимов \item Лексическая связность словосочетаний (collocation category) определена для слов, которые часто употребляются вместе, то есть встречаются в одних и тех же контекстах \end{itemize} Слова и фразы, между которыми существует лексическая связность, формируют лексическую цепочку (lexical chains). Метод лексических цепочек основан на анализе совместной встречаемости слов и лексических связей между словами. Достоинство лексических цепочек состоит в том, что их не сложно распознать и построить. Метод построения лексических цепочек включает шаги: \begin{enumerate} \item Выбирается набор слов-кандидатов (существительные и составные существительные). Это кандидаты на включение в цепочки \item Строится список всех значений для каждого слова-кандидата (по данным словаря) \item Для каждого значения каждого слова-кандидата находится связь для каждого слова во всех уже построенных цепочках (слово в цепочке имеет строго определённое значение, задаваемые другими словами в той же цепочке) \item Слово-кандидат добавляется в цепочки со словами, в которых найдена связь. Смысловая неоднозначность устраняется, то есть в цепочку добавляется не просто слово, а его конкретное значение \end{enumerate} Для иллюстрации метода приведем пример на отрывке текста, представленном ниже, и определим, какие значения будут выбраны для слов «\textit{любовь}», «\textit{дом}» и «\textit{поддержка}». Первым существительным в тексте является слово «\textit{любовь}», исходя из данных Русского Викисловаря, у него есть семь различных значений. Наличие нескольких значений, разбивает пространство цепочек на несколько множеств интерпретаций, в каждой из которых используются разные значения слова «любовь». Практически все значения слова «\textit{любовь}» связаны со словом «\textit{чувство}» и только в первом значении «\textit{любовь}» (цит. Люблю отчизну я, но странною любовью! Не победит её рассудок мой. [М. Ю. Лермонтов, «Родина», 1841 г.]) связана со словом «\textit{Родина}», отсюда получаем две интерпретации (Рис.1). \begin{quote} \textbf{Любовь} к \textbf{Родине} – одно из самых мощных, возвышенных \textbf{чувств}. Она в полной \textbf{мере} проявилась в братской \textbf{поддержке} \textbf{жителей} Крыма и Севастополя, когда они твердо решили вернуться в свой родной \textbf{дом}. (В. В. Путин) \end{quote} \textit{Компонентой} в работе [Barzilay, Elhadad, 1997] называют список взаимоисключающих интерпретаций. Именно посредством компонент выбор одного из значений слов ведёт к выбору соответствующей интерпретации, а, следовательно, к невозможности других интерпретаций из этой компоненты. Интерпретации 1 и 2 на рис. 1 являются компонентой. Следующее слово «\textit{мера}» не связано со словами из первой компоненты, поэтому для него создается компонента с одним значением (то есть новая компонента содержит ровно одну интерпретацию). Следующее слово «\textit{поддержка}» не связано со словами из первой компоненты, поэтому для него создается компонента с одним значением (то есть новая компонента содержит ровно одну интерпретацию). Слово «\textit{житель}» имеет единственное значение {представитель населения; тот, кто живёт где-либо, в чём-либо}, но у него есть гипоним «\textit{гражданин}» который связан со словом «\textit{родина}». Гражданин \begin{enumerate} \item лицо мужского рода, принадлежащее к населению какого-либо государства, пользующееся всеми правами и исполняющее все обязанности, установленные законами государства \item человек, служащий родине, народу, обществу, заботящийся об общественном благе \item официальное обращение к мужчине \end{enumerate} Таким образом мы получаем вторую компоненту (рис. 2). Если продолжить этот процесс и вставить слово «\textit{дом}», имеющее семь значений, то количество альтернативных вариантов значительно увеличивается. Во втором толковании слова «\textit{дом}» есть слово «\textit{место}», которое можно связать со словом «родина», так как в единственном толковании «\textit{родины}» есть слово «\textit{место}». Также во втором толковании слова «\textit{дом}» есть слово «\textit{проживать}», если мы посмотрим значения этого слова в Викисловаре, то увидим, что первое и второе толкования содержат слово «\textit{жить}», которое мы можем связать со словом «\textit{житель}». Таким образом мы получаем третью компоненту (рис. 3). Самые сильные интерпретации представлены на рисунке. При условии, что текст связный, лучшей интерпретацией считается та, которая имеет больше всего связей. В данном случае в конце шага 3 выбраны следующие интерпретации интересующих нас слов: \begin{itemize} \item \textit{любовь} [лексема «\textit{любовь}», значение { чувство глубокой привязанности к кому-либо, чему-либо}] \item \textit{дом} [лексема «\textit{дом}», значение { место, где кто-либо постоянно проживает}] \end{itemize} что верно отражает значения слов в этом контексте.