stasonmokoron edited untitled.tex  about 8 years ago

Commit id: a193b7de4a4159cdfc2dd473a204521566dc2b77

deletions | additions      

       

\textit{Oh, an empty article!} Человеческому языку присуща неоднозначность. В частности лексическая неоднозначность распространена во всех естественных языках, в которых большинство слов имеют более одного толкования. Например в английском языке существительное «\textit{plant}» может означать «\textit{зеленое} \textit{растение}» или «\textit{завод}», аналогично французское слово «\textit{feuille}» может иметь значение «\textit{лист}» или «\textit{газета}». Верное толкование многозначного слова может быть выбрано на основе контекста, в котором оно употребляется и соответственно задача выбора верного значения слова определяется как задача автоматического назначения наиболее подходящего для пользователя толкования данного слова в пределах контекста [Bharath Dandala, Rada Mihalcea, and Razvan Bunescu, Word Sense Disambiguation Using Wikipedia].  You can get started by \textbf{double clicking} this text block Лексическая многозначность — это фундаментальное свойство естественных языков: каждое слово может иметь более одного значения.  Разрешение лексической многозначности (англ. word sense disambiguation или WSD) — задача определения смысла (значения) слова, которое принимается в определенном контексте.  В своем исследовании мы опираемся на метод построения лексических цепочек. У отрывков из разговорного или письменного текста есть свойство единства. Синтаксические и лексические средства могут использоваться, чтобы создать ощущение связности между предложениями, явление, известное как текстовая связность [Halliday  and begin editing. You can also click the \textbf{Text} button below to add new block elements. Or you can \textbf{drag Hasan, 1976]. Из всех средств связи лексическая связность, вероятно, наиболее поддающаяся автоматической идентификации [Hoey, 1991]. Лексическая связность возникает, когда слова связаны семантически, например в отношениях повторения между термином и синонимом. Формирование лексической цепочки – это процесс соединения семантически связанных слов [Michel Galley  and drop an image} right onto this text. Happy writing! Kathleen McKeown].  В статье [Barzilay, Elhadad, 1997] с целью реферирования текста строится модель в виде лексических цепочек. Реферирование включает четыре этапа: оригинальный текст делится на блоки (сегменты), строятся лексические цепочки, определяются сильные цепочки, извлекаются важные предложения.  Суть метода заключается в объединении разных частей текста в одно целое, в то, что имеет общее значение (смысл).  В нашем случае мы будем объединять различные слова в тексте с целью нахождения общего значения между ними. Таким образом мы будем избавляться от лексической многозначности.  Холлидей и Хасан [1] выделили два способа формирования лексической связности:   \begin{itemize}  \item Лексическая связность повторений (reiteration category) достигается повтором слов, использованием синонимов и гипонимов  \item Лексическая связность словосочетаний (collocation category) определена для слов, которые часто употребляются вместе, то есть встречаются в одних и тех же контекстах  \end{itemize}  Слова и фразы, между которыми существует лексическая связность, формируют лексическую цепочку (lexical chains). Метод лексических цепочек основан на анализе совместной встречаемости слов и лексических связей между словами.  Достоинство лексических цепочек состоит в том, что их не сложно распознать и построить.   Метод построения лексических цепочек включает шаги:  \begin{enumerate}  \item Выбирается набор слов-кандидатов (существительные и составные существительные). Это кандидаты на включение в цепочки  \item Строится список всех значений для каждого слова-кандидата (по данным словаря)  \item Для каждого значения каждого слова-кандидата находится связь для каждого слова во всех уже построенных цепочках (слово в цепочке имеет строго определённое значение, задаваемые другими словами в той же цепочке)  \item Слово-кандидат добавляется в цепочки со словами, в которых найдена связь. Смысловая неоднозначность устраняется, то есть в цепочку добавляется не просто слово, а его конкретное значение  \end{enumerate}  Для иллюстрации метода приведем пример на отрывке текста, представленном ниже, и определим, какие значения будут выбраны для слов «\textit{любовь}», «\textit{дом}» и «\textit{поддержка}». Первым существительным в тексте является слово «\textit{любовь}», исходя из данных Русского Викисловаря, у него есть семь различных значений. Наличие нескольких значений, разбивает пространство цепочек на несколько множеств интерпретаций, в каждой из которых используются разные значения слова «любовь». Практически все значения слова «\textit{любовь}» связаны со словом «\textit{чувство}» и только в первом значении «\textit{любовь}» (цит. Люблю отчизну я, но странною любовью! Не победит её рассудок мой. [М. Ю. Лермонтов, «Родина», 1841 г.]) связана со словом «\textit{Родина}», отсюда получаем две интерпретации (Рис.1).   \begin{quote}  \textbf{Любовь} к \textbf{Родине} – одно из самых мощных, возвышенных \textbf{чувств}. Она в полной \textbf{мере} проявилась в братской \textbf{поддержке} \textbf{жителей} Крыма и Севастополя, когда они твердо решили вернуться в свой родной \textbf{дом}. (В. В. Путин)  \end{quote}  \textit{Компонентой} в работе [Barzilay, Elhadad, 1997] называют список взаимоисключающих интерпретаций. Именно посредством компонент выбор одного из значений слов ведёт к выбору соответствующей интерпретации, а, следовательно, к невозможности других интерпретаций из этой компоненты. Интерпретации 1 и 2 на рис. 1 являются компонентой. Следующее слово «\textit{мера}» не связано со словами из первой компоненты, поэтому для него создается компонента с одним значением (то есть новая компонента содержит ровно одну интерпретацию). Следующее слово «\textit{поддержка}» не связано со словами из первой компоненты, поэтому для него создается компонента с одним значением (то есть новая компонента содержит ровно одну интерпретацию). Слово «\textit{житель}» имеет единственное значение {представитель населения; тот, кто живёт где-либо, в чём-либо}, но у него есть гипоним «\textit{гражданин}» который связан со словом «\textit{родина}».  Гражданин   \begin{enumerate}  \item лицо мужского рода, принадлежащее к населению какого-либо государства, пользующееся всеми правами и исполняющее все обязанности, установленные законами государства   \item человек, служащий родине, народу, обществу, заботящийся об общественном благе  \item официальное обращение к мужчине  \end{enumerate}  Таким образом мы получаем вторую компоненту (рис. 2). Если продолжить этот процесс и вставить слово «\textit{дом}», имеющее семь значений, то количество альтернативных вариантов значительно увеличивается. Во втором толковании слова «\textit{дом}» есть слово «\textit{место}», которое можно связать со словом «родина», так как в единственном толковании «\textit{родины}» есть слово «\textit{место}». Также во втором толковании слова «\textit{дом}» есть слово «\textit{проживать}», если мы посмотрим значения этого слова в Викисловаре, то увидим, что первое и второе толкования содержат слово «\textit{жить}», которое мы можем связать со словом «\textit{житель}». Таким образом мы получаем третью компоненту (рис. 3).  Самые сильные интерпретации представлены на рисунке. При условии, что текст связный, лучшей интерпретацией считается та, которая имеет больше всего связей.  В данном случае в конце шага 3 выбраны следующие интерпретации интересующих нас слов:   \begin{itemize}  \item \textit{любовь} [лексема «\textit{любовь}», значение { чувство глубокой привязанности к кому-либо, чему-либо}]  \item \textit{дом} [лексема «\textit{дом}», значение { место, где кто-либо постоянно проживает}]  \end{itemize}  что верно отражает значения слов в этом контексте.