this is for holding javascript data
stasonmokoron edited untitled.tex
about 8 years ago
Commit id: a193b7de4a4159cdfc2dd473a204521566dc2b77
deletions | additions
diff --git a/untitled.tex b/untitled.tex
index 51de617..627f879 100644
--- a/untitled.tex
+++ b/untitled.tex
...
\textit{Oh, an empty article!} Человеческому языку присуща неоднозначность. В частности лексическая неоднозначность распространена во всех естественных языках, в которых большинство слов имеют более одного толкования. Например в английском языке существительное «\textit{plant}» может означать «\textit{зеленое} \textit{растение}» или «\textit{завод}», аналогично французское слово «\textit{feuille}» может иметь значение «\textit{лист}» или «\textit{газета}». Верное толкование многозначного слова может быть выбрано на основе контекста, в котором оно употребляется и соответственно задача выбора верного значения слова определяется как задача автоматического назначения наиболее подходящего для пользователя толкования данного слова в пределах контекста [Bharath Dandala, Rada Mihalcea, and Razvan Bunescu, Word Sense Disambiguation Using Wikipedia].
You can get started by \textbf{double clicking} this text block Лексическая многозначность — это фундаментальное свойство естественных языков: каждое слово может иметь более одного значения.
Разрешение лексической многозначности (англ. word sense disambiguation или WSD) — задача определения смысла (значения) слова, которое принимается в определенном контексте.
В своем исследовании мы опираемся на метод построения лексических цепочек. У отрывков из разговорного или письменного текста есть свойство единства. Синтаксические и лексические средства могут использоваться, чтобы создать ощущение связности между предложениями, явление, известное как текстовая связность [Halliday and
begin editing. You can also click the \textbf{Text} button below to add new block elements. Or you can \textbf{drag Hasan, 1976]. Из всех средств связи лексическая связность, вероятно, наиболее поддающаяся автоматической идентификации [Hoey, 1991]. Лексическая связность возникает, когда слова связаны семантически, например в отношениях повторения между термином и синонимом. Формирование лексической цепочки – это процесс соединения семантически связанных слов [Michel Galley and
drop an image} right onto this text. Happy writing! Kathleen McKeown].
В статье [Barzilay, Elhadad, 1997] с целью реферирования текста строится модель в виде лексических цепочек. Реферирование включает четыре этапа: оригинальный текст делится на блоки (сегменты), строятся лексические цепочки, определяются сильные цепочки, извлекаются важные предложения.
Суть метода заключается в объединении разных частей текста в одно целое, в то, что имеет общее значение (смысл).
В нашем случае мы будем объединять различные слова в тексте с целью нахождения общего значения между ними. Таким образом мы будем избавляться от лексической многозначности.
Холлидей и Хасан [1] выделили два способа формирования лексической связности:
\begin{itemize}
\item Лексическая связность повторений (reiteration category) достигается повтором слов, использованием синонимов и гипонимов
\item Лексическая связность словосочетаний (collocation category) определена для слов, которые часто употребляются вместе, то есть встречаются в одних и тех же контекстах
\end{itemize}
Слова и фразы, между которыми существует лексическая связность, формируют лексическую цепочку (lexical chains). Метод лексических цепочек основан на анализе совместной встречаемости слов и лексических связей между словами.
Достоинство лексических цепочек состоит в том, что их не сложно распознать и построить.
Метод построения лексических цепочек включает шаги:
\begin{enumerate}
\item Выбирается набор слов-кандидатов (существительные и составные существительные). Это кандидаты на включение в цепочки
\item Строится список всех значений для каждого слова-кандидата (по данным словаря)
\item Для каждого значения каждого слова-кандидата находится связь для каждого слова во всех уже построенных цепочках (слово в цепочке имеет строго определённое значение, задаваемые другими словами в той же цепочке)
\item Слово-кандидат добавляется в цепочки со словами, в которых найдена связь. Смысловая неоднозначность устраняется, то есть в цепочку добавляется не просто слово, а его конкретное значение
\end{enumerate}
Для иллюстрации метода приведем пример на отрывке текста, представленном ниже, и определим, какие значения будут выбраны для слов «\textit{любовь}», «\textit{дом}» и «\textit{поддержка}». Первым существительным в тексте является слово «\textit{любовь}», исходя из данных Русского Викисловаря, у него есть семь различных значений. Наличие нескольких значений, разбивает пространство цепочек на несколько множеств интерпретаций, в каждой из которых используются разные значения слова «любовь». Практически все значения слова «\textit{любовь}» связаны со словом «\textit{чувство}» и только в первом значении «\textit{любовь}» (цит. Люблю отчизну я, но странною любовью! Не победит её рассудок мой. [М. Ю. Лермонтов, «Родина», 1841 г.]) связана со словом «\textit{Родина}», отсюда получаем две интерпретации (Рис.1).
\begin{quote}
\textbf{Любовь} к \textbf{Родине} – одно из самых мощных, возвышенных \textbf{чувств}. Она в полной \textbf{мере} проявилась в братской \textbf{поддержке} \textbf{жителей} Крыма и Севастополя, когда они твердо решили вернуться в свой родной \textbf{дом}. (В. В. Путин)
\end{quote}
\textit{Компонентой} в работе [Barzilay, Elhadad, 1997] называют список взаимоисключающих интерпретаций. Именно посредством компонент выбор одного из значений слов ведёт к выбору соответствующей интерпретации, а, следовательно, к невозможности других интерпретаций из этой компоненты. Интерпретации 1 и 2 на рис. 1 являются компонентой. Следующее слово «\textit{мера}» не связано со словами из первой компоненты, поэтому для него создается компонента с одним значением (то есть новая компонента содержит ровно одну интерпретацию). Следующее слово «\textit{поддержка}» не связано со словами из первой компоненты, поэтому для него создается компонента с одним значением (то есть новая компонента содержит ровно одну интерпретацию). Слово «\textit{житель}» имеет единственное значение {представитель населения; тот, кто живёт где-либо, в чём-либо}, но у него есть гипоним «\textit{гражданин}» который связан со словом «\textit{родина}».
Гражданин
\begin{enumerate}
\item лицо мужского рода, принадлежащее к населению какого-либо государства, пользующееся всеми правами и исполняющее все обязанности, установленные законами государства
\item человек, служащий родине, народу, обществу, заботящийся об общественном благе
\item официальное обращение к мужчине
\end{enumerate}
Таким образом мы получаем вторую компоненту (рис. 2). Если продолжить этот процесс и вставить слово «\textit{дом}», имеющее семь значений, то количество альтернативных вариантов значительно увеличивается. Во втором толковании слова «\textit{дом}» есть слово «\textit{место}», которое можно связать со словом «родина», так как в единственном толковании «\textit{родины}» есть слово «\textit{место}». Также во втором толковании слова «\textit{дом}» есть слово «\textit{проживать}», если мы посмотрим значения этого слова в Викисловаре, то увидим, что первое и второе толкования содержат слово «\textit{жить}», которое мы можем связать со словом «\textit{житель}». Таким образом мы получаем третью компоненту (рис. 3).
Самые сильные интерпретации представлены на рисунке. При условии, что текст связный, лучшей интерпретацией считается та, которая имеет больше всего связей.
В данном случае в конце шага 3 выбраны следующие интерпретации интересующих нас слов:
\begin{itemize}
\item \textit{любовь} [лексема «\textit{любовь}», значение { чувство глубокой привязанности к кому-либо, чему-либо}]
\item \textit{дом} [лексема «\textit{дом}», значение { место, где кто-либо постоянно проживает}]
\end{itemize}
что верно отражает значения слов в этом контексте.