this is for holding javascript data
Stanislav Tkach edited textit_plant_textit_textit_textit__.tex
about 8 years ago
Commit id: 25ff99ee2aab0416a8af45b79cdf260b46c028d3
deletions | additions
diff --git a/textit_plant_textit_textit_textit__.tex b/textit_plant_textit_textit_textit__.tex
index 4e5d21e..aa90aa1 100644
--- a/textit_plant_textit_textit_textit__.tex
+++ b/textit_plant_textit_textit_textit__.tex
...
Человеческому языку присуща неоднозначность. В частности лексическая неоднозначность распространена во всех естественных языках, в которых
большинство слов имеют более одного толкования. Например в английском языке существительное «\textit{plant}» может означать «\textit{зеленое} \textit{растение}» или «\textit{завод}», аналогично французское слово «\textit{feuille}» может иметь значение «\textit{лист}» или «\textit{газета}». Верное толкование многозначного слова может быть выбрано на основе контекста, в котором оно употребляется и соответственно задача выбора верного значения слова определяется как задача автоматического назначения наиболее подходящего для пользователя толкования данного слова в пределах контекста\cite{Dandala_2013}.
Лексическая многозначность — это фундаментальное свойство естественных языков: каждое слово может иметь более одного значения.
Разрешение лексической многозначности (англ. word sense disambiguation или WSD) — задача определения смысла (значения) слова, которое принимается в определенном контексте.
В своем исследовании мы опираемся на метод построения лексических цепочек. Данный метод подразумевает, что у отрывков из разговорного или письменного текста есть свойство единства. Синтаксические и лексические средства могут использоваться, чтобы создать ощущение связности между предложениями, явление, известное как текстовая связность\cite{Halliday_1976}. Из всех средств связи лексическая связность, вероятно, наиболее поддающаяся автоматической идентификации\cite{Hoey_1991}. Лексическая связность возникает, когда слова связаны семантически, например в отношениях повторения между термином и синонимом. Формирование лексической цепочки – это процесс соединения семантически связанных слов \cite{Galley_2003}.
В статье \cite{Barzilay_1997} с целью реферирования текста строится модель в виде лексических цепочек. Реферирование включает четыре этапа: оригинальный текст делится на блоки (сегменты), строятся лексические цепочки, определяются сильные цепочки, извлекаются важные предложения.
Суть метода заключается в объединении разных частей текста в одно целое, в то, что имеет общее значение (смысл).
В нашем случае мы будем объединять различные слова в тексте с целью нахождения общего значения между ними. Таким образом мы будем избавляться от лексической многозначности.
Холлидей и Хасан \cite{Halliday_1976} выделили два способа формирования лексической связности:
\begin{itemize}
\item Лексическая связность повторений (reiteration category) достигается повтором слов, использованием синонимов и гипонимов
\item Лексическая связность словосочетаний (collocation category) определена для слов, которые часто употребляются вместе, то есть встречаются в одних и тех же контекстах
\end{itemize}
Слова и фразы, между которыми существует лексическая связность, формируют лексическую цепочку (lexical chains). Метод лексических цепочек основан на анализе совместной встречаемости слов и лексических связей между словами.
Достоинство лексических цепочек состоит в том, что их не сложно распознать и построить.
Метод построения лексических цепочек включает шаги:
\begin{enumerate}
\item Выбирается набор слов-кандидатов (существительные и составные существительные). Это кандидаты на включение в цепочки
\item Строится список всех значений для каждого слова-кандидата (по данным словаря)
\item Для каждого значения каждого слова-кандидата находится связь для каждого слова во всех уже построенных цепочках (слово в цепочке имеет строго определённое значение, задаваемые другими словами в той же цепочке)
\item Слово-кандидат добавляется в цепочки со словами, в которых найдена связь. Смысловая неоднозначность устраняется, то есть в цепочку добавляется не просто слово, а его конкретное значение
\end{enumerate}
Для иллюстрации метода приведем пример на отрывке текста, представленного ниже, и определим, какие значения будут выбраны для слов «\textit{любовь}» и «\textit{дом}». Первым существительным в тексте является слово «\textit{любовь}», исходя из данных Русского Викисловаря, у него есть семь различных значений. Наличие нескольких значений, разбивает пространство цепочек на несколько множеств интерпретаций, в каждой из которых используются разные значения слова «любовь». Практически все значения слова «\textit{любовь}» связаны со словом «\textit{чувство}» и только в первом значении «\textit{любовь}» (цит. Люблю отчизну я, но странною любовью! Не победит её рассудок мой. [М. Ю. Лермонтов, «Родина», 1841 г.]) связана со словом «\textit{Родина}», отсюда получаем две интерпретации (Рис.1).
\begin{quote}
\textbf{Любовь} к \textbf{Родине} – одно из самых мощных, возвышенных \textbf{чувств}. Она в полной \textbf{мере} проявилась в братской \textbf{поддержке} \textbf{жителей} Крыма и Севастополя, когда они твердо решили вернуться в свой родной \textbf{дом}. (В. В. Путин)
\end{quote}