Authorea

Stanislav Tkach edited textit_plant_textit_textit_textit__.tex about 8 years ago

Commit id: 57c6babb5445e62e3b6df2e2fd5e3283ed09fb12

deletions | additions

Разрешение лексической многозначности (англ. word sense disambiguation или WSD) — задача определения смысла (значения) слова, которое принимается в определенном контексте. В своем исследовании мы опираемся на метод построения лексических цепочек. Данный метод подразумевает, что у отрывков из разговорного или письменного текста есть свойство единства. Синтаксические и лексические средства могут использоваться, чтобы создать ощущение связности между предложениями, явление, известное как текстовая связность\cite{Halliday_1976}. связность[холидей]. Из всех средств связи лексическая связность, вероятно, наиболее поддающаяся автоматической идентификации\cite{Hoey_1991}. Лексическая связность возникает, когда слова связаны семантически, например в отношениях повторения между термином и синонимом. Формирование лексической цепочки – это процесс соединения семантически связанных слов \cite{Galley_2003}. В статье \cite{Barzilay_1997} с целью реферирования текста строится модель в виде лексических цепочек. Реферирование включает четыре этапа: оригинальный текст делится на блоки (сегменты), строятся лексические цепочки, определяются сильные цепочки, извлекаются важные предложения.

В нашем случае мы будем объединять различные слова в тексте с целью нахождения общего значения между ними. Таким образом мы будем избавляться от лексической многозначности. Холлидей и Хасан [холидей] выделили два способа формирования лексической связности: \begin{itemize} \item Лексическая связность повторений (reiteration category) достигается повтором слов, использованием синонимов и гипонимов \item Лексическая связность словосочетаний (collocation category) определена для слов, которые часто употребляются вместе, то есть встречаются в одних и тех же контекстах