Andrew Krizhanovsky edited Experiments1.tex  almost 8 years ago

Commit id: c9bf007c1369598f8cee8f7db0c93da0b01c947a

deletions | additions      

       

В этой работе используются нейронные модели, созданные авторами проекта $RusVectores$~\cite{Kutuzov_2015}. А именно: модель, построенная по текстам Национального корпуса русского языка (НКРЯ или Ruscoprora), и модель, созданная на основе текстов отечественных новостных сайтов (Новостной корпус или News corpus). Модели доступны на сайте проекта $RusVectores$~\cite{Kutuzov_2015}.  Авторы $RusVectores$ А.~Кутузов и Е.~Кузьменко обращают внимание читателя на такие особенности НКРЯ, как ручной отбор текстов для пополнения корпуса и регулирование соотношения текстов разных жанров, малый размер основного корпуса, порядка 107 млн слов (для сравнения Новостной корпус включает 2.4 млрд токенов).   В работе~\cite{Kutuzov_2015} вводится понятие \textit{представительность корпуса} как способность отражать (указывать на) те ассоциации для слова, с которыми согласится большинство носителей. В своей работе ученые сравнивали различия в ассоциациях, порождаемых NN-моделями по данным НКРЯ и по данным веб-корпуса. Задача заключалась в поиске слов, значения которых в веб-корпусе существенно (или полностью) отличались бы от значений в НКРЯ. Сравнение показало, что у более чем половины слов (общие слова двух корпусов) совпадало три и более слов из первой десятки наиболее близких по данным NN-модели.  Для последующих экспериментов важно следующее наблюдение работы~\cite{Kutuzov_2015}. Чем более слово является редким, чем меньше данных, контекстов с этим словом, тем более сомнительными, неточными будут ассоциативные слова, порождаемые NN-моделью.  todo нужен плавный переход к экспериментам!  Проведены Нами проведены  эксперименты для апробации предложенной модели синсета. Были использованы две матрицы $W$ (будем их называть \textit{нейронные модели} или \textit{NN-модели}), построенные по корпусу НКРЯ и по Новостному корпусу. Для работы с NN-моделями была выбрана программа gensim\footnote{\url{http://radimrehurek.com/gensim/}},   поскольку она (помимо множества других алгоритмов) содержит реализацию