this is for holding javascript data
Andrew Krizhanovsky edited Experiments1.tex
almost 8 years ago
Commit id: f5e2acace6c0a1c06b73a798aae3f5dfc76926c7
deletions | additions
diff --git a/Experiments1.tex b/Experiments1.tex
index e60ca47..62a75ff 100644
--- a/Experiments1.tex
+++ b/Experiments1.tex
...
В этой работе используются нейронные модели, созданные авторами проекта $RusVectores$~\cite{Kutuzov_2015}. А именно: модель, построенная по текстам Национального корпуса русского языка (НКРЯ или Ruscoprora), и модель, созданная на основе текстов отечественных новостных сайтов (Новостной корпус или News corpus). Модели доступны на сайте проекта $RusVectores$~\cite{Kutuzov_2015}.
Авторы $RusVectores$ А.~Кутузов и Е.~Кузьменко обращают внимание читателя на такие особенности НКРЯ,
как ручной отбор текстов для пополнения корпуса и регулирование соотношения
объема текстов разных жанров, малый размер основного корпуса, порядка 107 млн слов (для сравнения Новостной корпус включает 2.4 млрд токенов).
В работе~\cite{Kutuzov_2015} вводится понятие \textit{представительность корпуса} как способность отражать (указывать на) те ассоциации для слова, с которыми согласится большинство носителей.
Ассоциации, порождаемые NN-моделями по данным НКРЯ и по данным веб-корпуса, как раз и используются для сравнения двух корпусов в этой работе.
Задача сравнения свелась к поиску слов, значения которых в веб-корпусе существенно (или полностью) отличались бы от значений в НКРЯ.