Authorea

Andrew Krizhanovsky + гипотеза и задача almost 8 years ago

Commit id: ffa875d33b86ad1fe009696f0e337cb9fdf97bed

deletions | additions

В этой работе используются нейронные модели, созданные авторами проекта $RusVectores$~\cite{Kutuzov_2015}. А именно: модель, построенная по текстам Национального корпуса русского языка (НКРЯ или Ruscoprora), и модель, созданная на основе текстов отечественных новостных сайтов (Новостной корпус или News corpus). Модели доступны на сайте проекта RusVectores~\cite{Kutuzov_2015}. Авторы $RusVectores$ А.~Кутузов и Е.~Кузьменко обращают внимание читателя на такие особенности НКРЯ, как ручной отбор текстов для пополнения корпуса и регулирование соотношения текстов разных жанров, малый размер основного корпуса, порядка 107 млн слов (в Новостном корпусе 2.4 млрд токенов). В работе~\cite{Kutuzov_2015} вводится понятие \textit{представительность корпуса} как способность отражать (указывать на) те ассоциации для слова, с которыми согласится большинство носителей. В своей работе ученые сравнивали различия в ассоциациях, порождаемые данными НКРЯ и веб-корпуса. Задача стояла в том, чтобы найти слова, значения которых в веб-корпусе существенно (или полностью) отличаются от значений в НКРЯ. todo нужен плавный переход к экспериментам!