Andrew Krizhanovsky about  almost 8 years ago

Commit id: c345fbfde47c14de1fe2372e2428c1fd09666c99

deletions | additions      

       

В этой работе используются нейронные модели, созданные авторами проекта $RusVectores$~\cite{Kutuzov_Andreev_2015}. Первая модель построена по текстам Национального корпуса русского языка (НКРЯ или Ruscorpora), вторая модель~--- на основе текстов отечественных новостных сайтов (Новостной корпус или News corpus). Модели доступны на сайте проекта~\cite{RusVectores-website}.  Авторы $RusVectores$ А.~Кутузов и Е.~Кузьменко обращают внимание читателя на такие особенности НКРЯ,   как ручной отбор текстов для пополнения корпуса и регулирование соотношения объема текстов разных жанров, малый размер основного корпуса, порядка около  107 млн слов (для сравнения сравнения:  Новостной корпус включает 2.4 2,4  млрд токенов). В работе~\cite{Kutuzov_2015} вводится понятие \textit{представительность корпуса} как способность отражать (указывать на) те ассоциации для слова, с которыми согласится большинство носителей.   Ассоциации, порождаемые предсказательными моделями по данным НКРЯ и по данным веб-корпуса, как раз и используются для сравнения двух корпусов в этой работе.   Задача сравнения свелась к поиску слов, значения которых в веб-корпусе существенно (или полностью) отличались бы от значений в НКРЯ.