Authorea

Andrew Krizhanovsky edited Experiments1.tex almost 8 years ago

Commit id: 3752d8ce502212714d2086d517d206e0bc7c4239

deletions | additions

Авторы $RusVectores$ А.~Кутузов и Е.~Кузьменко обращают внимание читателя на такие особенности НКРЯ, как ручной отбор текстов для пополнения корпуса и регулирование соотношения текстов разных жанров, малый размер основного корпуса, порядка 107 млн слов (для сравнения Новостной корпус включает 2.4 млрд токенов). В работе~\cite{Kutuzov_2015} вводится понятие \textit{представительность корпуса} как способность отражать (указывать на) те ассоциации для слова, с которыми согласится большинство носителей. В своей работе ученые сравнивали различия в ассоциациях, порождаемых NN-моделями по данным НКРЯ и по данным веб-корпуса. Задача заключалась в поиске слов, значения которых в веб-корпусе существенно (или полностью) отличались бы от значений в НКРЯ. Учтем, что для каждого слова в корпусе с помощью NN-модели можно получить список $N$ ближайших слов (напомним, что слову соответствует вектор). Тогда результат сравнения корпусов таков: более чем у половины слов (общих слов двух корпусов) совпадало три и более слов из 10 ближайших~\cite{Kutuzov_2015}. Это, скорее всего, Тогда будет уместна оптимистичная шутка, что два искусственных интеллекта, один включающий NN-модель по данным НКРЯ (читающий классические тексты), другой, листающий сайты в Интернете, имеют надежду понять друг друга. Для последующих экспериментов важно следующее наблюдение работы~\cite{Kutuzov_2015}. Чем более слово является редким, чем меньше данных, контекстов с этим словом, тем более сомнительными, неточными будут ассоциативные слова, порождаемые NN-моделью.