Andrew Krizhanovsky ВОПРОС, вместо юмора  almost 8 years ago

Commit id: 5d124c68cdcc635b2decbd51c417aeada3ab1d5d

deletions | additions      

       

В работе~\cite{Kutuzov_2015} вводится понятие \textit{представительность корпуса} как способность отражать (указывать на) те ассоциации для слова, с которыми согласится большинство носителей.   Ассоциации, порождаемые NN-моделями по данным НКРЯ и по данным веб-корпуса, как раз и используются для сравнения двух корпусов в этой работе.   Задача сравнения свелась к поиску слов, значения которых в веб-корпусе существенно (или полностью) отличались бы от значений в НКРЯ.   Учтем, что для каждого слова в корпусе с помощью NN-модели можно получить список $N$ ближайших слов (напомним, что слову соответствует вектор). Тогда результат формулировка результата  сравнения корпусов таков: более чем у половины слов (общих слов двух корпусов) совпадало три и более слов из 10 ближайших~\cite{Kutuzov_2015}. Тогда будет уместна оптимистичная шутка, Это говорит о том,  что два искусственных интеллекта, один включающий NN-модель по данным в картине мира интеллектов, нейронных моделей, созданных на основе  НКРЯ (читающий классические тексты), другой, листающий сайты и на основе текстов  в Интернете, имеют надежду понять друг друга. есть много общего. Однако необходима и обратная оценка~--- какова степень различения NN-моделей?  Для последующих экспериментов важно следующее наблюдение работы~\cite{Kutuzov_2015}. Чем более слово является редким, чем меньше данных, контекстов с этим словом, тем более сомнительными, неточными будут ассоциативные слова, порождаемые NN-моделью.