Authorea

Andrew Krizhanovsky experiments + Если учесть almost 8 years ago

Commit id: 28381036cd514878317067ea9051e84fe7bbeab0

deletions | additions

В работе~\cite{Kutuzov_2015} вводится понятие \textit{представительность корпуса} как способность отражать (указывать на) те ассоциации для слова, с которыми согласится большинство носителей. Ассоциации, порождаемые NN-моделями по данным НКРЯ и по данным веб-корпуса, как раз и используются для сравнения двух корпусов в этой работе. Задача сравнения свелась к поиску слов, значения которых в веб-корпусе существенно (или полностью) отличались бы от значений в НКРЯ. Учтем, Если учесть, что для каждого слова в корпусе с помощью NN-модели можно получить список $N$ ближайших слов (напомним, что слову соответствует вектор). Тогда вектор), то формулировка результата сравнения корпусов такова: будет такой: более чем у половины слов (общих слов двух корпусов) совпадало три и более слов из 10 ближайших~\cite{Kutuzov_2015}. Это говорит о том, что в картине мира интеллектов, нейронных моделей, созданных на основе НКРЯ и на основе текстов Интернета, есть много общего. Однако необходима и обратная оценка~--- какова степень различия NN-моделей? Отметим, что понятие \textit{сбалансированность корпуса} приобретает новое значение в свете NN-моделей, создаваемых на основе корпуса.