deletions | additions
diff --git a/Experiments1.tex b/Experiments1.tex
index 66a1b54..b7e5cee 100644
--- a/Experiments1.tex
+++ b/Experiments1.tex
...
Авторы $RusVectores$ А.~Кутузов и Е.~Кузьменко обращают внимание читателя на такие особенности НКРЯ,
как ручной отбор текстов для пополнения корпуса и регулирование соотношения объема текстов разных жанров, малый размер основного корпуса, порядка 107 млн слов (для сравнения Новостной корпус включает 2.4 млрд токенов).
В работе~\cite{Kutuzov_2015} вводится понятие \textit{представительность корпуса} как способность отражать (указывать на) те ассоциации для слова, с которыми согласится большинство носителей.
Ассоциации, порождаемые
NN-моделями предсказательными моделями по данным НКРЯ и по данным веб-корпуса, как раз и используются для сравнения двух корпусов в этой работе.
Задача сравнения свелась к поиску слов, значения которых в веб-корпусе существенно (или полностью) отличались бы от значений в НКРЯ.
Если учесть, что для каждого слова в корпусе с помощью
NN-модели предсказательной модели можно получить список $N$ ближайших слов (напомним, что слову соответствует вектор), то формулировка результата сравнения корпусов будет такой: более чем у половины слов (общих слов двух корпусов) совпадало три и более слов из 10 ближайших~\cite{Kutuzov_2015}.
Это говорит о том, что в картине мира интеллектов, нейронных моделей, созданных на основе НКРЯ и на основе текстов Интернета, есть много общего. Однако необходима и обратная оценка~--- какова
степень различия NN-моделей? \textit{степень различия} предсказательных моделей?
Отметим, что понятие \textit{сбалансированность корпуса} приобретает новое значение в свете
NN-моделей, предсказательных моделей, создаваемых на основе корпуса. Несбалансированная выборка текстов приводит к перевесу в тематике корпусов, в итоге~--- к менее точной
NN-модели. предсказательной модели.
Для последующих экспериментов важно следующее наблюдение работы~\cite{Kutuzov_2015}. Чем более слово является редким, чем меньше данных, контекстов с этим словом, тем более сомнительными, неточными будут ассоциативные слова, порождаемые
NN-моделью. предсказательной моделью.
Нами проведены эксперименты для апробации предложенной модели синсета. Были использованы две матрицы $W$
(NN-модели), (предсказательные модели),
построенные авторами $RusVectores$ по корпусу НКРЯ и по Новостному корпусу.
Для работы с
NN-моделями предсказательными моделями была выбрана программа gensim\footnote{\url{http://radimrehurek.com/gensim/}},
поскольку она (помимо множества других алгоритмов) содержит реализацию
word2vec на языке Python (программа gensim описана в работе~\cite{rehurek_lrec}). Эта же программа gensim использовалась при создании
NN-моделей предсказательных моделей авторами $RusVectores$~\cite{RusVectores-website}.
Авторами этой статьи разработан ряд скриптов на основе gensim для работы
NN-моделями, с предсказательными моделями, вычисления $IntS$, ранга,
центральности. Скрипты доступны онлайн\footnote{\url{https://github.com/componavt/piwidict/tree/master/lib_ext/gensim_wsd}}.