this is for holding javascript data
Andrew Krizhanovsky edited Experiments1.tex
almost 8 years ago
Commit id: 56dbcff4d364b477f6a12d7cc39302dd5e308689
deletions | additions
diff --git a/Experiments1.tex b/Experiments1.tex
index cff5503..92cf2c5 100644
--- a/Experiments1.tex
+++ b/Experiments1.tex
...
\section{Эксперименты}
%\section{В преддверии экспериментов: $RusVect\bar{o}r\bar{e}s$, gensim и Русский Викисловарь}
В этой работе используются нейронные модели, созданные разработчиками $RusVectores$~\cite{Kutuzov_2015}. А именно: две модели: модель, построенная по текстам Национального корпуса русского языка (НКРЯ), и модель, созданная на основе текстов отечественных новостных сайтов.
Авторы $RusVectores$ А. Кутузов и Е. Кузьменко обращают внимание читателя на такие особенности НКРЯ, как ручной отбор текстов для пополнения корпуса и регулирование соотношения текстов разных жанров, малый размер основного корпуса, порядка 107 млн слов (сколько в новостном?). В работе~\cite{Kutuzov_2015} вводится понятие \textit{представительность корпуса} как способность отражать (указывать на) те ассоциации для слова, с которыми согласится большинство носителей.
Для исследования были использованы синонимы онлайн-словаря Русский Викисловарь. Викисловарь~--- это свободно пополняемый многофункциональный многоязычный онлайн-словарь и тезаурус. В Викисловаре содержатся толкования и переводы слов, описание фонетических и морфологических свойств, семантические (парадигматические) отношения. В словарных статьях приводится произношение слов (указана транскрипция и даны ссылки на аудиофайлы с произношением), правила разбиения слов на слоги, ударения в словах, информация об этимологии слов. Машиночитаемый Викисловарь, используемый в этой работе, регулярно обновляется и строится на основе данных Русского Викисловаря~\cite{Krizhanovsky_Smirnov_2013}. Машинночитаемая версия Викисловаря создается в проекте wikokit~\footnote{URL: \url{https://github.com/componavt/wikokit}.}
Сказать: сколько синсетов в Викисловаре, сослаться на работу про 12 словарей todo cite.
+ Ссылка на работу RadimHurek (Gensim).