Alexander Kirillov edited WVR.tex  about 8 years ago

Commit id: cce1a0a9fc0c8378102941b567191a8b8d83bf8a

deletions | additions      

       

%Рассматриваемая задача относится к разработки количественных и качественных математических методов %обработки естественных языков (NLP).  %Последняя задча не исследована.   Идея векторного представления слов с помощью нейронных сетей получила мощный толчок благодаря работам чешского ученого Томаса Миколова (\cite{Mikolov_2012}, \cite{Mikolov_2011} + todo ref статья 2013 г.). г.:см. Литература № 3).  Главное достоинство работы Т.~Миколова в том, что он разработал инструмент \textit{word2vec} для создания моделей нейронных сетей (далее будем их называть \textit{NN-моделями}) на основе текстов корпусов. Забегая вперед можно сказать, что, с нашей точки зрения, не меньший вклад сделали и отечественные ученые Андрей Кутузов и Елизавета Кузьменко, которые приготовили с помощью word2vec NN-модели для русского языка на основе ряда корпусов. Свой инструмент они назвали $RusVect\bar{o}r\bar{e}s$~\cite{Kutuzov_2015}. Бедность подхода, предложенного Т.~Миколовым в том, что поиск осмысленных пар семантических отношений работает только на некоторых ярких примерах ($queen - woman + man \approx king$). Малейшее отклонение в сторону даёт неудовлетворительные результаты. Слабость математической стороны работ Т.~Миколова была подмечена в недавней работе Голдберга и Леви (todo link). см. Литература № 4).  Кратко осветим подход Т.~Миколова.