Andrew Krizhanovsky edited section_Thesaurus_expansion_algorithm_word2vec__.tex  about 8 years ago

Commit id: 31b17f2375e8fcac34d233f255f849ae0c173ece

deletions | additions      

       

Благодаря интеграции данных корпусов (в модели, построенной программой word2vec) и тезаурусов (тезаурус Викисловаря) мы с минимальными усилиями получаем ответы на множество важных вопросов. Например, такая прикладная задача как поиск семантически близких слов:  \textbf{Гипотеза 1:} пусть в синсете два или более синонимов. Разобъём синсет на два непустых множества. (1) При добавлении слова к первому или второму набору расстояние между наборами уменьшается тогда и только тогда, когда (2) добавляемое слово является синонимом.  \textbf{Закон векторных синсетов (неформально):} близость слова к среднему вектору синсета определяется степенью его синонимичности этому набору синонимов.  Пусть $\vec{v_1}, \vec{v_2}, \ldots, \vec{v_n}$~--- это вектора для слов $w_1, w_2, \ldots, w_n$, входящих в набор синонимов (синсет) $S$. Средний вектор векторов $\vec{v_1}, \vec{v_2}, \ldots, \vec{v_n}$ обозначим $\vec{v_{avg}}$. Слову $y$ будет соответствовать вектор $\vec{Y}$.