Authorea

Adrien Matissart edited comment3.tex almost 10 years ago

Commit id: e3dbde2330f9203c1cb8bfa4f02c9fcd8f0cfbc0

deletions | additions

\subsection{Clustering sur les données projetées} Le dernier test effectué par le script \verb|rand_proj_text.py| consiste à appliquer l'algorithme K-Means sur les données projetées par la SVD et la projection aléatoire. On construit $n = 12$ clusters à partir des données projetées en dimension $k = 200$. Et on compare la composition de chacun des clusters en fonction des 4 newsgroups considérés. Là où les données projetées suivant la SVD parvient à former des clusters quasiment parfaitement épurés, celles resultant de la projection aléatoire donnent des résultats plus mitigés. Il est donc difficile de conseiller la projection alétoire comme un moyen systématique de réduire efficacement la dimension. \begin{verbatim} Correspondance Clusters/Target - RandomProjection [[ 37 168 85 109] [ 23 76 11 104] [ 44 108 131 182] [ 11 22 14 275] [127 169 103 64] [333 27 70 20] [ 0 3 48 97] [ 0 0 0 70] [ 39 398 48 45] [ 72 0 0 0] [ 10 17 480 21] [103 2 1 0]] ******************* Correspondance Clusters/Target - RandomizedSVD [[ 0 575 0 0] [ 0 0 0 75] [ 0 17 0 46] [151 391 394 369] [ 1 4 0 393] [ 0 0 32 103] [ 1 0 456 0] [ 0 0 61 0] [512 0 2 0] [ 0 0 25 0] [ 1 3 21 1] [133 0 0 0]] \end{verbatim}