Adrien Matissart edited conclusion.tex  almost 10 years ago

Commit id: 3fada728358fa1a10c14950fcc6484f5bb563b62

deletions | additions      

       

Dans le cadre de l'apprentissage statistique, de telles projections aléatoires semblent malgré tout perdre une précieuse information sur les données originales. On préférera donc certainement se tourner vers les algorithmes permettant de randomiser le calcul de la SVD\cite{Halko_2011} pour enrichir cette approche.  On construit $n = 12$ clusters à partir des données projetées en dimension $k = 200$. Et on compare la composition de chacun des clusters en fonction des 4 newsgroups considérés. Là où les données projetées suivant la SVD parvient à former des clusters quasiment parfaitement épurés, l  \begin{verbatim}  Correspondance Clusters/Target - RandomProjection  [[ 37 168 85 109]  [ 23 76 11 104]  [ 44 108 131 182]  [ 11 22 14 275]  [127 169 103 64]  [333 27 70 20]  [ 0 3 48 97]  [ 0 0 0 70]  [ 39 398 48 45]  [ 72 0 0 0]  [ 10 17 480 21]  [103 2 1 0]]  *******************  Correspondance Clusters/Target - RandomizedSVD  [[ 0 575 0 0]  [ 0 0 0 75]  [ 0 17 0 46]  [151 391 394 369]  [ 1 4 0 393]  [ 0 0 32 103]  [ 1 0 456 0]  [ 0 0 61 0]  [512 0 2 0]  [ 0 0 25 0]  [ 1 3 21 1]  [133 0 0 0]]  \end{verbatim}