Calendrier + Propositions

Prochains posts

  • début novembre : EO --> Oui, il est même prêt et sur le site (Au-delà des BD)
  • 10 novembre 2015 : AH, qqch sur regex
  • 17 novembre 2015 : Julien --> OK, on va faire des SOM
  • EO : Je peux faire qque chose entre, me dire.

Idées, sujets qu'on pourrait avoir envie de traiter

AH

Regex

  • Word: ce qu'on peut faire de plus ou moins par rapport à PCRE, et comment
  • Perl et PCRE: syntaxe étendue (plus facile à écrire et à lire, en principe)
  • Regex-helpers (petites applications disponibles pour aider à l'écriture ou à l'analyse de regex)
  • Exercices, exemples pratiques

Encodages

  • Expliquer ce que c'est
  • Se repérer avec éditeurs de texte, et utilitaires (HexFiend…)
  • Comment importer, convertir avec R, (python?), Excel, et sous différents OS
  • Unicode, dont normalisations

Scraping

  • XPath: principe, implémentations
  • Modules de scraping
  • Structurer le scraping sur une page
  • Automatiser: boucles ; éventuellement écriture d'une classe ?

JB

SOM

  • principes : réduction de dim et clustering
  • Une carte de cellules
  • En pratique : le package SOMbrero

Scraping

  • Une fonction de scraping "tout terrain" ? (une série de colonnes sur plusieurs noeuds sur plusieurs pages)

Extraction depuis pdf ?

Post Etienne

Faut-il partager les données

Post autres personnes

  • Alizée : La visibilité médiatique des députés

- Adel et Sebastian : topic modelling avec R