Open Scientific Data (séminaire, LAL) - Compte-rendu

Vidéos de la conférence

http://webcast.in2p3.fr/events-journee_open_scientific_data

Mot d'introduction par les organisateurs

Journée coorganisée par

  • Université Paris-sud (faculté d'Orsay)
  • Paris-Saclay Center for Data science

Mot d'accueil du vice-président recherche :

  • intérêt de Paris-sud pour les questions des
    données
    (Une centaine de participants)

  • Enjeux :

    • réfléchir la question des données
    • convaincre d'utiliser
    • engager des moyens financiers dans les infrastructures
      (informatique)

Balázs Kégl

institution : Paris Saclay center for Data science

Data science, data scientists
à l'interface entre sciences des données et sciences de
domaine

incitation à la conception d'outils :

  • sur des standards
  • utilisables par des non experts

Buts :

  • construire une communauté à Saclay
    sur les Data science
  • construire une plateforme pour l'open Data
    scientifique

##Programme :

  • ateliers à partir de janvier
  • bootcamp pour étudiants, PhD : apprendre à
    ut iliser

Enjeux :

  • incentives et barriers : publier mieux évalué
    que produire des outils numériques

Browning un Big Data days

"Quatrième paradigme" scientifique
Ptomélée : Un traité avec :

  • méthode
  • données brutes
  • fit (ajustement des paramètres)
    ⇒ pendant des siècles les données ont été discutées

World Wide Web

Au début e navigateur était un éditeur
→ précurseur des modes d'édition collaborative
Aujourd'hui : web construit en silos ⇒
cloisonnement

alors qu'à l'origine le web était fait pour des informations
liées.

Aujourd'hui : Linked Data est un objectif

Open Data

Industrie rarement prête.
linked Data, oui, open Data, mon

5 star Data scheme

Europe a ouvert une plateforme :
<open-data.europe.eu/en/data>

Incitation à adopter les Linked Data

  • meilleur moment pour adopter : early adopters
  • dès maintenant et non pas dans un futur
    distant
  • intérêt pour la découverte
  • pour tous et pas seulement les grandes structures

Données du Web : quand nos vies numériques deviennent

des bases de connaissances

Serge Abiteboul
Il suffit de rajouter scientifique après numérique
et c'est pareil

##PIMS
sont pour un futur proche

Données sur le web : enjeux

Données porsonnelles

  • celles qu'on dépose
    -celles qu'on capte

→ Recherche actuelle sur les données qu'on dépose avec
un téléphone

  • mais ces données ne sont pas la propriété de l'utilisateur
  • systèmes tachant de garder l'utilisateur dans un silo
    pour monétiser cela

⇒ Perte de la privacy des données

  • difficulté à changer d'applications

Technique

  • hétérogénéité des formats de données

##PIMS

"We should regain control on our data"

  • Actuellement : logiciel tourne sur un serveur et gardés
    chez une entupun. Business Model = monétiser les données
  • PIMS : logiciel tourne chez soi.
    dans un serveur dédié (payé, donc business model)
    → toutes les données dans un même lieu
  • doit nécessiter zéro compétence technique

Point de vue sociétal

  • prise de conscience
  • dissymétrie entre les données que les gens connaissent
    et celles dont ils ne savent rien mais savent qu'elles existent
  • données ont de la valeur → quantified self
  • EU avance sur le protection des données
  • arrivée des Vendor relation management
  • FINA a un projet mes-infos
    ex : banque envoie un pdf → envoyer un formulaire
    html à la place
  • administration système : beaucoup plus simple aujourd'hui
    qu'avant
  • services basés sur des logiciels libres ont qualité équivalente
    aux services propriétaires
  • machine à coût abordables (serveur dédié)

Difficultés mais secteurs intéressés

  • le business model est absent donc les industriels (Facebook et
    choisissent le BM où les données sont à monétiser.
    -Entreprises pré-numériques ont perdu contact avec les
    clients : Hotel est interface par booking. com
    ⇒ l'intermédiaire capte le bénéfice.
    ⇒ prix de conscience, intérêt pour les PIMS car
    sont un terrain neutre
  • Routeurs sont déjà dans les foyers (box internet, etc)
    ⇒ pourrait accueillir des Plus.
  • services sur internet seront toujours utilisés mais
    leur business model est incompatible

Avantage

  • retour des données chez les internautes
  • ictiliseteun passeront aux Plus si où ils trouveront
    des avantages
  • réaliser un workflow sur sa propre machine
  • faire de l'analyse de ses propres données ⇒
    vraies informations sur ses propres données

Le linked Open Data et la plateforme Daas de IO-CDS

Karima Rafes

Open Data

  • Wikimedia, WikiCommons, Wikipedia, Wikidata, Wikiversité
    = première source d'Open Data sur le web
  • Datahub.io : catalogue officiel de l'Open Data dans
    le monde

Formats

-il y a 4 ans, 95% des données étaient en Excel
-aujourd'hui : 50%. Prétraitement des données vers
des formats comme csv.

complications

  • traitement nan automatise des données
    -160 server Open Data en Europe
    ⇒ rendre interopérable

Linked Open Data

Données :

  • structurées
  • accessibles à travers le Web
  • reliées entre elles
    Objectif : naviguer à travers des données comme on
    navigue à travers des pages

IRI (Internationalized Ressource Identifier)

  • unique sur le web
  • valide (ouvre un document dans un navigateur)
  • lisible (dans la langue du rédacteur)
  • lié : si description d'un concept décrit ailleurs,
    pointer vous l'autre IRI

RDF

Ontologies

Triplestore, Quadstore → base de données RDF

Processus optimisé
agnostique à le couche de métadonnées
⇒ possibilité de m'avoir aucun consensus entre
les utilisateurs → étudier par la suite et uniformiser

SPARQL (2008)

Protocole et langage

Enjeu technique :

  • passer d'un web de textes et d'images en une base de
    connaissance distribuée.
  • Données imprécises -
  • hypermnésie (qu'est-ce qu'on garde, qu'est-ce qu'on
    garde pas)

Formats de contenants

JSON, XML, Csv...
suivant le contexte de l'application
JavaScript ces JSON
Java Es XML
Tableur tes csv

SPARQL n'est pas NOSQL

NOSQL → big Data
SPARQL est aussi un protocole :

dbpedia

Extraction de Wikipedia

LOD

2009 : les sciences s'emparent du LOD
2010 : Open Data bascule dans le LOD

SPARQL 11

SPARQL plus seulement en lecture
seule

ENJEUX recherche

Unification de la la
→ article sur wikipedia intéressant

Wikipedia → Wikodda

  1. IRI unique
  2. ?
    histrepedia utilise les données RDF de Wikipedia
    Moitié des End point ne fonctionnent pas
    spaqles.okfn.org/availability

CDS à Paris-Saclay

  1. référence les données des labos

io. dataouena-paris-saday.fr
→ Add a new dataset

Open Data Interoperability OPID

EU impose une ontologie
Balloons : Big Data du linked Data
Financé par Elsevier

Reproductibilité : IPOL

IPOL : journal scientifique dédié à l'analyse d'image
peer-reviewed

Structure d'un article

Article

  • code source de l'implémentation de référence
    Plateforme de démonstration

Exigences de reproductibilité

  • auprès de l'auteur
    -auprès du reviewer

Archive

Archivage des expériences faites par les lecteurs
en utilisant l'algorithme
⇒ retours sur les usages possibles par les utilisateurs

Les données dans l'écosystème des publications où

Odile Hologne, ISIT

Horizon 2020 et acteurs

Best practice : data contenues et expliquées dans l'article
Horizon 2020 : encouragement à déposer les données
en même temps que les articles
Open Aire, entrepôt de publication européen analogue
à HAL
Promotion du partage des données et Open Access aux
données.

Nouvelles revues et politiques des revues classiques

Giga Science
→ Data papers

Revues classiques : incitation au dépôt des données
pour le reviewing

Rôle des journaux dans le partage des données

JISC : survey : sur 371 journaux étudiés,
seuls 31 ont une data sharing policy

Intérêt des data papers

→ gratification pour le chercheur
aujourd'hui, le système ne prend pas en compte
les données

⇒ data papers sont compatibles avec les
pratiques souhaitables et les données sont
prises en compte dans l'évaluation

Façons de faire :

  • supplementary materials : inféodé à l'article = pas
    accessible
  • dépôt dans un entrepôt (institutionnel ou
    généraliste)

Giga Science

Giga Galaxy Analysis

→ Open Pipelines

→ open workflow

nature genetics : Respectful re-use (article) :
la citation dépend de la disponibilité des données.
axiu.org/pdf/1111.36r8vd.pdf

→ lien entre données disponibles et citation
en astronomie

Data citation index

Citation des jeux de données

stratégies du éditeurs

Tous les éditeurs proposent de publier
des datapapen (ex : Nature : scientific data
fig share (MacMillan / Nature)

→ données des chercheurs non gardés
dans le giron de l'institution

  • Nature propose d'utiliser le software de
    figshare pour stocker sur un serveur