Open Scientific Data (séminaire, LAL) - Compte-rendu

Vidéos de la conférence

http://webcast.in2p3.fr/events-journee_open_scientific_data

Mot d'introduction par les organisateurs

Journée coorganisée par

  • Université Paris-sud (faculté d'Orsay)
  • Paris-Saclay Center for Data science

Mot d'accueil du vice-président recherche :

  • intérêt de Paris-sud pour les questions des données (Une centaine de participants)

  • Enjeux :

    • réfléchir la question des données
    • convaincre d'utiliser
    • engager des moyens financiers dans les infrastructures (informatique)

Balázs Kégl

institution : Paris Saclay center for Data science

Data science, data scientists à l'interface entre sciences des données et sciences de domaine

incitation à la conception d'outils :

  • sur des standards
  • utilisables par des non experts

Buts :

  • construire une communauté à Saclay sur les Data science
  • construire une plateforme pour l'open Data scientifique

Programme :

  • ateliers à partir de janvier
  • bootcamp pour étudiants, PhD : apprendre à ut iliser

Enjeux :

  • incentives et barriers : publier mieux évalué que produire des outils numériques

Browning un Big Data days

"Quatrième paradigme" scientifique Ptomélée : Un traité avec :

  • méthode
  • données brutes
  • fit (ajustement des paramètres) ⇒ pendant des siècles les données ont été discutées

World Wide Web

Au début e navigateur était un éditeur → précurseur des modes d'édition collaborative Aujourd'hui : web construit en silos ⇒ cloisonnement

alors qu'à l'origine le web était fait pour des informations liées.

Aujourd'hui : Linked Data est un objectif

Open Data

Industrie rarement prête. linked Data, oui, open Data, mon

5 star Data scheme

Europe a ouvert une plateforme :

Incitation à adopter les Linked Data

  • meilleur moment pour adopter : early adopters
  • dès maintenant et non pas dans un futur distant
  • intérêt pour la découverte
  • pour tous et pas seulement les grandes structures

Données du Web : quand nos vies numériques deviennent

des bases de connaissances

Serge Abiteboul Il suffit de rajouter scientifique après numérique et c'est pareil

PIMS

sont pour un futur proche

Données sur le web : enjeux

Données porsonnelles

  • celles qu'on dépose -celles qu'on capte

→ Recherche actuelle sur les données qu'on dépose avec un téléphone

  • mais ces données ne sont pas la propriété de l'utilisateur
  • systèmes tachant de garder l'utilisateur dans un silo pour monétiser cela

⇒ Perte de la privacy des données

  • difficulté à changer d'applications

Technique

  • hétérogénéité des formats de données

PIMS

"We should regain control on our data"

  • Actuellement : logiciel tourne sur un serveur et gardés chez une entupun. Business Model = monétiser les données
  • PIMS : logiciel tourne chez soi. dans un serveur dédié (payé, donc business model) → toutes les données dans un même lieu
  • doit nécessiter zéro compétence technique

Point de vue sociétal

  • prise de conscience
  • dissymétrie entre les données que les gens connaissent et celles dont ils ne savent rien mais savent qu'elles existent
  • données ont de la valeur → quantified self
  • EU avance sur le protection des données
  • arrivée des Vendor relation management
  • FINA a un projet mes-infos ex : banque envoie un pdf → envoyer un formulaire html à la place
  • administration système : beaucoup plus simple aujourd'hui qu'avant
  • services basés sur des logiciels libres ont qualité équivalente aux services propriétaires
  • machine à coût abordables (serveur dédié)

Difficultés mais secteurs intéressés

  • le business model est absent donc les industriels (Facebook et choisissent le BM où les données sont à monétiser. -Entreprises pré-numériques ont perdu contact avec les clients : Hotel est interface par booking. com ⇒ l'intermédiaire capte le bénéfice. ⇒ prix de conscience, intérêt pour les PIMS car sont un terrain neutre
  • Routeurs sont déjà dans les foyers (box internet, etc) ⇒ pourrait accueillir des Plus.
  • services sur internet seront toujours utilisés mais leur business model est incompatible

Avantage

  • retour des données chez les internautes
  • ictiliseteun passeront aux Plus si où ils trouveront des avantages
  • réaliser un workflow sur sa propre machine
  • faire de l'analyse de ses propres données ⇒ vraies informations sur ses propres données

Le linked Open Data et la plateforme Daas de IO-CDS

Karima Rafes

Open Data

  • Wikimedia, WikiCommons, Wikipedia, Wikidata, Wikiversité = première source d'Open Data sur le web
  • Datahub.io : catalogue officiel de l'Open Data dans le monde

Formats

-il y a 4 ans, 95% des données étaient en Excel -aujourd'hui : 50%. Prétraitement des données vers des formats comme csv.

complications

  • traitement nan automatise des données -160 server Open Data en Europe ⇒ rendre interopérable

Linked Open Data

Données :

  • structurées
  • accessibles à travers le Web
  • reliées entre elles Objectif : naviguer à travers des données comme on navigue à travers des pages

IRI (Internationalized Ressource Identifier)

  • unique sur le web
  • valide (ouvre un document dans un navigateur)
  • lisible (dans la langue du rédacteur)
  • lié : si description d'un concept décrit ailleurs, pointer vous l'autre IRI

RDF

Ontologies

Triplestore, Quadstore → base de données RDF

Processus optimisé agnostique à le couche de métadonnées ⇒ possibilité de m'avoir aucun consensus entre les utilisateurs → étudier par la suite et uniformiser

SPARQL (2008)

Protocole et langage

Enjeu technique :

  • passer d'un web de textes et d'images en une base de connaissance distribuée.
  • Données imprécises -
  • hypermnésie (qu'est-ce qu'on garde, qu'est-ce qu'on garde pas)

Formats de contenants

JSON, XML, Csv... suivant le contexte de l'application JavaScript ces JSON Java Es XML Tableur tes csv

SPARQL n'est pas NOSQL

NOSQL → big Data SPARQL est aussi un protocole :

dbpedia

Extraction de Wikipedia

LOD

2009 : les sciences s'emparent du LOD 2010 : Open Data bascule dans le LOD

SPARQL 11

SPARQL plus seulement en lecture seule

ENJEUX recherche

Unification de la la → article sur wikipedia intéressant

Wikipedia → Wikodda

  1. IRI unique
  2. ? histrepedia utilise les données RDF de Wikipedia Moitié des End point ne fonctionnent pas spaqles.okfn.org/availability

CDS à Paris-Saclay

  1. référence les données des labos 2. 3. io. dataouena-paris-saday.fr → Add a new dataset

Open Data Interoperability OPID

EU impose une ontologie Balloons : Big Data du linked Data Financé par Elsevier

Reproductibilité : IPOL

IPOL : journal scientifique dédié à l'analyse d'image peer-reviewed

Structure d'un article

Article

  • code source de l'implémentation de référence Plateforme de démonstration

Exigences de reproductibilité

  • auprès de l'auteur -auprès du reviewer

Archive

Archivage des expériences faites par les lecteurs en utilisant l'algorithme ⇒ retours sur les usages possibles par les utilisateurs

Les données dans l'écosystème des publications où

Odile Hologne, ISIT

Horizon 2020 et acteurs

Best practice : data contenues et expliquées dans l'article Horizon 2020 : encouragement à déposer les données en même temps que les articles Open Aire, entrepôt de publication européen analogue à HAL Promotion du partage des données et Open Access aux données.

Nouvelles revues et politiques des revues classiques

Giga Science → Data papers

Revues classiques : incitation au dépôt des données pour le reviewing

Rôle des journaux dans le partage des données

JISC : survey : sur 371 journaux étudiés, seuls 31 ont une data sharing policy

Intérêt des data papers

→ gratification pour le chercheur aujourd'hui, le système ne prend pas en compte les données

⇒ data papers sont compatibles avec les pratiques souhaitables et les données sont prises en compte dans l'évaluation

Façons de faire :

  • supplementary materials : inféodé à l'article = pas accessible
  • dépôt dans un entrepôt (institutionnel ou généraliste)

Giga Science

Giga Galaxy Analysis

→ Open Pipelines

→ open workflow

nature genetics : Respectful re-use (article) : la citation dépend de la disponibilité des données. axiu.org/pdf/1111.36r8vd.pdf

→ lien entre données disponibles et citation en astronomie

Data citation index

Citation des jeux de données

stratégies du éditeurs

Tous les éditeurs proposent de publier des datapapen (ex : Nature : scientific data fig share (MacMillan / Nature)

→ données des chercheurs non gardés dans le giron de l'institution

  • Nature propose d'utiliser le software de figshare pour stocker sur un serveur

Licence

Toutes les contributions à ce document sont sous licence CC-BY, toute personne ayant contribué étant considérée co-auteur.

https://creativecommons.org/licenses/by/4.0/

Utilisation prévue du document

Publication sur le site de HackYourPhD

Ce document sera publié sur le site de l'association HackYourPhD (qui derrière ce nom regroupe des doctorants, chercheurs et étudiants proposant de réfléchir sur les pratiques scientifiques à l'heure du numérique).

http://hackyourphd.org

Autre utilisation

(à compléter)