Nos
formations

Web de données, graphes de connaissances : introduction pour une mise en oeuvre intelligente

Objectifs de la formation

Le Web de données recouvre plusieurs problématiques différentes : la structuration des contenus, les métadonnées, le Linked Open Data, la réutilisation de données ouvertes, les bases de graphes et les graphes de connaissances, etc. Cette formation donne un panorama complet des problématiques, des principaux standards, des "gisements de données" incontournables et des types d'outils utilisables dans le contexte d'un projet exploitant ces technologies. Elle donne également les clés pour bien aborder un projet utilisant les technologies du Web de données.

À l'issue de cette formation, dispensée par un spécialiste de 20 ans d'expérience de terrain, vous aurez les réponses aux questions suivantes :

  • qu'est-ce que le Web de données ? à quelles problématiques répond-il ?
  • comment encoder des informations en triplets RDF ? comment produire des fichiers RDF ?
  • qu'est-ce que schema.org ? qu'est-ce que le SEO sémantique ?
  • qu'est-ce qu'une ontologie ? comment réutiliser des ontologies existantes ? comment spécifier son profil d'application à l'aide de SHACL ?
  • qu'est-ce qu'un thésaurus, un vocabulaire contrôlé ? comment structurer un vocabulaire en SKOS ?
  • comment écrire des requêtes en langage SPARQL ?
  • qu'est-ce que Wikidata ? comment interroger Wikidata en SPARQL ? comment contribuer à Wikidata ?
  • comment déployer son propre graphe de connaissances dans un triplestore ?
  • quels sont les différents moyens de publier des données structurées sur le Web ?

Durée

3 jours. Cette formation peut être adaptée sur 2 jours.

À qui s'adresse cette formation ?

Au croisement du Web, des données, et des enjeux documentaires, cette formation s'adresse aussi bien à spécialistes en sciences de l'information (documentalistes, bibliothécaires, veilleurs) qu'à des profils techniques (développeurs) ou des profils métier (chefs de projet, architectes de données). L'accent est mis plutôt sur le côté documentation ou plutôt sur le côté technique en fonction de l'auditoire.

Cette formation est une porte d'entrée vers les autres formations plus précises disponibles au catalogue.

Prérequis

Connaissance de HTML et XML indispensables. Notions de modélisation (UML ou autre). Notions de bases de données (SQL). Maîtrise et compréhension d'Internet (clients, serveurs, HTTP) et des moteurs de recherche.

Programme de la formation

Introduction au Web de données

  • Enjeux des projets de graphes de connaissances
  • Notions de base pour la structuration des données
  • Les URIs
  • Le Linked Open Data, schema.org, Wikidata
  • Exemples d'applications

schema.org

  • Schema.org : le modèle de structuration des données pour les moteurs de recherche
  • Analyse d'une entité dans le modèle schema.org
  • Différence entre sémantique et syntaxe

RDF : modèle de structuration des données

  • Modèle RDF - encodage des données en triplets
  • Exercice d'encodage d'un énoncé à l'aide de FOAF
  • Les différentes syntaxes RDF. Savoir décoder la syntaxe Turtle

Les thésaurus SKOS

  • Les thésaurus et leur intérêt pour le Web de données
  • Structurer un thésaurus en SKOS
  • Exemple de thésaurus publiés en SKOS sur le Web de données
  • Les outils SKOS

SPARQL sur Wikidata

  • Syntaxe et opérateurs de requêtes SPARQL
  • Exercices d'écriture de requêtes sur Wikidata et/ou les données du client

Les ontologies OWL

  • Introduction aux ontologies. Différences entre ontologie et thésaurus
  • Les modéles conceptuels documentaires à connaître : CIDOC-CRM, FRBR/LRM, Records In Contexts (RIC-O)
  • Les opérateurs de construction d'une ontologie en RDFS et OWL

Mise en pratique

  • Peuplement d'un graphe de connaissances à partir de fichiers Excel
  • Installation et manipulation d'un triplestore
  • Chargement des données et manipulation des données

Adapter cette formation

Cette formation, dispensée par un spécialiste de 20 ans d'expérience, est réalisable dans vos locaux et modulable en fonction de vos problématiques : le format peut être adapté (2 jours au lieu de 3), le contenu modulé en fonction des stagiaires, ou des données spécifiques peuvent être utilisées comme support. Pour cela, contactez-nous.

Formation Web de données technique : développer un système de graphe de connaissances

Objectifs de la formation

Cette formation technique, pour les développeurs, a pour objectif de donner les capacités aux participants d'utiliser les bonnes méthodes et les outils importants pour la mise en oeuvre d'un projet de graphe de connaissances. Elle s'adresse à des développeurs ou des data scientists.

Cette formation permettra aux participants de répondre aux questions suivantes :

  • Comment tirer parti de requêtes SPARQL avancées ? (requêtes fédérées, requêtes de transformation de données, etc.)
  • Comment manipuler des données RDF dans des scripts, des programmes (Java), en utilisant RDF4J ou Jena, pour faire des transformations de données ?
  • Comment alimenter un graphe de connaissances avec des données relationelles, XML, CSV, JSON, etc. ?
  • Comment exposer des données RDF sur le Web ?
  • Quels sont les principaux modèles d'ontologies à connaître pour réutiliser, traiter ou publier des données ?

Durée

1,5 jour. Cette formation peut être adaptée sur 1 ou 2 journées.

À qui s'adresse cette formation ?

Cette formation Web de données avancée s'adresse à des développeurs, data scientists, chefs de projet ou consultants désireux de se perfectionner sur le Web de données ou qui sont dans une phase de réalisation d'un projet utilisant les technologies du Web de données.

Prérequis

  • Avoir des notions de XML, de JSON
  • Savoir écrire des requêtes SQL est un plus
  • Avoir des notions de RDF (un rappel sera fait en début de formation)

Programme de la formation

Rappels sur la structure RDF

  • Rappel du modèle de données RDF
  • Rappel de la syntaxe Turtle

RDF et SPARQL avancé

  • SPARQL Update : les opérations de mise à jour SPARQL
  • SPARQL avancé : tirer parti des graphes nommés
  • SPARQL opérations non-standards : recherche full-text et recherche spatiale

JSON-LD : encodage de triplets RDF en JSON

  • Rappel des bases du JSON
  • La notion de context JSON-LD
  • Créer des fichiers JSON compatibles RDF avec un context JSON-LD
  • JSON-LD Framing : exporter des fichiers JSON à partir d'une spécification JSON-LD

Conversion de données natives en RDF

  • Convertir du XML en RDF/XML en utilisant une feuille de style XSLT
  • Utilisation d'outils de mapping de données natives vers RDF :
    • xls2rdf
    • SPARQLAnything
    • OntoRefine de GraphDB
  • R2RML et Direct Mapping : conversion d'une base relationnelle en RDF avec OnTop

SPARQL et SPARQL update

  • Opérateurs SPARQL (en fonction du degré de familiarité des stagiaires)
  • GeoSPARQL pour l'interrogation de données géographiques
  • Utilisation de SPARQL pour mettre à jour les données
  • Utilisation de SPARQL pour exporter les données

Le Triplestore GraphDB

  • Installer et configurer GraphDB
  • Utiliser l'interface d'administration
  • Charger des données, explorer et visualiser des données
  • Stratégie de maintenance des données dans un triplestore : les graphes nommés

Les API RDF en Java et en Python

  • L'API Java RDF4J : lecture/écriture de RDF, exécution de requêtes SPARQL
  • L'API rdflib en Python
  • Apache Jena : les lignes de commande : SPARQL, inférence et traitements sans écriture de code

Adapter cette formation

Par nature, cette formation Web de données pour les développeurs nécessite une adaptation particulière en fonction du projet, des données. Si votre problématique nécessite l'emploi d'outils particuliers (moteurs d'inférences, bases RDF, ETL sémantiques), ou de modèles de données particuliers, le contenu de base de la formation sera adapté pour les prendre en compte. Pour cela, contactez-nous.

Formation SPARQL : interroger le Web de données

Objectifs de la formation

Une formation entièrement dédiée au langage SPARQL. Pour des équipes désireuses de se perfectionner sur ce langage et en tirer le meilleur parti. Les exercices sont typiquement faits directement sur les données RDF des participants pour coller au maximum aux attentes. Des manipulations sont également proposées sur Wikidata et DBPedia.

Durée

1,5 jour. Cette formation peut être adaptée sur 1 ou 2 journées.

À qui s'adresse cette formation ?

  • Les développeurs ayant besoin d'écrire des requêtes SPARQL pour interroger des données sémantiques.
  • Les documentalistes familiers des problématiques "data"
  • Les personnes désireuses de savoir interroger Wikidata

Prérequis

  • Notions de structuration des données en RDF (un rappel est fait en début de formation)
  • Avoir déjà écrit des requêtes SQL est un plus

Programme de la formation

Rappels sur la structure RDF

  • Rappel du modèle de données RDF
  • Rappel de la syntaxe Turtle

Ma première requête SPARQL

  • Structure de base d'une requête SPARQL
  • Écriture d'une première requête sur DBPedia
  • La sélection à l'aide de "Basic Graph Patterns"

Comprendre les opérateurs SPARQL

  • Opérateurs FILTER, OPTIONAL
  • Fonctions de filtrage : STR, REGEX, STRSTARTS, etc.
  • Mécanisme d'assignation
  • Mécanisme d'agrégation (COUNT et GROUP BY)

Tutoriel d'interrogation de Wikidata en SPARQL

  • Application des opérateurs SPARQL pour interroger Wikidata
  • Spécificités de structuration des données dans Wikidata
  • Affichage spécifique des résultats de recherche SPARQL dans Wikidata
  • Intégration et récupération des données de Wikidata en SPARQL

Opérateurs SPARQL avancés

  • Utilisation des property paths
  • Recherches par négation
  • Requêtes fédérées (SERVICE)

SPARQL pour la maintenance des données sémantiques

  • Opérations de modification (INSERT, DELETE)
  • Requêtes CONSTRUCT pour la transformation de données
  • Éventuellement, en fonction du triplestore de prédilection, opérateurs non-standard de recherche plein-texte ou de recherche spatiale (GeoSPARQL)

Les outils SPARQL

  • Transformer des données CSV, JSON, XML vers RDF à l'aide de SPARQL : SPARQLAnything
  • Sparnatural : Outil de requêtage visuel en SPARQL

Adapter cette formation

Contactez-nous pour adapter cette formation à votre projet. En particulier cette formation peut être adaptée sur la base des données existantes dans votre projet.

Formation SKOS, vocabulaires contrôlés et alignements

Objectifs de la formation

Une formation pour se familiariser avec la structuration des thésaurus, taxonomies, vocabulaires contrôlés, listes d'autorités pour le Web de données. Les stagiaires seront capables de maintenir et de publier les données de ces référentiels en SKOS.

Durée

1,5 jour. Cette formation peut être adaptée sur 1 ou 2 journées.

À qui s'adresse cette formation ?

  • Professionnels de l'information responsables de la maintenance ou de la création de vocabulaires contrôlés.
  • Data scientists ayant besoin de structurer des données où interviennent des vocabulaires contrôlés

Prérequis

  • Notions de structuration des données en RDF (un rappel est fait en début de formation)
  • Savoir ce qu'est et à quoi sert un vocabulaire contrôlé

Programme de la formation

Rappels sur la structure RDF

  • Rappel sur les enjeux du Web de données, les URIs
  • Rappel du modèle de données RDF
  • Rappel de la syntaxe Turtle

Le modèle de données SKOS

  • La structuration des Concept SKOS
  • Les labels, les notes, les codes, les relations sémantiques et les alignements
  • SKOS-XL pour la description des labels
  • URIs pérennes : ARK, DOI

Problématiques de gestion des vocabulaires contrôlés

  • Métadonnées descriptives d'un vocabulaire contrôlé
  • Versionnement des vocabulaires contrôlés et dépréciation
  • Publication sur le Web

Exemples de thésaurus publiés sur le Web de données

  • Thésaurus de l'UNESCO
  • Eurovoc
  • GEMET
  • Vocabulaires de l'INRAE et de l'INIST (Loterre)

Outils d'édition, alignement et publication de vocabulaires SKOS

  • xls2rdf : maintenir des vocabulaires contrôlés dans des tableaux Excel. Exemples de formats de tableaux Excel pour produire du SKOS ou d'autres structures RDF
  • SKOS Play : visualisation et contrôle de vocabulaires SKOS
  • VocBench : outil de gestion avancé pour les vocabulaires contrôlés et les ontologies
  • Skosmos et Showvoc : publication des vocabulaires contrôlés

Alignement de vocabulaires contrôlés

  • OnaGUI : outil d'alignement semi-automatique de vocabulaires
  • Exercice d'alignement semi-automatique de vocabulaires contrôlés

Adapter cette formation

Contactez-nous pour adapter cette formation à votre projet. Cette formation peut être adaptée sur un format plus court d'une journée, et adaptée sur les référentiels déjà utilisés dans le système d'information.

Comment adapter les formations ?

Vous souhaitez mettre au point une formation adaptée pour vos équipes ? Le processus est le suivant :

Nous définissons ensemble lors d'un rendez-vous téléphonique vos besoins en termes de :

  • contenu
  • durée
  • effectif formé

Je rédige un plan de formation détaillé qui propose un déroulé heure par heure du contenu de la formation. En parallèle nous nous assurons que tous les stagiaires maîtrisent les prérequis nécessaires par le biais d'un questionnaire QCM. Nous ajustons si besoin ensemble le plan de formation et une fois finalisé il est intégré dans un devis final.

Formation SHACL : spécifier la structure d'un graphe de connaissances

Objectifs de la formation

La spécification de la structure d'un graphe de connaissances est au coeur des projets "data centric". Cette spécification écrite en SHACL permet de contrôler l'intégrité des données, de documenter le modèle, de générer des interfaces, de combiner des ontologies, de décrire des règles métier.

Cette formation a pour objectifs de:

  • Positionner l’utilisation de SHACL par rapport à OWL, dans une architecture graphe de connaissances
  • Connaître les éléments de base du vocabulaire SHACL;
  • Savoir mettre en œuvre des outils SHACL:
    • Édition de règles SHACL dans des tableurs Excel
    • Validation de données avec SHACL
    • Génération de documentation et de diagrammes à partir de SHACL
    • Paramétrage de l'outil d'interrogation visuelle Sparnatural à partir de SHACL
    • Génération automatique de règles SHACL à partir de l'analyse de données RDF
  • Connaître les types de règles SHACL : règles structurelles vs. règles métiers
  • Savoir encoder des règles métier en SHACL

Durée

1 journée. Cette formation peut être adaptée sur 1,5 jour.

À qui s'adresse cette formation ?

  • Profils de documentalistes orientés data devant documenter la structure d'un graphe de connaissances
  • Ingénieurs devant mettre en oeuvre une chaîne de traitement de données sémantique (migration, gestion, publication de données RDF)
  • Data scientists devant contrôler l'intégrité de graphes de connaissances

Prérequis

Les stagiaires qui assistent à cette formation doivent :

  • Connaître la structure de base des graphes RDF (un rappel sera fait en début de formation)
  • Connaître la syntaxe RDF Turtle
  • Avoir des notions de OWL (savoir ce qu’est une classe et une propriété)
  • Avoir des notions de requêtage SPARQL

Programme de la formation

Rappels sur la structure RDF

  • Rappel du modèle de données RDF : triplets, URIs, littéraux, noeuds anonymes
  • Rappel de la syntaxe Turtle
  • Positionnement de SHACL par rapport à OWL

Le modèle SHACL

  • Les spécifications SHACL au coeur d'un système de graphes de connaissances
  • Notion de shapes, avec leurs targets
  • Notion de contraintes
  • Structure d’un rapport de validation
  • Shapes fermées / ouvertes
  • Exercice SHACL théorique
  • Application de SHACL à plusieurs niveaux dans le workflow:
    • Shapes de validation de conversion de données
    • Shapes de profil d’application
    • Shapes de description des datasets

Éditer du SHACL et valider des données

  • Manipulation d’outil : tableau Excel de saisie SHACL
    • Principes du convertisseur
    • Saisie de Shapes simples sur un modèle du client
  • Manipulation d’outil : validateur SHACL en ligne de commande pour générer des rapports de validation
  • Manipulation d’outil : support de SHACL dans GraphDB
  • Exemples des spécifications du Parlement Européen documentées en SHACL

SHACL avancé

  • SHACL avancé:
    • SHACL-AF : SPARQL-based targets
    • Écrire des règles métiers à base de requêtes SPARQL
    • Étendre SHACL avec de nouvelles contraintes
  • Les extensions du vocabulaire DASH

Adapter cette formation

Contactez-nous pour adapter cette formation à votre projet. En particulier cette formation peut être adaptée sur la base des données existantes dans votre projet.

Formation OWL : ontologies et modèles conceptuels pour les graphes de connaissances

Objectifs de la formation

Les ontologies forment une partie importante de l'écosystème du Web de données, et un passage obligé pour atteindre une bonne interopérabilité sémantique des données ("ce qui est compris des données est bien ce qui a été publié"). Cette formation vise à :

  • dresser un panorama des ontologies les plus communes sur le Web de données
  • positionner et comprendre les grands modèles conceptuels de description des données patrimoniales et des autres secteurs
  • comprendre les opérateurs RDFS et OWL disponibles pour décrire un domaine de connaissance
  • s'outiller pour créer sa propre ontologie OWL dans Protégé

Durée

1,5 jours. Cette formation peut être adaptée sur 1 ou 2 journées.

À qui s'adresse cette formation ?

  • Profils de documentalistes orientés data devant spécifier un domaine de connaissance
  • Ingénieurs et développeurs devant mettre en oeuvre une chaine de traitement de données sémantique impliquant du raisonnement automatique
  • Data scientists devant migrer des données dans un graphe de connaissances

Prérequis

Les stagiaires qui assistent à cette formation doivent :

  • Connaître la structure de base des graphes RDF (un rappel sera fait en début de formation)
  • Être à l'aise avec les outils informatiques (éditeurs texte, éditeurs de requêtes, outils de gestion de base de données, etc...)

Programme de la formation

Rappels sur la structure RDF

  • Rappel du modèle de données RDF
  • Rappel de la syntaxe Turtle

Introduction aux ontologies

  • Qu'est-ce qu'une ontologie ?
  • Quelle est la différence entre une ontologie OWL, un vocabulaire contrôlé SKOS, une spécification SHACL ?
  • Ontologies haut-niveau versus ontologies de domaine : principes d'extension des ontologies
  • Ontologies "légères" versus "modèles conceptuels rigides" : les approches de formalisation d'une ontologie

Les opérateurs des ontologies

  • Opérateurs de base RDFS : subClassOf, subpropertyOf, domain, range
  • Opérateurs OWL : propriétés inverses, transitives
  • Restrictions OWL : restrictions de cardinalités, de domain, de range

Les ontologies à connaître sur le Web de données

  • DublinCore : métadonnées documentaires génériques
  • FOAF : description des personnes
  • SKOS : vocabulaires contrôlés
  • ORG : description des organisations
  • schema.org : les données structurées pour les moteurs de recherche
  • PROV : description de la provenance et de l'historique des données
  • DCAT : description des jeux de données

Protégé : un éditeur d'ontologies OWL

  • Exercice d'utilisation de Protégé pour comprendre les opérateurs OWL et éditer une ontologie
  • Utilisation d'un raisonneur
  • Exemple d'ontologie utilisation de la classification automatique : interactions médicamenteuses
  • Mise en oeuvre du raisonnement automatique dans un triplestore : manipulation de GraphDB

Les modèles conceptuels des données patrimoniales

  • Historiques des modèles conceptuels en bibliothèque, musées et archives
  • FRBR / LRM : structuration des notices bibliographiques
  • CIDOC-CRM : description des objets patrimoniaux
  • Records In Contexts : structuration des notices archivistiques
  • Utiliser ou étendre ces modèles conceptuels dans son projet

Diffuser son ontologie sur le web

  • Décrire son ontologie avec les bonnes métadonnées
  • Bonne pratique de publication des ontologies
  • Outils de documentation et de publication automatique des ontologies

Adapter cette formation

Contactez-nous pour adapter cette formation à votre projet. En particulier cette formation peut être adaptée sur la base des données existantes dans votre projet.