Ce qui va mal avec le Web Sémantique
Le Symposium Américain sur les Technologies Sémantiques a eu lieu il y a un mois à Wright State University où de bonnes discussion on eu lieux avec Craig Knoblock sur la fiabilité des serveurs SPARQL1, Eric Kansa sur le stockage des données archéologiques et Open Context, Eric Miller sur le fonctionnement du W3, les fermiers de l'ouest et les vieilles motos, Matthew Lange sur le suivi de la nourriture avec les données liées et une conversation fructueuse avec Evan Wallace sur les normes de stockage des données agricoles.
En réfléchissant à ces conversations, j'ai décidé d'écrire ce que je pense que sont les conclusions troublantes pour notre technologie, à savoir: a) l'adoption du Web Sémantique est tardive, b) nous continuons à ré-résoudre les vieux problèmes et c) notre manque continu de soutien pour nos propre projet, après quoi je proposerai quelques solutions.
L'adoption du Web Sémantique n'est pas là où nous l'aimerions
Très, très peu de gens se soucient de la gestion des données2. Encore moins de personnes comprennent la gestion des données. J'irais jusqu'à dire que la majorité de la communauté informatique passe son temps à déplacer l'information vers l'écran de l'utilisateur final, en se concentrant principalement sur les communications de l'utilisateur et en se faisant dire quoi communiquer. D'autres développeurs peuvent s'inquiéter de l'analyse, des piles réseau ou du stockage, mais peu nombreux sont ceux qui se soucient des données elles-mêmes.
Cela laisse le développeur de la base de données avec tout son attention sur les questions de base. Pourquoi avons-nous eu l'orgueil de penser que les gens se soucieraient du Web Sémantique alors que la plupart d'entre eux n'ont pas à s'inquiéter de la gestion des données? 31% des pages Web contiendraient schema.org3, principalement parce que les développeurs Web pensent que cela les aidera avec les problèmes de SEO, et non parce que cela les aide dans la gestion ou l'interopérabilité des données.
L'on réinvente la roue. Encore.
Je regrette de n'avoir pas remarqué le conférencier qui a dit: «Si vos développeurs se préoccupent de JSON, je veux rien à faire avec vos développeurs», car cela va au cœur du problème de la mauvaise formation et de l'éducation au Web Sémantique. À ce stade, les arguments «de clocher» à propos des sérialisations sont à peu près aussi pertinents que de débattre si les sous-marins peuvent nager4. Il y avait beaucoup de discussions à la réunion sur la création de nouvelles normes JSON pour gérer les cas génants sans connaissance ou respect pour les normes précédentes parce que "ce n'est pas JSON et les gens veulent JSON". La pile de Web Sémantique traduit le modèle à n'importe quelle sérialisation nécessaire, dans la plupart des cas négociés sans implication du programmeur. Le JSON est vraiment agréable pour les développeurs Web, RDF / XML pour XPATH, TTL pour la création, n3 pour le débit, et al. David Booth a également noté la panoplie d'ontologies et de vocabulaires. Un certain nombre d'entre eux ont été magnifiquement conçu par des experts du domaine (GeoSPARQL55, OWL-TIME, SOSA et PROV viennent à l'esprit), c'est une perte de temps pour tout le monde de ne pas les réutiliser.
Les groupes de recherche ne sons pas des fournisseurs de services.
Le manque de services et d'exemples fiables a également été notés: l'ensemble de données du New York Times RDF ne répond plus, la BBC a réduit ses services Web Sémantiques et DBPedia, au cœur du cloud LOD, fonctionne toujours sur une machine virtuelle empruntée, l'Association DBPedia ayant du mal à lever des fonds. Je voudrais faire écho à la publication de Juan Sequeda que nous devrions mettre de côté certaines subventions pour des ressources telles que Linked Open Vocabularies6. Obtenir le financement opérationnel est toujours difficile, mais nous ne pouvons pas plaider pour une technologie lorsque les exemplaires ne sont pas maintenus ou disparaitront du jour au lendemain!
Dans le passé, nous avons beaucoup utilisé des ordinateurs empaquetés sous les bureaux et des étudiants diplômés qui rédigent des programmes entre le cours et la soumission de thèse. Ce n'est pas durable et nous devons faire un effort sur la durabilité à long terme.
Ce que nous devrions faire
La pile Web Sémantique est énormément complexe, pas à cause de la technologie mais à cause des problèmes qu'elle essaye de résoudre. Les critiques abondent (même Hitler semble-t-il) mais il n'y a pas de véritable alternative pour traiter les données à grande échelle. Sur le plan organisationnel, il se trouve mal à l'aise entre deux communautés:
Le premier est le petit groupe de développeurs qui s'occupent des web apis, la plupart du temps indépendamment l'un de l'autre. Les intégrations sont effectuées sur une base ad-hoc lorsqu'une exigence d'affaire se présente. Ce sont ces personnes qui ont proposé des idées comme Swagger: une documentation simple qui se concentre sur les opérations du programme avec peu de Sémantique sur la transaction elle-même. Le voulez-vous peint Orange? Définissez color_id comme 2, pourquoi 2? Parce que c'est la valeur que le développeur a décidée, au pif, à l'époque. Pourquoi votre cas d'utilisation évident n'est-il pas géré? Parce que personne n'en avait besoin auparavant. Le développement est à petits pas et si une erreur se produit, mettez un ticket dans github. Pas de mal fait.
La seconde est les gens de la planification des ressources d'entreprise (ERP) qui a fait cela pendant très longtemps, bien que généralement au sein d'une seule organisation et avec des quantités massives de ressources d'entreprise. Parce qu'il se soucie profondément que les commandes de 5,000 feuilles de papier 8.5x11 ne sont pas interprétées comme des commandes de 8,511 feuilles de papier 5000in^2, ils ont tendance à documenter tout (un seul document API peut être 100 pages) et ont une attention névrotique à la gestion du changement. Il y a eu des échecs spectaculaires lors de la mise en place de ces systèmes mammoth7, mais en général, vous pouvez commander quelque chose à travers le monde et il apparaîtra à votre porte la semaine prochaine.
Le Web Sémantique a beaucoup à offrir à ces deux communautés: un langage de modélisation Sémantique prêt à l'emploi8 qui est réutilisable par web apis, des identifiants globaux basés sur des URL et un cadre de documentation multilingue unifié qui répond aux besoins des entreprises. Les passerelles doivent être construites avec des experts du domaine d'application et avec des éco-systèmes de données existants. Les systèmes logistiques tels que Global Trade Item Number poussent les limites de ce que nous pouvons faire avec les codes à barres et les bases de données relationnelles. Nous voulons l'Internet des objets, l'Internet des aliments, une grille intelligente de transport et d'électricité et un système bibliographique qui ne brisent pas.
La seule façon d'y parvenir est de faire en sorte que les données générées soient supportées par le contenu et le Web Sémantique.
- 1. Version courte, mes expériences avec le Projet Muninn, CWRC, CLDI et Myra ont été globalement positives. Les serveurs SPARQL ont eu moins de temps d'ingenierie que d'autres logiciels comparables: Apache et Mysql ont été travaillés depuis 1995, Postgresql depuis 1986. En revanche, Virtuoso a eu SPARQL depuis 2005, Alleograph 2004 et ARC2 2010. 10+ années supplémentaires de développement est beaucoup. De plus, le moniteur de point de terminaison SPARQL de Mondeca montre que les serveurs SPARQL ont une bonne disponibilité. Le 63% des serveurs hors ligne s'applique à tous les serveurs SPARQL jamais vu depuis 2013. La statistique qui devrait inquiéter est que seulement 13% d'entre eux ont déjà eu une description lisible par une machine!
- 2. La gestion des données est le plus simple réduit du Web Sémantique et de l'ontologie. Je mets la barre bas volontairement ...
- 3. Il serait intéressant de voir combien de ces triplets sont bien formés et forment une structure de données qui a du sens.
- 4. Avec mes excuses à Edsger Dijkstra.
- 5. Le nom est quelque peu inapproprié car le standard contient à la fois une ontologie pour décrire à la fois la géométrie et la chose, ainsi que des extensions SPARQL conçues pour raisonner sur les données. Il est basé sur le travail précédent de l'OGC et est solide comme le roc.
- 6. Développé par Bernard Vatant et Pierre-Yves Vandenbussche.
- 7. Sans mettre Alessandro Oltramari sur place, il a fallu plus de dix ans à Robert Bosch pour que tout fonctionne et il est considéré comme une installation digne d'étude.
- 8. Malgré quelques erreurs de parcours avec OWL, mentionnées par Deborah McGuinness, le cadre ontologique de base sous le Web Sémantique est extrêmement puissant et une aubaine pour l'intégration des données.