Abonnez-vous à Universalis pour 1 euro

BIBLIOTHÈQUES NUMÉRIQUES

Vers un Web sémantique

Le modèle de Gallica ou des bibliothèques numériques établi par les grandes bibliothèques nationales se calquait peu ou prou sur celui de la bibliothèque physique : identification dans le catalogue d'un document édité et numérisé, recherche dans les zones plein texte grâce à un moteur. Cette informatisation avait gagné petit à petit l'ensemble des fonctions de gestion des catalogues et inventaires, par le biais de la normalisation engagée dans le domaine des données structurées. Puis, c'est la numérisation des contenus des documents eux-mêmes qui a représenté une transformation qualitative décisive : numérisation des documents physiques déjà imprimés, images, enregistrements audiovisuels, archives, etc. La transformation change de nature dès lors que les documents sont eux-mêmes uniquement numériques : bases de données, documents et matériaux en ligne sur Internet, prépublication d'articles scientifiques, autopublications, sites de nature des plus hétérogènes, etc.

Les bibliothèques trouvent ici une confirmation de leur vocation première : à savoir décrire et signaler les collections, indexer leur contenu, tenir des bases d'autorité concernant une discipline ou un auteur, classer les documents dans des systèmes normés (Décimal, Dewey) et encyclopédiques. Ce catalogage devient celui de documents complexes, composites, tels que ceux qui sont repérés sur le réseau. Ces métadonnées (metadata en anglais) sont essentielles pour une recherche d'information efficiente. Elles intègrent non seulement les données bibliographiques traditionnelles (auteur, édition, date de parution, etc.), mais aussi des données « administratives » (restriction ou autorisation d'accès, type de format numérisé). Elles précisent également la nature des liens hypertextes avec d'autres sites ou documents, et fournissent tout autre renseignement souhaitable sur la « contextualité » sociale, économique, juridique ou culturelle du document. Ces descriptions en métadonnées sont elles-mêmes exprimées en langage de structuration ou de balisage (XML).

Depuis le début des années 1990, les standards de description des données (metadata) et les syntaxes logiques qui peuvent les mettre en œuvre ne cessent de se perfectionner : Dublin Core, Warwick Framework, RDF (Resource Description Framework), etc. Un tel effort de normalisation devrait permettre une interaction accrue des contenus numérisés. L'effort sémantique s'appuie aussi sur la construction d'ontologies, où l'effort de classification encyclopédique apporté par les bibliothèques depuis le xixe siècle doit nécessairement être pris en compte. Il est en pleine cohérence avec les fonctions majeures des bibliothèques consistant à évaluer et sélectionner des documents, afin d'en valoriser au mieux l'usage heuristique ou culturel (recherche d'informations pertinentes, création de collections thématiques, gestion des droits d'accès, etc.). Pour les bibliothèques, comme pour le Web, cet ajout doit être suffisamment formalisé pour que des classes d'objets, des représentations de connaissances communes ou partagées puissent s'exprimer dans une syntaxe utilisable par des machines automatisées. Cette sémantique qu'apporte l'automatisation des métalangages permet de considérer non seulement des documents textuels, mais aussi iconiques, sonores ou extraits de bases de données structurées.

D'où la possibilité de construire des ontologies, ou du moins des hiérarchies de catégories permettant ensuite de rendre le Web sémantique, et de faire en sorte que des machines puissent « comprendre » et non seulement « lire » les contenus des sites Web. Cette évolution en cours s'inscrit dans un vaste et ambitieux projet du consortium W3 d'instaurer un « Web sémantique » (Tim Berners Lee) consistant à utiliser[...]

La suite de cet article est accessible aux abonnés

  • Des contenus variés, complets et fiables
  • Accessible sur tous les écrans
  • Pas de publicité

Découvrez nos offres

Déjà abonné ? Se connecter

Écrit par

  • : enseignant de philosophie, École normale supérieure, lettres et sciences humaines, Lyon

Classification

Média

Gallica, bibliothèque numérique de la B.N.F. - crédits : Gallica

Gallica, bibliothèque numérique de la B.N.F.

Autres références

  • CULTURE NUMÉRIQUE

    • Écrit par
    • 4 509 mots
    • 1 média
    ...digital immigrants est éclairant de ce point de vue, puisque les forts lecteurs de livres et de revues passent aujourd'hui une partie de leur temps à naviguer sur la Toile, à aller de Gallica 2 vers la Bibliothèque électronique du Québec ou Google Print afin d'y puiser la nourriture spirituelle qu'ils...
  • DARNTON ROBERT (1939- )

    • Écrit par
    • 1 024 mots

    L’historien américain spécialiste du xviiie siècle Robert Darnton a entrepris dès les années 1960 une grande recherche sur les Lumières et leur rôle dans la fin de l'Ancien Régime.

    Diplômé de Harvard et d'Oxford, Robert Darnton, après avoir enseigné l'histoire européenne à Princeton de...

  • ÉDITION ÉLECTRONIQUE

    • Écrit par
    • 4 013 mots
    • 3 médias
    ...de la marque d’une liseuse donnée. Elles ne tiennent pas compte non plus des pratiques de partage, d’échange et de don symboliquement liées au livre. Nombreux sont les lecteurs qui s'interrogent sur la patrimonialisation possible de ces bibliothèques numériques. De nouvelles structures d’édition...
  • INFORMATION : L'UTOPIE INFORMATIONNELLE EN QUESTION

    • Écrit par
    • 8 126 mots
    • 1 média
    « Notre mission est d'organiser l'information du monde et de la rendre universellement accessible et utile ». C'est ainsi que la firme Google annonçait en décembre 2004 son méga-projet d'une nouvelle bibliothèque d'Alexandrie en numérisant les fonds de quelques-unes des plus grandes bibliothèques...