Depuis quelques semaines, l’équipe ISTEX-RD travaille en coopération avec une autre équipe du Département Projets et Innovation de l’INIST : l’équipe LODEX : http://lod.istex.fr/.
Les enrichissements produits par l’équipe ISTEX-RD apparaissent sous forme d’un standoff (balise placée après les métadonnées du document et conforme aux standards de la TEI). Ce standoff est composé d’un header suivi d’une ou plusieurs <listAnnotation> regroupant soit des éléments détectés dans le document (mots-clés, entités nommées…), soit des catégories attribuées au document.
Une partie du projet LODEX consiste à aligner de manière automatique les enrichissements produits par ISTEX-RD avec des ressources extérieures comme la base de données GeoNames, la base de données Data.bnf, le MeSH (Medical Subject Headings) ou encore la CDU (Classification Décimale Universelle).
Exemple de standOff pour la catégorisation Refcode (bases Pascal et Francis de l’INIST) appliquée à 1 document :
enrichissement catégorisation ISTEX-RD ISTEX-RD
L’élément standOff de ce document est distribué sous licence Creative Commons 4.0 non transposée (CC BY 4.0)
Ce standOff a été créé dans le cadre du projet ISTEX – Initiative d’Excellence en Information Scientifique et Technique
00000000000000000000000000000000000000000000000000 catégorisation par approche statistique - Bayésien Naïf SCIENCES APPLIQUEES, TECHNOLOGIE ET MEDECINE SCIENCES EXACTES ET TECHNOLOGIE TERRE, OCEAN, ESPACE GEOPHYSIQUE EXTERNE
Dans le standOff, l’attribut « scheme » de la balise <keywords> renvoie à une page LODEX où les catégories Refcode sont renseignées :
Exemple : La catégorie « Géophysique externe » est documentée avec la base de données Wikipédia et alignée avec la catégorie correspondante de la CDU (expérimentation LODEX en cours, la présentation de la page pourra subir des changements).
Besoin d'aide ?
Consultez notre Faq, la documentation Istex ou nos tutoriels
N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !
Bonjour,
Jusque là :
« Une partie du projet LODEX consiste à aligner de manière automatique les enrichissements produits par ISTEX-RD avec des ressources extérieures comme la base de données GeoNames, la base de données Data.bnf, le MeSH (Medical Subject Headings) »
je comprenais (me semble-t-il)
Mais quand j’ai lu
« ou encore la CDU »
Là je me suis vraiment demandé pourquoi la CDU ?
Sauf erreur de ma part cette classification n’est quasiment plus utilisé dans les BU des universités françaises.
Alors je saisi mal l’intérêt.
Cordialement
Bonjour,
la CDU était mentionnée pour deux raisons, l’une historique parce qu’elle a existé et que c’est une façon de garder trace de la représentation des connaissances humaines à l’aune d’une époque donnée. Pour exemple l’Encyclopédie Diderot et d’Alembert n’est pas brûlée ou ignorée. De plus elle apporte, d’un point de vue technique, des questionnements qui dans la réflexion sur l’alignement nous semblaient intéressants à expérimenter.
Nous restons à votre disposition pour tout complément d’information et tout échange sur ces questions.
Merci de l’intérêt que vous portez à cette expérience
Clotilde Roussel