Les collections de corpus spécialisés, exposées sur data.istex et accessibles directement via la page des Corpus scientifiques, offrent des aperçus diversifiés du contenu scientifique d’Istex, tout en procurant des cas d’application ou d’utilisation d’outils de TDM.
Parmi toutes nos collections, citons trois exemples de corpus qui poursuivent des objectifs différents sur une même tâche de fouille de textes : la détection d’entités nommées. Chacun d’eux a fait l’objet d’une publication.
Laissez-vous inspirer…
Beethoven
Illustre une stratégie de constitution de corpus
La collection de corpus Beethoven, créée à l’occasion du 250ème anniversaire du compositeur allemand, est destinée à la détection d’entités nommées spécifiques de la musique pour ensuite enrichir un graphe de connaissances, le graphe DOREMUS.
Cette collection illustre une stratégie itérative de constitution d’un corpus scientifiquement pertinent et adapté aux exigences des outils de fouille.
Animalia 100
Compare trois outils de détection de noms d’espèces animales
Au sein de la collection Systématique, le corpus Animalia 100 regroupe des documents de zoologie dans lesquels les entités nommées scientifiques de type espèces animales ont été détectées au moyen de trois outils de TDM : entity-fishing, développé par la société Science-Miner, IRC3sp et T+rex, tous deux créés à l’Inist-CNRS.
L’alignement avec des bases de données de référence a permis d’établir et d’ajouter la classification taxinomique de chaque espèce détectée dans le corpus.
EN-ISTEX
Offre des annotations manuelles vérifiées
Parmi la collection de corpus annotés manuellement, le corpus EN-ISTEX est un corpus gold standard de 200 documents en texte intégral dans lesquels les entités nommées propres à ISTEX ont été annotées manuellement, et leur fiabilité, calculée au moyen d’un accord inter-annotateur.
Ce corpus peut être réutilisé pour évaluer la performance de tout outil de reconnaissance d’entités nommées. Outre les offsets des entités nommées de chaque document, un guide d’annotation est disponible et téléchargeable pour vous aider dans votre propre projet.