Amélioration sur l’ensemble des corpus : nouveaux champs et normalisation

Bonjour à toutes et à tous,
Nous avons profité de l’été pour rajouter de nouveaux champs pour l’ensemble des corpus :

"qualityIndicators": {
        "pdfPageSize": Format des pages du PDF (ex : "612 x 828 pts"),
        "pdfPageCount": Nombre de pages dans le PDF
}

"host": {
        "volume": Numéro de volume au niveau journal/book,
        "pages": {
          "first": Numéro de la première page au niveau journal/book,
          "last": Numéro de la dernière page au niveau journal/book,
          "total": Nombre de pages au total
        },
        "issue": Numéro de l'issue au niveau journal/book
}

"serie": {
        "volume": Numéro de volume au niveau collection,
        "pages": {
          "first": Numéro de la première page au niveau collection,
          "last": Numéro de la dernière page au niveau collection,
          "total": Nombre de pages au total
        },
        "issue": Numéro de l'issue au niveau collection
}

A noter :
– Les champs pages.total correspondent aux nombres de pages, informations fournies par l’éditeur, là où qualityIndicators.pdfPageCount est l’information récupérée par nos outils. Les champs pages.total sont cependant assez rare actuellement.
– Les champs volume, issue, pages.first et pages.last attendent des nombres. Cependant, plusieurs éditeurs nous fournissent d’autres formats, par exemple « Vol. 14 », « CLXV », « 178-c », « sep09″… Ces données sont tout de même indexées, mais ne peuvent pas être recherché directement dans l’API.
– Les différents champs publicationDate et copyrightDate ont été en grande partie normalisés au format année « yyyy ». En effet, ces champs posaient plusieurs problèmes au niveau des facettes. Cette normalisation n’a été effectué que sur les champs jusqu’ici bien formé (par exemple « 12-05-2012 » ou encore « 2012-05-12 » deviennent « 2012 »), les autres formats (ex : « 16e s. » ou « 20120512 ») demandant une curation. Le changement ne touche que l’indexation, le MODS et le XML conservent les dates dans leurs formats d’origine.
– Le corpus ECCO possède maintenant des PDF en format complémentaire. Le corpus EEBO suit, mais leur génération est très longue.

N’hésitez pas à nous laisser des commentaires et des suggestions !

Partager cet article

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

Faq Documentation Tutoriels

N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !

Écrivez-nous

Erreur : Formulaire de contact non trouvé !

Une réponse à “Amélioration sur l’ensemble des corpus : nouveaux champs et normalisation”

Etienne CARON dit :

14 septembre 2015 à 14h14

Comme déclaré dans ce billet de blog, le corpus EEBO est maintenant à jour, et possède des PDF en format complémentaire.

Répondre