Bonjour à toutes et à tous,
Nous avons profité de l’été pour rajouter de nouveaux champs pour l’ensemble des corpus :
"qualityIndicators": { "pdfPageSize": Format des pages du PDF (ex : "612 x 828 pts"), "pdfPageCount": Nombre de pages dans le PDF }
"host": { "volume": Numéro de volume au niveau journal/book, "pages": { "first": Numéro de la première page au niveau journal/book, "last": Numéro de la dernière page au niveau journal/book, "total": Nombre de pages au total }, "issue": Numéro de l'issue au niveau journal/book }
"serie": { "volume": Numéro de volume au niveau collection, "pages": { "first": Numéro de la première page au niveau collection, "last": Numéro de la dernière page au niveau collection, "total": Nombre de pages au total }, "issue": Numéro de l'issue au niveau collection }
A noter :
– Les champs pages.total correspondent aux nombres de pages, informations fournies par l’éditeur, là où qualityIndicators.pdfPageCount est l’information récupérée par nos outils. Les champs pages.total sont cependant assez rare actuellement.
– Les champs volume, issue, pages.first et pages.last attendent des nombres. Cependant, plusieurs éditeurs nous fournissent d’autres formats, par exemple « Vol. 14 », « CLXV », « 178-c », « sep09″… Ces données sont tout de même indexées, mais ne peuvent pas être recherché directement dans l’API.
– Les différents champs publicationDate et copyrightDate ont été en grande partie normalisés au format année « yyyy ». En effet, ces champs posaient plusieurs problèmes au niveau des facettes. Cette normalisation n’a été effectué que sur les champs jusqu’ici bien formé (par exemple « 12-05-2012 » ou encore « 2012-05-12 » deviennent « 2012 »), les autres formats (ex : « 16e s. » ou « 20120512 ») demandant une curation. Le changement ne touche que l’indexation, le MODS et le XML conservent les dates dans leurs formats d’origine.
– Le corpus ECCO possède maintenant des PDF en format complémentaire. Le corpus EEBO suit, mais leur génération est très longue.
N’hésitez pas à nous laisser des commentaires et des suggestions !
Besoin d'aide ?
Consultez notre Faq, la documentation Istex ou nos tutoriels
N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !
Comme déclaré dans ce billet de blog, le corpus EEBO est maintenant à jour, et possède des PDF en format complémentaire.