Atelier sur l’analyse et la recherche de textes scientifiques
L’atelier ARTS s’est déroulé le lundi 5 juin. Il accueillait l’enseignant-chercheur Mathieu Constant pour une conférence invitée intitulée Construction d’un jeu de données de publications scientifiques pour le TAL et la fouille de textes à partir d’ISTEX. L’occasion pour le chercheur de l’Atilf de présenter son travail consacré à l’élaboration d’un corpus de documents en français, standardisés et en open access, tous issus d’Istex. Son objectif est de capitaliser sur la quantité massive de documents Istex pour créer un « bac à sable » pour la communauté TAL/TDM/NLP* et, par exemple, entraîner des modèles de langue.
La session posters qui a suivi la conférence invitée regroupait 3 travaux impliquant des données Istex.
- L’équipe Istex a présenté son travail sur la diachronie de la traduction automatique. [Article]
- Les membres de l’ANR-22-CE23-0033 MaTOS Machine Translation for Open Science, porté par F. Yvon (ISIR), ont présenté le projet débuté en janvier dernier. MaTOS a pour objectif de développer de nouvelles méthodes pour la traduction automatique. Des données Istex, mais aussi des données provenant de Loterre, seront utilisées pour atteindre ces objectifs. [Article]
- Oumaima El Khettari, Solen Quiniou et Samuel Chaffron (LS2N) ont présenté leur recherche basée sur l’analyse de 8 657 documents Istex portant sur le microbiome humain. Leur objectif est de détecter automatiquement les relations hôte-microbiote grâce à des modèles de langue. [Article]
Les données d’Istex de plus en plus utilisées dans le TAL et le TDM
En écho aux propos de Mathieu Constant, la conférence TALN confirme que les données Istex sont de plus en plus utilisées pour le TAL et le TDM. En témoignent, deux recherches présentées le 8 juin sur le site des Cordeliers de la Sorbonne :
- CamemBERT-bio : Un modèle de langue français savoureux et meilleur pour la santé de Rian Touchent, Laurent Romary & Éric Villemonte de la Clergerie ;
- DrBERT: Un modèle robuste pré-entraîné en français pour les domaines biomédical et clinique de Yanis Labrak, Adrien Bazoge, Richard Dufour, Mickael Rouvier, Emmanuel Morin, Béatrice Daille & Pierre-Antoine Gourraud.
Les articles cités viendront enrichir la page des Publications sur Istex.
Vous avez besoin de données textuelles en quantité pour du TAL ou du TDM ? Rendez-vous sur l’API ou sur l’outil Istex-DL.
Mathilde pour l’équipe Istex
_____________________________________________________________________________
*Traitement automatique des langues/Text and data mining (fouille de textes)/Natural Language Processing.
Besoin d'aide ?
Consultez notre Faq, la documentation Istex ou nos tutoriels
N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !