Représentation et usage de terminologies et de

Report
Représentation et usage de
terminologies et de
vocabulaires d’indexation
P. 1
Sabine Barreaux
Nourdine Combo
Françoise Drouard
Isabelle Gomez
Dominique Vachez
INIST-CNRS
25/11/2014
Terminologies à l’Inist : de l’indexation vers de nouveaux
services
Françoise Drouard
P. 2
La terminologie au service des données de la recherche :
méthodologie de constitution d’un thésaurus de la
biodiversité
Isabelle Gomez & Dominique Vachez
Représentation des terminologies Inist pour le projet
Termith
Sabine Barreaux & Nourdine Combo
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Terminologies à l’Inist
P. 3
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Au commencement…
P. 4
Documentaliste
Lexiques
Indexation manuelle
Création et gestion de lexiques thématiques au fil des indexations
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Production terminologique
Lexiques « papier » PASCAL & FRANCIS
Propriétaires - payants
P. 5
- Ensemble de descripteurs utilisés
pour représenter un document
- Langue de spécialité SHS/STM
- Multilingues Anglais Espagnol
Allemand
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Informatisation du poste de l’ingénieur documentaliste
P. 6
Dématérialisation
des données
Automatisation
des process
Ouverture des
données
Partage de
données
Indexation
automatique
Exposition &
mutualisation
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Partage des données
Base
vocabulaire
 Travail collaboratif
facilité
P. 7
 Enrichissement sémantique des vocabulaires
Synonymie, termes associés, termes génériques,
catégorisation sémantique…
 Uniformisation selon des normes spécifiques
ISO 2788-1986 (thésaurus unilingues)
ISO 5964-1985 (thésaurus multilingues)
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Exposition & mutualisation
http://www.termsciences.fr/
P. 8
Portail terminologique développé par l’Inist-CNRS en association avec le
LORIA et l’ATILF
- valoriser et mutualiser les ressources terminologiques des organismes
publics de recherche et d’enseignement supérieur
- constituer un référentiel terminologique commun
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Termsciences
P. 9
• Utilisation de la norme TMF ISO 16 642
(Terminological Mark-up Framework), standard international
pour la représentation des bases de données
terminologiques en XML.
Terme
Concept
• Introduction des deux notions :
 Interopérabilité des données
 Open Data (données ouvertes)
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Avènement du web sémantique
Passage au SKOS
Modèle de représentation standard des systèmes
d'organisation du savoir (thésaurus, classifications ou autre
vocabulaire contrôlé et structuré)
P. 10
• Recommandation du W3C depuis 2009
• Construction sur la base de RDF
• Contribution à la constitution d'une structure de
concepts mis en commun et exploités à l'aide de
langages d'ontologies (OWL)
Il permet :
• d’ échanger, relier et publier ces systèmes d'organisation
de connaissances dans le contexte du web sémantique.
• de rendre les systèmes d’organisation des connaissances
lisibles par un ordinateur
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Exposition & mutualisation
Projet collaboratif Temis
Construction et exposition de « Cartouches de connaissance »
reposant sur des terminologies Inist-CNRS
P. 11
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Evolution des technologies
révolution des métiers
Ingénieur documentaliste
Informatisation
P. 12
Partage des données
Ingénieur de l’information
Web
sémantique
Réseaux
sociaux
Big data
Ingénieur de la donnée ?
Accès BIBLIOSHS :
http://www.cairn.info.gate3.inist.fr/revue-documentaliste-sciences-de-linformation-2013-3.htm
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
P. 13
La terminologie au service des données
de la recherche : méthodologie de
constitution d’un thésaurus de la
Biodiversité
Inist-CNRS
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Besoins des chercheurs
P. 14
Des chercheurs du CEFE et du CESAB
- CEFE (Centre d’Ecologie Fonctionnelle et Evolutive ) UMR CNRSUniv. Montpellier
- CESAB (CEntre de Synthèse et d’Analyse sur la Biodiversité / Aixen Provence) programme-phare de la FRB–Fondation pour la
Recherche sur la Biodiversité
produisent différentes bases de données sur la Biodiversité et souhaitent
les rendre interopérables sémantiquement
Enrichissement terminologique des métadonnées : meilleure
description des données de la recherche en Biodiversité
 Découverte, partage et réutilisabilité
Utilisation d’un vocabulaire contrôlé  Harmonisation et
intégration des données de Biodiversité (BdD CEFE, TRY database)
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Contexte
Organisation du projet
P. 15
Création d’un groupe de travail rassemblant :
- des écologues, informaticiens du CEFE et du CESAB
- d’autres acteurs de la Biodiversité (AnaEE-France, IMBE, INRA) et
- des documentalistes (Cellule Terminologie INIST)
sous l’égide du rBDD (réseau Bases de Données) –
volet «Interopérabilité» (Mission pour l’Interdisciplinarité du CNRS)
 Atelier conjoint en juin 2014 (CESAB) :
« Vers un thésaurus de la biodiversité »
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Contexte
Cadre du projet
Des données environnementales interdisciplinaires, hétérogènes,
disséminées dans de multiples jeux de données et réparties dans
de nombreuses bases (BBEES-INEE)
P. 16
-
Des standards de métadonnées spécifiques à l’Environnement :
EML Ecological Metadata Language (GBIF, ILTER, KNB)
ISO 19115 pour les données géoréférencées conformes à la
Directive européenne INSPIRE
Des thésaurus dédiés à l’Environnement utilisant les formats et
standards du web sémantique, mais non spécialisés sur la
thématique « biodiversité »
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Les thésaurus sur l’Environnement dans
le web sémantique
Phase préliminaire
Inventaire des thésaurus du domaine Environnement
sémantiquement interopérables
Interdisciplinarité
P. 17
Thésaurus multidisciplinaires ; Initiatives européennes : GEMET et
EARTh (compatibles thématiques INSPIRE) interrogeables
simultanément avec AGROVOC (LusTRE); EnvThes (ILTER)
Interopérabilité
Conformité avec les standards et formats du web de données (W3C,
SKOS, RDF, concept URI) et la norme ISO 25964 ; Disponibilité dans
le Linked Open Data (LOD cloud)
Alignements
Réalisés en skos:exactMatch ou closeMatch et affichés réciproquement
ou non pour chaque concept au sein du LOD.
Ressources téléchargeables sous licence libre
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Les thésaurus sur l’Environnement dans le
web sémantique
CC BY NC ND
LOD
EARTh *
exactMatch
closeMatch
exactMatch
CC BY NC SA
exactMatch
exactMatch
INSPIRE
Biocomplexity
Thesaurus *
(USGS)
Atelier 4 –I. Gomez, D. Vachez
LOD
exactMatch
LOD
exactMatch
GEMET *
(EIONET/EEA)
EUROVOC
(UE)
AGROVOC
(FAO)
CC BY
DBpedia
ILTER
LTER-EUROPE
INSPIRE
LOD
LOD LOV
(EnvEurope-Life+)
(eENVplus)
Thésaurus de
la Biodiversité
LOD
EnvThes *
LOD
exactMatch
Rameau
BNF
owl: sameAs
skos: exactMatch
skos: closeMatch
skos: relatedMatch
exactMatch
exactMatch
LOD
closeMatch
SKOS/RDF
exactMatch
closeMatch
NALT
(USDA)
LOD
LCSH
LOD
Carrefour de l’IST 25/11/2014
Etapes de constitution d’un thésaurus de
la Biodiversité
1.
Comparaison de la richesse et de la cohérence sémantique
des thésaurus existants, de leurs équivalences intra(skos:altLabel) et inter-linguistiques (multilinguisme) et de
leur interopérabilité : points forts / points faibles
2.
Sélection de thésaurus-pivots pour réaliser des alignements
avec nos propres référentiels (skos:exactMatch, propriété
d’alignement transitive ) : Agrovoc, GEMET, EARTh
3.
Sélection de termes issus des référentiels terminologiques
INIST en Ecologie, Environnement, Agronomie : richesse
en synonymes et formes variantes, bilinguisme. 
Hiérarchisation des concepts; conversion en SKOS
P. 19
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Référentiel terminologique Inist : concept Biodiversité




agro-biodiversity
bacterial diversity
Biodiversity
biodiversity preservation
 coenotic diversity
P. 20
 diversity of the
ANG ectomycorrhiza community
 ecosystem diversity
 functional biodiversity
 insect diversity
 plant diversity
 Shannon index
 weed diversity
ESP  biodiversidad
 agro-biodiversité
 biodiversité animale
 Convention sur la
diversité biologique
 diversité écosystémique
FRA  diversité biologique
agriculture
 diversité des êtres vivants
 diversité du vivant
 Indice de Shannon
 protection biodiversité
SL  Natura 2000
Atelier 4 –I. Gomez, D. Vachez
 agrobiodiversity
 bio-diversity
 biodiversity conservation
 biological diversity
 Convention on Biological
Diversity




 ecodiversity
 ecological diversity




 fauna diversity
 fungi diversity
 Nagoya Protocol
 Shannon diversity
 structural diversity of
fungal community
 wildlife diversity
ecosystemic diversity
fungal diversity
microbial diversity
rhizobial diversity
 songbird diversity
 wild diversity
 Diversidad biológica
 agrobiodiversité
 biodiversité aquatique
avifaunal diversity
biodiversities
Biodiversity Convention
botanical diversity
 diversity of rhizobia
 Biodiversité
 conservation biodiversité
 diversification biologique  diversité écologique
 diversité animale
 Diversité biologique
 diversité biosphérique
 diversité botanique




 diversité des plantes
 diversité végétale
 préservation biodiversité
diversité des animaux
diversité sauvage
préservant biodiversité
richesse biologique
Carrefour de l’IST 25/11/2014
Etapes de constitution d’un thésaurus de
la Biodiversité
4. Combinaison de deux approches complémentaires :
P. 21
Approche par le haut (top-down) : termes/concepts
génériques à partir desquels débutera la hiérarchie du
thésaurus, issus des référentiels INIST et de leurs
alignements
Approche par le bas (bottom-up) : apport de vocabulaires
plus spécialisés (termes pré-coordonnés) et concepts plus
spécifiques issus des bases de données de la recherche
 Thesauform-Traits : diversité fonctionnelle des plantes
 Indicateurs de la biodiversité (CBD, EEA, ONB)
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Constitution d’un thésaurus de la Biodiversité
Ressources terminologiques
L u s T R E - eENVplus
INSPIRE
INIST-CNRS
Vocabulaires de
AnaEE France,
SOERE, LTER
Vocabulaires des
bases de données
INEE-BBEESThesauform-traits…
Essential Biodiversity
Variables (EBV)
GEO BON
Atelier 4 –I. Gomez, D. Vachez
GEMET
Thésaurus de la
Biodiversité
AGROVOC
EARTh
Indicateurs de la biodiversité
-CBD 2020
-European biodiversity indicators
(European Environment Agency)
-Indicateurs de l’ONB
(Observatoire National de la
Biodiversité)
Carrefour de l’IST 25/11/2014
Perspectives
Recherche simultanée avec plusieurs vocabulaires alignés :
passerelle sémantique pour le moissonnage des entrepôts de
données et les moteurs de recherche sémantique (LusTRE)
P. 23
Visibilité de ressources terminologiques francophones dans
le Web Sémantique et le LOD
Evolution des thésaurus vers des ontologies
Fouille de texte et de données (text & data mining) avec des
formes variantes du langage naturel (skos:hiddenLabel)
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
P. 24
Projet Termith
http://www.atilf.fr/ressources/termith
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Contexte
Financement : ANR
P. 25
Durée 3 ans (2013 – 2015)
Partenaires :
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Objectifs
Améliorer l’accès à l’information contenue dans les articles
scientifiques en français dans le domaine des sciences
humaines
P. 26
Via une indexation automatique des textes intégraux
Traitement automatique de la langue :
Extraction automatique de candidats termes
Filtrage des termes contenus dans les textes
Un exemple en sciences du langage :
« le sujet de mon article est la syntaxe »
« le verbe s’accorde avec le sujet en nombre et en genre »
Disciplines traitées dans le projet :
Sciences du langage, Archéologie, Psychologie, Sciences de
l’information
Chimie
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Usage
Scénarios d’utilisation des résultats Termith
P. 27
Scénario 1 : Evaluation de la qualité des candidats termes extraits
et filtrés pour l’enrichissement des ressources terminologiques
Scénario 2 : Evaluation de la pertinence des mots clés pour
l’indexation
Scénario 3 : Evaluation de la qualité de l’analyse de contenu
produite avec différentes indexations (Termith et Inist)
Usage des terminologies dans le projet :
Pour améliorer l’indexation automatique à partir du texte intégral
Mise à jour et structuration de ces ressources
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Terminologies Inist
Quelles ressources terminologiques ?
Vocabulaires d’indexation des disciplines du projet
P. 28
Normes de représentation :
ISO 16642:2003 : Applications informatiques en terminologie –
Terminological Markup Framework (TMF)
Modèle abstrait pour représenter des terminologies
Utilisé pour passer d’une organisation lexicale à une organisation
conceptuelle à l’occasion de la mise en place de TermSciences
ISO 30042:2008 : Systèmes de gestion de la terminologie, de la
connaissance et du contenu – TermBase eXchange (TBX)
Sérialisation XML de TMF (plus précise) pour échanger des
données terminologiques
Utilisé comme format terminologique pivot dans Termith
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Méta-modèle
Collection de données terminologiques
P. 29
Informations globales
Entrée terminologique
Informations
complémentaires
Section Langue
Section Terme
Section Composant
de Terme
Source : L. Romary
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Principes et avantages
Organisation par concept
P. 30
Toutes les informations terminologiques appartenant à un
concept, c-à-d tous les termes (qui désignent ce concept) dans
toutes les langues et toutes les données descriptives et
administratives, sont traitées comme une unité terminologique
Autonomie du terme
Tous les termes appartenant à un concept sont considérés (dans
une entrée terminologique) comme des blocs autonomes (et
répétables) de catégories de données
≠ thésaurus
Sémantique fine
Richesse dans les possibilités de description des termes et des
concepts par des catégories de données
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
TBX : Principales catégories de données
Obligatoire
Fortement recommandé
P. 31
Terme, langue du terme
Grammaticales : partie du discours, genre, type de terme
Textuelles : définition, contexte, note
Catégorisations : domaine, projet, utilisateur
Administratives : dates, noms, sources de données
Usage : géographique, statut d’usage, localisation
Référence à d’autres termes et à des informations externes
Graphiques
Source : L. Romary
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Exemple Termith
P. 32
Exemples d’enrichissements
P. 33
Propositions de nouveaux termes issus des évaluations faites
dans le Scénario 1
Propositions d’enrichissements par post-doc Atilf (sur le
domaine des Sciences du langage) :
Distinction entre les différentes couches lexicales :
Terminologie des sciences du langage
Lexique scientifique transdisciplinaire (« étude théorique »)
Langue générale (« enfant », « adulte », « âge périscolaire »)
Introduction de facettes permettant de catégoriser les concepts
(en lien avec Scénario 3) :
Concept grammatical
Concept rhétorique
Noms de langues
Introduction de définitions
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
En conclusion
Choix SKOS/TBX ?
Stratégie optimale :
P. 34
TBX comme format riche
SKOS comme format de « livraison »
Mapping possible dans les 2 sens :
SKOS --> TBX (pour initialiser une base terminologique à partir
de ressources SKOS)
TBX --> SKOS (avec perte d’informations)
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Mise à disposition des Terminologies
INIST
INIST
Astronomie SKOS
Transfusion sanguine SKOS
Nutrition artificielle SKOS
P. 35
http://www.inist.fr/?Ter
minologie
EN COURS
Optique SKOS
Géographie Amérique du Nord SKOS
Psychologie de la mémoire SKOS
Pathologies SKOS
community.temis.com/fr/m
arket-place
EN COURS
Sciences du langage TBX
Archéologie TBX
Sciences de l’information TBX
Chimie TBX
Psychologie TBX
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
http://www.ortolang.fr/
A VENIR
Carrefour de l’IST 25/11/2014
P. 36
Merci de votre attention
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014
Notions de base en SKOS
Concepts (skos:concept)
Identifiés à l’aide d’URI
Désignés par des expressions en langue naturelle
P. 37
skos:prefLabel, skos:altLabel, skos:hiddenLabel
Documentés par différents types de notes
skos:note, skos:definition, skos:example
Reliés sémantiquement les uns aux autres par des hiérarchies
informelles et des réseaux d’association
skos:broader, skos:narrower, skos:related
Intégrés à un schéma conceptuel
skos:inScheme, skos:hasTopConcept, skos:topConceptOf
Reliés à d’autres concepts de thésaurus différents
skos:exactMatch, skos:closeMatch
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez
Carrefour de l’IST 25/11/2014

similar documents