Researcher ID

Report
Researcher ID
Onderzoek naar auteursidentificatie
Sarah Heeffer
Bart Thijs
Wolfgang Glänzel
1
Structuur
• Inleiding
• Auteursidentificatie in bibliografische databanken
o
o
o
Problemen
Oplossingen
Voor- en nadelen
• Thomson Reuters’ ResearcherID
o
o
o
Methoden
Resultaten
Conclusies
2
Inleiding
• De evaluatie van onderzoeksoutput speelde zich de laatste
decennia vooral af op het macro- en mesoniveau.
• Onderzoeksresultaten werden eerst verbonden met
landen, dan met regio’s en vervolgens met instellingen.
• Laatste jaren toegenomen interesse en vraag van
beleidsmakers naar analyses op microniveau:
o Onderzoeksresultaten van individuele wetenschappers
en samenwerkingen tussen wetenschappers worden in
detail gevolgd door wetenschapsbeleid, universiteiten,...
3
Inleiding
• Om tegemoet te komen aan stijgende vraag is juiste
auteursidentificatie belangrijk:
o
Auteur toewijzen aan juiste affiliatie en publicaties
o
Bibliometrische micro-analyses: evaluatie van
onderzoeksoutput van individuen en onderzoekersgroepen
o
Studies op lange termijn : auteurs die van instelling, land of
naam veranderen (mobiliteit), en auteur-zelfcitaties
• De identificatie van individuele auteurs is moeilijk en blijft
nog steeds een uitdaging.
4
Problemen bij identificatie van auteurs
• Eén persoon – meerdere namen (synoniem)
o
o
o
o
Spellingsvarianten: vb. umlaut, transliteratie, opsplitsing lidwoorden
Tikfouten, verschillende initialen
Verandering van naam (door huwelijk, geloof, …)
Databank
Variant 1
Variant 2
Variant 3
Umlaut
Glänzel
Glanzel
Glaenzel
Transliteratie
王悦
Wang, Y
Splitsing
lidwoorden
Van De Broek, I
Broek, I Vande /
Broek, IV
Vandebroek, I
Initialen
Wemans, Andre
Wemans, ADV
Wemans, A
Huwelijk
Petre, Camelia
Stanciu, Camelia
Camelia, Stanciu
Databank
VANRAAN, AFJ
VanRaan, AFJ
Van Raan, AFJ
5
Problemen bij identificatie van auteurs
• Verschillende personen met dezelfde naam (homoniem)
o
Veelvoorkomende namen, zoals Smith D., Janssens, J., Wang, Y., …
• Onvolledig profiel
o
o
o
o
Geen volledige voornaam
Geen link met affiliatie (instelling, stad, land)
Ontbrekend, onvolledig of onjuist adres
Onduidelijk of geen e-mailadres
• Verandering van tewerkstellingsplaats (mobiliteit)
6
Oplossingen
• Unieke identificatie per auteur in verschillende systemen:
o
ResearcherID (A-1234-2008): Web of Science (Thomson Reuters)
• Auteur zelf verantwoordelijk voor aanmaak en onderhoud van profiel
o
AuthorID: Scopus (Elsevier) (°2006)
• Geautomatiseerd systeem met feedback mogelijkheid
o
PubMed Author ID (US National Library of Medicine (NCBI)) (°2012)
o
FRIS Onderzoeksportaal (Flanders Research Information Space)
o
ORCID (Open Researcher & Contributor ID) (Online oktober 2012)
• Internationaal, interdisciplinair, overkoepelend, open, non-profit initiatief
• Compatibel met andere ID’s (Researcher ID, Scopus Author ID, PubMed)
• Link met publicaties, fondsen, patenten en databanken.
7
Voor- en nadelen van ID-systemen
• Voordelen
o
o
o
o
Namen = unieke personen
Juiste link tussen auteurs en publicaties, instellingen, landen
Betrouwbaarheid van resultaten
Micro-analyse, citatie-analyse
• Nadelen
o
o
o
o
Verschillende databanken = verschillende ID’s
Niet alle auteurs hebben een ID
Als auteur verantwoordelijk is voor eigen ID: geen up-to-date
informatie, dubbele ID’s (TR)
Geautomatiseerd systeem (SCOPUS): minder controle door
auteur zelf, probleem met validatie en betrouwbaarheid
8
Thomson Reuters’ ResearcherID (RID)
Onze uitgebreide databank geeft ons de mogelijkheid om
een diepgaande analyse uit te voeren op de
auteursidentificatie van Thomson Reuters: ResearcherID
• Hoe betrouwbaar is het ResearcherID-bestand?
• Wat is de verhouding van auteurs met en zonder RID?
• Zijn er nationale en vakspecifieke patronen te vinden in de
publicaties?
• Zijn de RID’s representatief voor het hele auteursbestand
in de Thomson Reuters Web of Science databank?
9
Methoden
• ResearcherID’s van 8 landen opgehaald uit online WoS
o
België, Nederland, Duitsland, Verenigd Koninkrijk, Zwitserland,
Oostenrijk, Hongarije en China
• Gedownloade documenten hebben ten minste:
1 adres van het opgevraagde land en
o 1 auteur met RID
De auteur(s) met RID zijn niet noodzakelijk verbonden met het land.
o
• Periode: 2009 – 2011
• Artikels, Letters, Reviews en Proceedings Papers
• Alle publicaties zijn toegewezen aan ten minste een
vakgebied
10
Koppeling van Auteursnaam
Koppeling van Onderzoekersnaam (RID) met de juiste Auteursnaam op
publicatie op basis van UT, familienaam en eerste initiaal:
UT
RID
RID-naam
000262024800086
A-4904-2011
Janssens, Jozef FK
000258231800013
B-4805-2009 Peeters, Pascal
UT
NR
Auteursnaam
000262024800086
1
Koning, C
000262024800086
2
Dubois, P
000262024800086
3
Wang, Z
000262024800086
4
Janssens, J
11
Koppeling van adres en land
• RID-auteurs gekoppeld aan landen op basis van naam en adres
• RID’s die niet tot de geselecteerde landen behoren zijn verwijderd
• Alle auteurs binnen een land = alle unieke combinaties familienaam
en eerste initiaal toegewezen aan het land
UT
RID
RID-naam
000262024800086
A-4904-2011
Janssens, Jozef FK
000258231800013
B-4805-2009 Peeters, Pascal
UT
Auteur
Land
000262024800086
Koning, C
Nederland
000262024800086
Dubois, P
Frankrijk
000262024800086
Wang, Z
China
000262024800086
Janssens, J
België
12
Resultaten
• De opkuis van de RID-data bracht aan het licht dat:
o
Overgrote meerderheid (92%) van de koppeling tussen
RID en auteursnaam op publicatie correct is
o
Overige 8%:
•
•
•
•
o
Instituten, universiteiten en overheidsinstanties
Onderzoekers die niet de auteur van publicatie zijn
Ongeldige karakters
Speciale naamvarianten
Auteurs meerdere RID’s creëren en ook gebruiken op
een publicatie
13
Voorbeelden
Type probleem
Voorbeeld RID-naam
Chinese karakters
仪, 明伟
Andere tekens
ň˜ / Å›½Æ ‹ / **** / …
Titel in de naam
Dr., Prof., St.
Dubbele namen anders gesplitst
BERGEAAS KUUTMANN, ELIN =
Kuutmann, EB (Kuutmann, E. Bergeaas)
Verandering van naam
STANCIU, Camelia --> PETRE, Camelia
Voorzetsels (Van, De) anders gesplitst Vande Broek, I / Broek, I Vande
Jaartal voor instituutnaam
2008, IBSAL
Instituten, universiteiten, overheden
ZHEJIANG UNIVERSITY, DEP. OPTICAL ENG.
14
Aandeel RID-auteurs en publicaties met RID per land (3 jaar)
60%
50%
40%
30%
20%
10%
0%
AUT
BEL
DEU
HUN
NLD
CHN
(A) Gemiddeld aantal RID per publicatie
(B) Aandeel publicaties met RID
(C) Aandeel auteurs met RID
15
CHE
GBR
Gemiddeld aantal publicaties van RID-auteurs vs. alle auteurs
per land (op 3 jaar)
25
(A) Gem. aantal
publ. van alle
auteurs
20
15
10
(B) Gem. aantal
publ. per RID
5
0
AUT BEL DEU HUN NLD CHN CHE GBR
16
Gemiddeld aantal publicaties van RID-auteurs vs.
alle auteurs per vakgebied (op 3 jaar)(excl. CHN)
6
5
(A) Gem. aantal
publ. van alle
auteurs
4
3
(C) Gem. aantal
publ. van RIDauteurs
2
1
0
A
B
C
E
G
H
I
M
N
O
P
R
S
Z
Leuven-Budapest classificatie schema:
A: Agriculture & environment; B: Biosciences (general, cellular & subcellular biology; genetics); C: Chemistry; E: Engineering;
G: Geosciences & space sciences; H: Mathematics; I: Clinical & experimental medicine I (general & internal medicine); M:
Clinic. & experim. med. II (non-internal medicine specialties); N: neuroscience & behavior; O: Social sciences II (economical &
political issues); P: Physics; R: Biomedical research; S: Social sciences I (general, regional & community issues); Z: Biology
(organismic & supraorganismic level)
17
Gemiddeld aantal publicaties van RID-auteurs vs. alle
auteurs per vakgebied
o
o
o
o
o
Om nationale verschillen in publicatiegedrag te overstijgen: analyse
van publicaties per vakgebied
China is niet in deze berekening opgenomen (vertekening)
RID-auteurs publiceren meer in vergelijking met alle auteurs
(behalve bij fysica)
Laagste aantal publicaties: Wiskunde en sociale wetenschappen
gevolgd door biomedisch onderzoek en ingenieurswetenschappen
RID-auteur is actief in gemiddeld 2,5 vakgebieden en alle auteurs
in gemiddeld 2,2 vakgebieden
18
Relative frequency
Relative frequency of publication activity of
RID authors (bars) vs. all authors (line)
50%
45%
40%
35%
30%
25%
20%
15%
10%
5%
0%
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 >15
Number of papers
• 43.1% van alle auteurs publiceerden enkel 1 artikel tgo 21.7% van de
RID-auteurs.
• 10% van de RID-auteurs publiceren >15 artikels tgo 6% van alle auteurs
19
Conclusies
• ResearcherID helpt bij de identificatie van auteurs en is
noodzakelijk om namen in andere talen te kunnen identificeren
(homoniemen).
• Toekenningen op basis van ReseacherID kunnen niet
veralgemeend worden naar alle publicaties.
• Voorlopig is de ResearcherID nog niet voldoende representatief
voor professioneel bibliometrisch gebruik.
o Registratie is momenteel nog vrij laag en verschilt per land.
o RID is niet uniek en niet altijd persoonsgebonden.
o Profiel RID-auteurs komt niet overeen met dat van alle
auteurs (productiviteit).
• Gebrek aan controleorgaan (TR): verantwoordelijkheid ligt bij
eindgebruiker die analyse uitvoert
• Verdere ontwikkelingen blijven we opvolgen ...
20

similar documents