Asiasanastoista ontologioihin? YSA-YSO

Report
Asiasanastoista ontologioihin?
YSA-YSO-näkökulma
Eeva Kärki
Kansalliskirjasto
26.11.2010
Agenda
•
•
•
•
•
•
YSA
YSO
YSA – YSO: eroja
Selvitettävää
Mitä FinnONTOn jälkeen?
Osoitteita
Tesaurukset ja ontologiat
• molemmat ovat käsitejärjestelmän kuvauksia
• myös perinteisiä tesaurusmuotoisia asiasanastoja kutsutaan joskus
ontologioiksi, lisäksi ontologioiksi on ryhdytty nimittämään RDA:ta,
FRBR:ää (-> sekoittavaa)
• asiasanastot, tesaurukset = ihmisen (ja koneen, jos on URI) tulkittavissa
olevia
• ontologiat = koneen (ja ihmisen?) tulkittavissa olevia
– esityksessä keskityn sanasto-ontologioihin , lähinnä YSOon (en siis käsittele
Kulttuurisampoa, TerveSuomi yms. ontologiota)
YSA eli Yleinen suomalainen asiasanasto (1)
• n. 28 000 asiasanaa (näistä n. 5000 maantieteellistä nimeä)
• kaikki tiedonalat
– ongelmallisia aloja: fysiikka, kemia, matematiikka, tekniset alat (tietotekniikka
erityisesti), taloustieteet, kasvatustieteet…
• epätasaisuutta:
– toisilta aloilta (erityisesti ns. ”pehmeät tieteet”) melko spesifejäkin termejä,
joiltakin aloilta vain yleistason termejä ( erityisesti fysiikka, kemia, matematiikka)
• ei henkilön- eikä yhteisönnimiä
• ylläpito: Kansalliskirjasto (1 htv)
• ”tekninen” ylläpito: Fennica-tietokanta (Voyager)
– jos/kun auktoriteettitietokanta toteutuu, ylläpito siirtyy Aleph-ympäristöön
YSA (2)
Ylläpito
sanaehdotukset, muutokset
([email protected])
Fennican
indeksoijat
yleiset ja tieteell. kirjastot
BTJ Kirjastopalvelu
arkistot, museot
erikoissanastot
media
”tavalliset käyttäjät”
YSA (3)
Sanastopalaveri
• 3-4 kertaa vuodessa, osallistujia 12-15 henkeä
–
–
–
–
–
–
–
Fennican sisällönkuvailijat
Allärsin edustaja
BTJ Kirjastopalvelu
Helka-tietokannan edustaja
Eduskunnan kirjaston asiasanaston edustaja
Agriforestin (Maa- ja metsätaloussanasto) edustaja
Helsingin kaupunginkirjaston edustaja
YSA (4)
• YSA-palaverissa käsitellään n. 1000 termiä vuosittain , joista
hyväksytään n. puolet (400-500)
• uudet sanat ja muutokset ilmoitetaan sähköpostilistoilla parin päivän
sisällä kokouksesta
• päivitys Fennica-tietokantaan, sanojen väliset suhteet tehdään tässä
vaiheessa
•
myös palaverissa ”hylätyt termit” päivitetään Fennica-tietokantaan
termiehdotuksina (eivät näy VESAssa/ONKIssa), näihin ei tehdä tesaurussuhteita
• VESAssa/ONKIssa n. parin viikon kuluttua kokouksesta (riippuen
työtilanteesta…)
• Huom! ns. vapaan indeksoinnin termejä (näihin kuuluvat myös
paikannimet) ei käsitellä palaverissa eikä ilmoiteta listoilla (näitäkin
tulee n. 500 per vuosi)
• YSA karttuu siis n. 1000 uudella termillä vuodessa
YSO eli Yleinen suomalainen ontologia(1)
• FinnOnto-osaprojekti (Tekes) 2004-31.3.2012
• YSOn kehikko luotu FinnONTOssa, mukana ei ollut kirjastoihmisiä
• YSO perustuu YSAn termeihin
– jäljessä YSAsta, tällä hetkellä puuttuvat kaikki v. 2010 otetut uudet YSAn termit
eli monta sataa
– YSAn maantieteelliset nimet eivät ole mukana YSOssa
• YSAn termien ontologisoinnin YSOksi tekivät/tekevät FinnONTOn
työntekijät
– v. 2006 KK:sta oli mukana kaksi henkilöä puolen vuoden ajan, Mirja
Anttila ja Eeva-Liisa Leppänen
• YSOssa tällä hetkellä n. 22 000 termiä (YSAssa n. 28 000 termiä)
YSO (2)
• kieli: suomi
• ruotsinkieliset vastineet
– poimittu Allärsistä
– ruotsinkielistä ontologiaa (Allso) on tehty lokakuun alusta 2009 lähtien, Allso
tulee ONKI-palvelimelle todennäköisesti syksyllä 2010 (?)
• englanninkieliset vastineet
– poimittu Helsingin kaupunginkirjaston luokituskaavion englanninkielisen
version hakemistosta
– vastineissa virheitä, koska luokituskaavion hakemiston käännöstyössä termejä
ei ole tarkistettu erikoisalojen sanastoista/sanakirjoista
– englanninkielisten vastineiden ontologista rakennetta ei ole tehty
YSO (3)
• YSOa käytetään myös rakenteellisena mallina ja
liittymäkohtana erikoisalojen ontologioihin, kuten
– AFO (Agriforestista tehty ontologia)
– VALO (Valokuva-alan ontologia)
– MAO (Museoalan ontologia)
• Osoite: http://www.yso.fi/onki3/fi/overview/yso
YSA
Tesaurus-rakenne
• KÄYTÄ = viittaus ohjaustermistä asiasanaan (VESA = asiasanaa
xxx ei käytetä)
• KT = korvaa termit
• LT = laajemmat termit
• ST = suppeammat termit
• RT = rinnakkaistermit
• Huomautus
• Lähde
• Ryhmäkoodi ( VESA = kuuluu ryhmiin)
• Kaikki termisuhteet ovat aina vastavuoroisia
YSA
leikkikalut
ST keinuhevoset
kiiltokuvat
legot
leijat
lennokit
liidokit
nuket
nukkekodit
paperinuket
pehmolelut
pienoisrautatiet
puulelut
rakennuspalikat
tinasotilaat
vesilelut
RT käsinuket
”asia”
muuttuva
abstrakti
pysyvä
paikka
prosessi
ajanjakso
fyysinen
objekti
tapahtuma
toiminto
ominaisuus
ilmiö
henkiset
tuotokset
fyysinen
kokonaisuus
YSOn kehikko
(Lähde: Katri Seppälä)
järjestelmä
YSOn kehikko
abstrakti
muuttuva
prosessit
tapahtumat
toiminta
pysyvä
ajanjakso
fyysinen kokonaisuus
fyysinen objekti
henkiset tuotokset
ilmiöt
järjestelmät
ominaisuudet
paikka
Pysyvä
ajanjakso
fyysinen kokonaisuus
fyysinen objekti
aine
konkreettinen eloton objekti
….
lavasteet
leikkikalut
legot
leikkikalut käyttöympäristön mukaan
leijat, lennokit, liidokit, vesilelut
leikkikalut materiaalin mukaan
kiiltokuvat, pehmolelut, puulelut, tinasotilaat
nuket
nukkekodit
….
letkut
liikennemerkit
…..
YSOn kehikko
ST-suhteet
• geneeriset suhteet (laji – alalaji)
– voimalat - lämmitysvoimalat
• partitiiviset suhteet (kokonaisuus – osa)
– kasvinosat – juuri, kukka jne.
– esitetään eri tavalla kuin geneeriset ST-suhteet
– näitä ei ole vielä tehty YSOon (eli ovat nyt tavallisia ST-suhteita)
YSA – YSO (1)
Sanojen väliset suhteet YSAssa
• YSAssa asiasanan ympärille rakennetaan tesaurus-suhteet
aikaisemmin YSAssa oleviin asiasanoihin
– kaikki YSAssa esiintyvät sanat ovat ”todellisia” asiasanoja
– monilla sanoilla ei ole hierarkkisia suhteita, vain assosiatiivisia
suhteita (RT-suhde)
– joillakin sanoilla ei ole mitään suhteita
– käsitejärjestelmäkokonaisuudet melko pieniä
YSA – YSO (2)
Sanojen väliset suhteet YSOssa
• YSOssa on valmis kehikko, johon kukin sana yritetään sijoittaa
mahdollisimman loogisesti
– ontologissa paljon hierarkian vaatimia ns. ”aputasosanoja”, jotka eivät
ole asiasanoja (käyttäjä ei voi erottaa ”todellisista asiasanoista”)
– käsitekehikko monimutkainen ja tarkka
– kaikilla sanoilla/termeillä on joku hierarkkinen suhde
– pitkiä hierarkioita
– monet käsitteet vaikea sijoittaa kehikkoon loogisesti (ongelmana
varsinkin ns. ”pehmeät tieteet” ja abstrakit käsitteet) -> kokonaisuus
on jo nyt epäjohdonmukainen, koska eri ihmiset laittavat toisiaan
vastaavia käsitteitä eri paikkoihin (esim. avioero, asumusero)
YSA – YSO (3)
Sanojen monimerkityksisyys YSAssa ja YSOssa
• YSAssa
– osaan sanoista liitetty lisämääre, esim.
• kurkku – vihannekset
• kurkku – ruumiinosat
– osaan sanoista liitetty selitys ja laitettu ryhmään 00 (esim. kaanonit)
• YSOssa pyritty ottamaan esille mahdollisimman paljon
monimerkityksisyyttä
– kuinka ”syvälle” polysemiaan kannattaa mennä?
•
•
•
•
•
kaanonit (koko)
kaanonit (kooste)
kaanonit (ohjeet)
kaanonit (sävellykset)
kaanonit (uskonnolliset tuotokset)
• YSOssa osa termeistä esitetty myös eri ”funktioissa” (esim. lapset)
• YSOssa ns. kooste-sanoja (termiä voi käyttää useilla aloilla/funktioissa)
YSA – YSO (4)
Maantieteelliset nimet YSAssa ja YSOssa
• YSAssa mukana n. 5000 paikannimeä (myös
luonnonmaantieteellisiä nimiä, kyliä ja kaupunginosien nimiä,
koti- ja ulkomaisia paikannimiä)
• YSOssa ei maantieteellisiä nimiä, maantieteelliset nimet
paikkaontologioissa
– SUO, SAPO; sisältävät vain suomalaisia paikannimiä
– SAPOssa (Suomen ajallinen paikkaontologia) ei ole mukana kyliä eikä
kaupunginosia
YSA – YSO (5)
Alanmukaiset ryhmät
• YSAssa voidaan selata alanmukaisia ryhmiä
• YSOssa ei voida selata alanmukaisia ryhmiä (ainakaan vielä)
Vapaa indeksointi
• YSAssa ohjeet vapaan indeksoinnin sanaryhmien yhteydessä
• YSOssa asia ratkaisematta
Selvitettävää: kysymyksiä (1)
• Miksi pitäisi siirtyä asiasanoista ontologioihin?
• Mitä todellista lisäarvoa ontologiat tuovat sisällönkuvailuun ja
tiedonhakuun? Kustannus-hyötyanalyysi!
– otettava huomioon, että jo pelkästään YSOn ylläpito vaatii enemmän
resursseja kuin YSAn
– ontologioilla indeksointi on todennäköisesti hitaampaa kuin perinteisillä
asiasanastoilla (huom. asiasanojen eri funktiot)
– tiedonhaun ongelmat
• Ontologiat luotu lähinnä koneymmärrettäväksi, soveltuvatko ne ihmisen
tulkittaviksi?
Selvitettävää: kysymyksiä (2)
• Ovatko ontologiat sisällöltään niin valmiita, että niitä voidaan
ryhtyä käyttämään?
• Maantieteelliset nimet:
– SUO ja SAPO (paikannimiontologiat) sisältävät vain suomalaisia
paikannimiä, entä ulkomaiset paikannimet (ja niiden suomennokset)?
– SAPOssa ei ole mukana kyliä eikä kaupunginosia
– ei ole olemassa sellaista paikannimiontologiaa, jossa olisi mukana
ulkomaisten paikannimien suomalaiset vastineet (huom. YSAssa on
jonkun verran mukana myös ulkomaisten paikannimien suomalaisia
nimiä)
Selvitettävää: kysymyksiä (3)
• Miten käytetään niitä asiasanoja, jotka eivät ole missään ontologioissa?
– esim. vapaan indeksoinnin sanat, numeeriset ajanmääreet
• Koska asiasanaa ei voi käyttää muussa kuin ontologian esittämässä
yhteydessä (sanojen merkitys sidottu tiukasti ko. sanan paikkaan
/hierarkiaan ontologiassa, ontologia on siis jäykempi kuin asiasanasto),
miten menetellään, jos ko. sanaa tarvitaankin ihan muissa yhteyksissä?
– > aina on otettava yhteys ontologian ylläpitäjään
• Onko kaikki kirjastotietokannoissa käytettävät asiasanastot
ontologisoitava?
– resurssit? Sisällöllinen ja tekninen ylläpito?
• Entä ulkomaisten asiasanastojen ja ontologioiden käyttö?
Selvitettävää: kysymyksiä (4)
• Jos ontologioita ryhdytään käyttämään asiasanoituksessa, pystytäänkö
aikaisemmat indeksoinnissa käytetyt asiasanat kytkemään ontologian
yhteyteen?
– Esim. ontologiassa sanoja eri merkityksissä, kuten
•
•
•
•
•
lapset (ikään liittyvä rooli)
lapset (kooste)
lapset (perheenjäsenet)
lapset (sosioekonomiseen ryhmään liittyvä rooli)
mihin näistä nyt jo tietokannoissa olevat asiasanat ”lapset” kytketään?
Koosteeseenko, mutta mitä hyötyä silloin on ontologiasta?
– Esim. ontologiassa asiasanat kytketty tiettyyn merkitykseen,
hierarkiaan. Tietokannassa on samaa asiasanaa voitu käyttää aivan eri
yhteyksissä kuin mitä ontologia tarjoaa
– Jos termin paikkaa (hierarkiaa) muutetaan ontologiassa, muuttuuko
URI? Ja jos muuttuu, mitä tapahtuu tietokantaan syötetyille ontologian
sanoille?
Selvitettävää: kysymyksiä (5)
• Onko teknisiä valmiuksia ryhtyä käyttämään ontologioita
sisällönkuvailussa ja tiedonhaussa?
– sekä YSA:n että YSO:n termeillä on URI:t , jotka mahdollistavat
poiminnan ja tiedonhaussa linkityksen YSAan ja YSOon
– URI = Uniform Resource Identifier (merkkijono, jolla kerrotaan tietyn
tiedon paikka (URL) tai yksikäsitteinen nimi (URN))
– poiminta onnistuu leijukkeen (widget) avulla suoraan järjestelmiin,
joissa on toimivat Web Services –rajapinnat (esim. yliopisto- ja
korkeakoulukirjastojen järjestelmässä Voyagerissa rajapintaa ei ole)
– miten käy ketjutusten?
Kansallinen ontologiakirjasto ONKI (1)
• http://www.yso.fi/onki3/
• ONKI-palvelu, ONKI-selain
• FinnONTO-projekti
– Semanttisen laskennan tutkimusryhmä (SeCO)
• ONKI-palvelusta tällä hetkellä koekäytössä jo kolmas versio, ONKIpalvelussa usein ongelmia (palvelu on hidas tai ei toimi ollenkaan)
– koska ONKIn toiminta on epäluotettavaa, VESA-käyttöliittymä tulee olemaan
käytettävissä vielä v. 2011
– palaute käyttöliittymästä
• [email protected]
• http://www.yso.fi/onki3/fi/overview/ysa (linkki ONKI-palvelun sivulta)
Kansallinen ontologiakirjasto ONKI (2)
• 57 sanastoa/asiasanastoa/ontologiaa
– asiasanastoja: YSA, Allärs, MUSA, CILLA, Kaunokki, MESA (Merenkulun
asiasanasto), Valtioneuvoston asiasanasto jne.
– sanasto-ontologioita mm.: KOKO, YSO, MUSO, AFO, KAUNO, MAO,
TAO, VALO (huom. Allärsin ontologiaversio Allso ei ole vielä ONKIpalvelussa)
Kansallinen ontologiakirjasto ONKI (3)
• vielä testausvaiheessa
– Huom. SECO-työryhmä tekee suuriakin muutoksia käyttöliittymään
neuvottelematta KK:n kanssa ja tiedottamatta niistä KK:lle…
• linkki uuteen käyttöliittymään löytyy VESAsta (YSAn ja
MUSA/CILLAn hakusivu)
• KK:n sanastoilla ei ole enää yhteistä ”sateenvarjoa” (VESAa)
• kukin sanasto on ”itsenäisenä” sanastonaan ONKI-palvelussa
• mukana URI-tunnukset
• päivittyy joka päivä (nykyinen VESA päivittyy vain kerran
viikossa)
Mitä FinnONTOn jälkeen (1)?
• ONKI-palvelinympäristön ylläpito?
– mikä taho tulee vastaamaan teknisestä ylläpidosta?
• Ryhtyvätkö kirjastot käyttämään ontologioita sisällönkuvailun
ja tiedonhaun apuvälineenä?
– kuka tekee päätökset? Tehdäänkö ennen päätöstä kustannushyötyanalyysi?
Mitä FinnONTOn jälkeen (2)?
• Jos kirjastot ryhtyvät käyttämään ontologioita, niin
huomattava, että
– YSO/Allso
• YSO/Allson ylläpito vie enemmän resursseja kuin YSA/Allärsin ylläpito
(ontologian kehikon monimutkaisuus ja tarkkuus, sanojen
monimerkityksisyys)
• englanninkielisen version ylläpito
– ontologioiden koordinointi
– erikoisontologiat
• esim. mikä taho ryhtyy tekemään esim. ontologiaa, jossa ovat ulkomaiset
paikannimet suomalaisine vastineineen
• konsortiomalli (ONKI-konsortio)?
– > vaatii ylläpito-organisaatioilta (ja varsinkin koordinoivalta
organisaatiolta) melko paljon resursseja
Osoitteita
• http://vesa.kansalliskirjasto.fi/ (pääsee sekä uuteen että vanhaan
käyttöliittymään)
• http://www.yso.fi/onki3/ (ONKI-palvelu)
• http://demo.seco.tkk.fi/onkipaikka/ (SUO = Suomalainen paikkaontologia)
• http://www.yso.fi/onki3/fi/overview/sapo (SAPO = Suomen ajallinen
paikkaontologia)
• http://www.yso.fi/onki3/fi/overview/koko (KOKO-ontologia)
• http://www.yso.fi/?l=fi
• http://www.yso.fi/lusto-demo.html (Kantapuu-museotietokanta,
hakudemo)
• http://wordnet.princeton.edu/ (WordNet)
• http://www.yso.fi/onkiwebservice/?o=ysa&l=fi (Web Service -rajapinta)

similar documents