Enterprise search

Report
ENTERPRISE SEARCH
Toteutustekniikka
Mikko Uusitalo
Tampereen ammattikorkeakoulu
Sisältö
• Enterprise search
• Google Search Appliance
• Ylläpito
• Integrointi
• Ongelmia ja ratkaisuja
2 / 12
Enterprise search
• Yksi hakupalvelu yhdistää useat tietolähteet
 Yhtenäinen hakukokemus
• Ei ole rajoittunut pelkästään julkisiin www-sivuihin
 Esimerkiksi henkilöhaku LDAP-hakemistosta mahdollinen
• Pääsynhallinta
 Näytetään vain ne dokumentit, joihin käyttäjällä on käyttöoikeus
• Haun tarkennus ja rajaus (dynaaminen navigointi)
 Epäoleelliset hakutulokset suodattuvat pois käyttäjän valintojen
mukaan
3 / 12
Google Search Appliance (GSA)
• Oma Google-hakupalvelin
 Googlen hakuosaaminen käytettävissä
• Crawling, Indexing, Serving, Administration
• Lisenssi määrittää, montako dokumenttia indeksiin
mahtuu
 Yksi URL = yksi dokumentti, vaikka sivu olisi sama. Uuden
järjestelmän indeksointia kannattaa seurata, ettei lisenssi tule
vahingossa täyteen esimerkiksi HTTP GET -parametrien takia.
4 / 12
Google Search Appliance (GSA)
• Googlen tuki nopeaa ja asiantuntevaa
 Koodimuutos ohjelmistobugin korjaamiseksi saatiin kymmenessä
tunnissa
• Tuki ottaa laitteeseen yhteyden SSH:lla tukipyyntöjä
selvittääkseen
• Apua ostettavissa Solita Oy:ltä, ainoa Enterprise Search
-partneri Suomessa
5 / 12
Crawl
• Yksinkertaisimmillaan jonkin järjestelmän ”crawlaus”
aloitetaan kertomalla sen osoite GSA:lle
• Muiden kuin www-sivujen läpikäyntiin käytetään
connector-lisäosia
 Saatavilla ilmaiseksi, ostettavissa ja koodattavissa (Java)
• Pääsynhallinta vaatii muutoksia kohdejärjestelmään ja/tai
järjestelmään kirjautumisen opettamista GSA:lle
 Määritellään miten GSA pääsee kohdejärjestelmään
 Määritellään käyttäjän käyttöoikeuksien tarkistus
 Helppo huomioida uuden järjestelmän toteutusvaiheessa
6 / 12
Index
• Dokumentteja voidaan myös viedä indeksiin XML-syötteenä
 Dokumentit joihin ei ole viittauksia muualla
 GSA:n ei tarvitse päästä kohdejärjestelmään
• Indeksoitavat dokumentit jaetaan kokoelmiin (collection),
jolloin esimerkiksi intranetin ja julkisen www-sivuston
hakusisältö voidaan erottaa toisistaan
• Kattavasti tilatietoa ja lokeja laitteen toiminnasta
7 / 12
Serving
• Integrointi kannattaa toteuttaa yhteistyössä indeksoitavan
järjestelmän toimittajan kanssa
• Hakulause lähetetään GSA:lle HTTP GET -pyyntönä,
johon saadaan haluttaessa vastaus myös XML:nä
• Haku- ja tulossivun ulkoasua voi muokata XSLT-
tyylitiedostolla
8 / 12
Serving
• Käyttäjän käyttöoikeuksien tarkistukseen useita
vaihtoehtoja
• Perus HTTP-kirjautuminen
• Cookie cracking
• Kerberos
• SAML
• X.509-käyttäjävarmenne
• Connector
9 / 12
Cookie cracking
10 / 12
Ongelmia ja ratkaisuja
• GSA:n sisäänrakennettu LDAP connector kaatui, koska
se ei saanut LDAP-palvelimelta dataa riittävän nopeasti
 Otettiin käyttöön ulkoinen connector-palvelin
• Palaute hakukokemuksesta ollut pääosin hyvää
 Opetetaan GSA:lle vielä etsityimpien hakutermien synonyymit
(esim. kurssipalaute = opintojaksopalaute)
11 / 12
Kiitos!
12 / 12

similar documents