Daudzvalodu korpusa un ma**ntulko*anas infrastrukt*ras

Report
Daudzvalodu korpusa un
mašīntulkošanas infrastruktūras
izveide e-pakalpojumu pieejamības
nodrošināšanai
Darbības koncepcijas apraksts
Projekta mērķi
• nodrošināt latviešu valodas ilgtspēju un attīstību
informācijas sabiedrībā;
• atvieglot Latvijas iedzīvotājiem un uzņēmējiem
pieeju ES dalībvalstu un institūciju informācijai;
• iekļauties ES daudzvalodu pakalpojumu
infrastruktūras attīstībā;
• nodrošināt e-Pārvaldes pakalpojumu pieejamību
visām iedzīvotāju grupām neatkarīgi no to
valodas zināšanām.
Esošā situācija
• nav pietiekama latviešu valodas ilgtspējīga
atbalsta informācijas sabiedrībā;
• ES dalībvalstu un institūciju informācija
pārsvarā pieejama “lielajās” valodās;
• Latvijas E-pakalpojumi un to apraksti ir
pieejami latviešu valodā;
• trešo pušu izstrādātie rīki ir ar būtiskiem
trūkumiem.
Kāpēc neder esošie mašīntulki
(Google Translate, Bing Translate, Tildes Tulkotājs utml.)
• nenodrošina tulkojamo materiālu konfidencialitāti;
• nenodrošina personas datu aizsardzību
ePārvaldes pakalpojumos tiek apstrādāti un atspoguļoti personas dati;
• E-Pārvaldes vajadzībām nepietiekoša tulkošanas kvalitāte
piem., Google Translate ir vispārīgs tulkotājs, kas nav pietiekoši kvalitatīvs
(latviešu-angļu BLEU tikai 33,2%) un nav adaptēts valsts pārvaldes
tekstiem;
• Google Translate un Bing Translator tulko caur angļu valodu
tā rezultātā latviešu-krievu tulkojums ir ļoti nekvalitatīvs, jo
summējas kļūdas, tulkojot vispirms uz angļu un tad uz krievu
valodu;
• publiskie tulkotāji bez maksas izmantojami tikai ļoti ierobežotā
veidā to tīmekļa vietnēs. Lai tos iekļautu citos risinājumos, kā
ePārvaldes pakalpojumi, tie jāiegādājas kā maksas pakalpojums.
MT sistēmu izveidei
• Statistisko MT sistēmu izveidei un
darbināšanai nepieciešams
– liela apjoma Paralēlais korpuss
– liela apjoma Monolingvālais korpuss
– rīki sistēmu trenēšanai
– rīki sistēmu darbināšanai
– valodas specifiski rīki, piemēram, morfoloģiskie
analizatori u.tml.
Projekta uzdevumi
• izveidot valodas korpusus;
• izveidot e-Pārvaldes mērķiem pielāgotu
mašīntulkošanas sistēmu angļu, latviešu un
krievu valodu tulkošanai:
Latviešu – Angļu
Latviešu – Krievu
Angļu – Latviešu
• izveidot servisa darbināšanai nepieciešamo
tehnisko infrastruktūru
Nr.
Process
1.
Valodu korpusa izveide
2.
3.
4.
5.
Mērķi
Izveidot
mašīntulkošanas
sistēmas
prasībām un projekta specifikai atbilstošu
monolingvālo un paralēlo valodu korpusu
(latviešu-angļu, latviešu-krievu)
jāizveido
bāzes
MT
serviss, Izveidot
atbilstošo
izmantojot
pieejamās
SMT programmnodrošinājumu un notestēt tā
platformas un jau pieejamos paralēlo darbību
un monolingvālo tekstu korpusus;
jāpielāgo SMT sistēmas konkrētiem Pielāgot
izveidoto
MT
servisu
valodu pāriem un e-pakalpojumu nepieciešamajai valodas specifikai
specifikai;
Rezultāti
Pietiekams
vārdu
teikumu
kopums
sistēmas attīstīšanai
un
MT
Izstrādāta un notestēta
programmatūra
Izveidotais risinājums spēj
nodrošināt
kvalitatīvu,
plānotajiem
teksta
korpusiem
piemērotu
tulkošanu.
jāizveido MT servisam nepieciešamā Panākt izvirzītajiem kvalitātes kritērijiem Iegādāta,
uzstādīta
infrastruktūra (gan programmatūras, (piem. ātrumiem, pieejamībai) atbilstošu (iedarbināta) un notestēta
gan aparatūras);
MT servisa darbību
MT
servisam
nepieciešamā
infrastruktūra
MT serviss jāieintegrē e-pakalpojumu Uzlabot e-pakalpojumu vidi un palaist MT
e-pakalpojums
ir
vidē.
darbībā MT servisu
integrēts
esošo
epakalpojumu vidē gan kā
autonoms serviss, gan
integrēts esošo/plānoto epakalpojumu
infrastruktūrā
Rīki statistisko MT sistēmu izstrādei un
darbināšanai
• MT izstrādi paredzēts balstīt uz atvērtā koda rīku
izmantošanu, piemēram, MOSES rīkkopu;
• MT atvērtā koda rīki sistēmai nepieciešamajām
veiktstpējas, stabilitātes un mērogojamības
prasībām;
• kvalitatīvas MT izveidei rīki īpaši jāpielāgo latviešu
valodai, konkrētajiem tulkošanas virzieniem un
ePārvaldes jomas specifikai;
• jāizveido saskarnes (API) integrācijas
nodrošināšanai ar citām sistēmām.
Integrēšana citos servisos
• tulkošanas servisa mājaslapa, kurā lietotāji var
tulkot tekstus;
• rīklogs (widget) integrēšanai ePārvaldes
pakalpojumu tīmekļa lapās;
• nepieciešams standartizēts interfeiss (API), lai
to var integrēt jebkurā citā ePārvaldes
pakalpojumā.
Risinājuma arhitektūra
e-pakalpojumu
lietotāji.
Valsts un pašvaldību
iestādes, uzņemumi,
privātpersonas u.c.
e-pakalpojumu
publiskās interneta
lapas
E-pakalpojumu servisi
Korpusi un MT trenēšana
MT rīklogs
latviešu
MT rīklogs
angļu
krievu
MT servisa API
Monolinguālie korpusi
pielāgojumi
MT servisa
interneta lapa
SMT sistēma
MT modeļi
MT sistēmu
trenēšana
Valodas specifiskie
rīki - morfoloģija
u.c.
angļulatviešu
latviešukrievu
Paralēlie korpusi
Projektā nepieciešamie korpusi un to apjoma
novērtējums
Korpuss
Joma
Korpusa tips
paralēlais
Sākuma apjoms
(milj. teikumu)
1,5
Bāzes apjoms
(milj. teikumu)
5
angļulatviešu
krievulatviešu
vispārēja
vispārēja
paralēlais
1,5
5
angļulatviešu
krievulatviešu
valsts
pārvalde
valsts
pārvalde
paralēlais
0,3
2
paralēlais
0,3
2
Angļu
vispārēja
monolingvālais
15
50
Latviešu
vispārēja
monolingvālais
25
75
Krievu
vispārēja
monolingvālais
25
75
Angļu
valsts
pārvalde
valsts
pārvalde
valsts
monolingvālais
5
15
monolingvālais
7
20
monolingvālais
7
20
Latviešu
Krievu
Latviešu valodas nacionālais korpuss
• veidos datorizētu latviešu rakstu valodas krājumu,
kas atspoguļos mūsdienu latviešu valodu un tās
vēsturisko attīstību;
• priekšnoteikums mašīntulkotāja izstrādei;
• nepieciešams latviešu valodas datortehnoloģiju
izstrādei, vārdnīcu izveidei, pētniecībai un
attīstībai;
• nacionālie korpusi jau izveidoti daudzām
valodām, piemēram, čehu, poļu, horvātu, ungāru,
krievu, slovēņu u.c.
Projekta sagaidāmie ieguvumi
• projekts nodrošinās e-pakalpojumu pieejamību visām
iedzīvotāju grupām neatkarīgi no to valodu zināšanām - gan
Latvijas iedzīvotājiem, gan nepilsoņiem, gan ārzemniekiem;
• projekts veicinās ārvalstu uzņēmēju, studentu, izglītības,
zinātnes un kultūras darbinieku piekļuvi informācijai par
Latviju, valsts pārvaldi un tās darbību;
• mašīntulkojums padarīs pasaulei pieejamas Latvijas
kultūras vērtības, padarot kultūras un atmiņas institūciju
digitālos krājumus pieejamus citās valodās;
• projekts nepieciešams latviešu valodas attīstībai un
nostiprināšanai mūsdienu pasaulē, kur valodas digitālais
nodrošinājums ir priekšnoteikums tās ilgtspējai;
• projekts ir veids, kā latviešu valodas pētniecībai un attīstībai
piesaistīt ES līdzekļus.
Projekta sagaidāmie ieguvumi
• mašīntulkojums palīdzēs ārvalstu uzņēmumiem veikt
uzņēmējdarbību un investīcijas Latvijā;
• projekts Latvijas iedzīvotājiem atvieglos pieeju citu ES valstu
informācijai, palīdzēs nodrošināt to tiesību aizsardzību, strādājot vai
mācoties citās ES dalībvalstīs;
• Latviešu-krievu mašīntulkošanas izmantošana elektroniskajos
informācijas resursos mazinās informatīvo telpu nošķirtību, kura
nodala to krieviski runājošo iedzīvotāju daļu, kas nepietiekoši
pārvalda latviešu valodu;
• projekts palīdzēs valsts pārvaldes darbiniekiem, kas nepietiekami
pārvalda krievu vai angļu valodu, tikt galā ar iedzīvotāju vēstulēm un
dokumentiem pat tad, ja tie iesniegti svešvalodā;
• projekts pavērs iespēju iekļauties ES digitālo pakalpojumu
infrastruktūrā un izmantot ES finansējumu tās tālākai uzturēšanai
un attīstībai.
Iekļaušanās CEF programmā
• Eiropas Komisija sagatavojusi jaunu digitālo pakalpojumu
finansēšanas modeli - Eiropas infrastruktūras savienošanas
instrumentu (CEF – Connecting Europe Facility) 2014.-2020.gadam;
• kopējais finansējums 50 miljardi EUR;
• ietver sadaļu par pieejas nodrošināšanu publiskā sektora
informācijai un daudzvalodu pakalpojumiem;
• vienotā infrastruktūrā tiks saslēgtas nacionālo valodu
mašīntulkošanas sistēmas un citi valodu tehnoloģiju pakalpojumi;
• mašīntulkošanas infrastruktūras izveide Latvijā sniegs iespēju
iekļauties ES digitālo pakalpojumu infrastruktūras pirmajā kārtā un
izmantot ES finansējumu tās tālākai uzturēšanai un attīstībai.
Plānotās izmaksas
Pozīcija
Infrastruktūras iegādes izmaksas
Apraksts
Tiks iegādāta projekta vajadzībām
atbilstoša IT infrastruktūra un
nodrošināta tās pilnvērtīga darbība
Valodu korpusa un MT sistēmas
izstrādes izmaksas
Summa, Ls ar PVN
50.000,00
Tiks izveidots projekta prasībām
atbilstošs valodu korpuss un
izstrādāta MT sistēma
E-pakalpojumu sistēmas
Tiks veiktas nepieciešamās
uzlabojumi un sistēmas
izmaiņas esošajos e-pakalpojumos,
lietojumrisinājumi (sīkrīks u.c.)
kā arī izstrādāti atbilstoši
risinājumi integrācijai valsts
pārvaldes mājaslapās
Konsultantu un ekspertu izmaksas Konsultantu un ekspertu piesaistes
izmaksas kvalitātes kontroles
nodrošināšanai (sistēmas izstrāde
gaitas kontrole, e-pakalpojumu
uzlabojumu veikšanas kontrole,
tehnisko specifikāciju izstrāde u.c.)
660.000,00
Kopā:
800.000,00
50.000,00
40.000,00
Paldies par uzmanību!

similar documents