DuomGavyba_3 - Šiaulių universitetas

Report
DUOMENŲ GAVYBA
Paskaita 3. Duomenų gavybos etapai ir
metodai
Kęstutis Žilinskas
Šiaulių universitetas, 2013
Pagrindinė duomenų gavybos
ypatybė


Plataus matematinio aparato (nuo
klasikinės statistinės analizės iki
naujausių kibernetinių metodų) ir
paskutinių informacinių technologijų
pasiekimų derinimas.
Duomenų gavybos technologijoje
harmoningai derinami griežtai
formalūs metodai ir neformaliosios
analizės metodai, kiekybinė ir
kokybinė duomenų analizė.
Duomenų gavybos metodai ir
algoritmai







Dirbtiniai neuroniniai tinklai.
Sprendimų medžiai.
Simbolinės taisyklės.
Artimiausio kaimyno ir k-artimiausio
kaimyno metodai.
Atraminių vektorių metodas.
Bajeso tinklai.
Tiesinė regresija.
Duomenų gavybos metodai ir
algoritmai







Koreliacinė-regresinė analizė.
Klasterinės analizės metodai.
Asociatyvių taisyklių paieškos
metodai.
Evoliucinis programavimas.
Genetiniai algoritmai.
Vizualizavimo metodai.
...
Metodas ir algoritmas


Metodas – norma arba taisyklė,
nustatytas kelias arba būdas,
teorinės, praktinės, pažintinės arba
valdymo užduoties sprendimo
būdas.
Algoritmas – tikslus nuoseklių
veiksmų arba žingsnių aprašymas,
pertvarkantis pradinius duomenis į
ieškomą rezultatą.
Duomenų gavybos etapai
1.
2.
3.
Dėsningumų išsiaiškinimas bei
validavimas arba tikroviškumo
patikrinimas (laisvoji paieška).
Rast dėsningumų pritaikymas
nežinomų reikšmių numatymui
(prognostinis modeliavimas).
Anomalijų dėsningumuose
išaiškinimas ir paaiškinimas
(išimčių analizė).
Laisvoji paieška (Discovery)



Vykdomas duomenų rinkinio
tyrimas siekiant rasti paslėptus
dėsningumus.
Išankstinės hipotezės apie
dėsningumus nekuriamos.
Dėsningumas (law) – esminis ir
pastoviai pasikartojantis ryšys,
nusakantis proceso etapus ir
formas, įvairių reikškinių ar procesų
vyksmą.
Laisvoji paieška


Duomenų gavybos sistema šiame
etape nustato šablonus.
Laisvosios paieškos veiksmai:



Sąlyginės logikos dėsningumų
išaiškinimas (conditional logic);
Asociatyvios logikos dėsningumų
išaiškinimas (associations & affinities);
Trendų ir svyravimų išaiškinimas
(trends & variations).
Pavyzdys


Tegul turime įdarbinimo agentūros
duomenų bazę su duomenimis apie
profesiją, stažą, amžių ir geidžiamą
atlygį.
Analitikas savarankiškų užklausų
pagalba gali gauti tokį apytikslį
rezultatą:

25-35 m. amžiaus specialisto vidutinis
pageidaujamas atlygis 2400 Lt.
Pavyzdys


Laisvosios paieškos etape DG
sistema pati ieško dėsningumų,
tereikia nurodyti tikslą – kintamąjį.
Paieškos rezultatas – suformuotas
loginių taisyklių „jei ..., tai ...“
rinkinys.
Pavyzdys

Gali būti rasti tokie dėsningumai:



Jei amžius < 20 m. ir geidžiamas
atlygis > 1400 Lt, tai 75% atvejų
žmogus ieško programuotojo darbo.
Jei amžius > 35 m. ir geidžiamas
atlygis > 2400 Lt, tai 90% atvejų
žmogus ieško vadovaujančio darbo.
Užduodant kitą paieškos kintamąjį
gautume:

Jei žmogus ieško vadovaujančio darbo
ir jo stažas > 15 m., tai 65% atvejų jo
amžius > 35 m.
Laisvoji paieška

Paieškos veiksmai vykdomi:



Indukuojant sąlyginės logikos taisykles
(klasifikavimo ir klasterizavimo
uždaviniai – artimų ar panašių objektų
grupių aprašymas);
Indukuojant asociatyvios logikos
taisykles (asociacijos ir nuoseklumo
uždaviniai – atitinkamos informacijos
radimas);
Trendų ir svyravimų nustatymas
(prognozavimo uždavinio pradinis
etapas).
Laisvoji paieška


Čia turi būti vykdoma ir dėsningumų
validacija – dėsningumų
tikroviškumo patikrinimas su tais
duomenimis, kurie nebuvo imtyje,
t.y. nedalyvavo dėsningumo
formavime.
Duomenų išskyrimas į
apmokomuosius ir tikrinamuosius
dažnai naudojamas neuroniniuose
tinkluose ir sprendimų medžiuose.
Prognostinis modeliavimas
(Predective Modeling)


Laisvosios paieškos etape gauti
dėsningumai naudojami
prognozavimui.
Prognostinio modeliavimo veiksmai:



Nežinomų reiškinių numatymas
(outcome prediction);
Procesų vyksmo prognozavimas
(forecasting).
Prognostiniame modeliavime
sprendžiami klasifikavimo ir
prognozavimo uždaviniai.
Klasifikavimo uždaviniai

Pirmojo etapo rezultatai (indukuotos
taisyklės) taikomi naujo objekto
priskyrimui su tam tikru
patikimumu kuriai nors žinomai
klasei žinomų reikšmių pagrindu.
Prognozavimo uždaviniai

Pirmojo etapo rezultatai (nustatyti
trendai ir svyravimai) taikomi
ieškomo kintamojo (kintamųjų)
nežinomų (praleistų arba būsimų)
reikšmių numatymui.
Pavyzdžio tęsinys


Žinant, kad žmogus ieško
vadovaujančio darbo ir jo stažas
>15 m., tai su 65% tikimybe galima
tikėtis, kad jo amžius > 35 m.
Jei žmogaus amžius > 35 m. ir
geidžiamas atlygis > 2400 Lt, tai su
90% tikimybe galima tikėtis, kad jis
ieško vadovaujančio darbo.
Laisvosios paieškos ir prognostinio
modeliavimo palyginimas




Laisvoji paieška atranda
bendruosius dėsningumus.
Ji logikos požiūriu induktyvi.
Dėsningumai formuojami nuo
atskirojo prie bendrojo.
Rezultatas – gaunamas bendras
žinojimas apie objektų klasę,
pagrįstas klasės objektų dalies
tyrimu.
Laisvosios paieškos ir prognostinio
modeliavimo palyginimas

Taisyklė:


Jei amžius < 20 m. ir geidžiamas
atlygis > 1400 Lt, tai 75% atvejų
žmogus ieško programuotojo darbo.
Atskirojo pagrindu, t.y. informacijos
apie kai kurias klasės savybes
„amžius < 20 m.“ ir „geidžiamas
atlygis > 1400 Lt“ pagrindu,
darome bendrąją išvadą, „ žmogus
ieško programuotojo darbo“.
Laisvosios paieškos ir prognostinio
modeliavimo palyginimas



Prognostinis modeliavimas –
deduktyvus.
Gauti dėsningumai formuojami nuo
bendrojo prie atskirojo ir vienetinio.
Čia gaunamos naujos žinios apie
objektą arba objektų grupę, nes
žinomos:


Klasės, kurioms priklauso tiriami
objektai;
Bendrosios taisyklės, veikiančios šioje
objektų klasėje.
Laisvosios paieškos ir prognostinio
modeliavimo palyginimas


Žinome, kad jei žmogus ieško
vadovaujančio darbo ir jo stažas >
15 m., tai su 65% tikimybe jam >
35 m.
Bendrųjų taisyklių („tikslas –
vadovaujantis darbas“ ir „stažas >
15 m.“) pagrindu darome atskirąją
išvadą (apie vienetinį objektą) –
„amžius – 35 m.“.
Išimčių analizė (forensic analysis)



Šiame etape analizuojamos išimtys
arba anomalijos, išryškėjusios
rastuose dėsningumuose.
Išimčių analizės veiksmas –
nukrypimų išaiškinimas (deviation
detection).
Tikslas – būtina nustatyti
dėsningumų, rastų laisvojoje
paieškoje, normą.
Pavyzdžio tęsinys

Rasta taisyklė:



Jei žmogaus amžius > 35 m. ir geidžiamas
atlygis > 2400 Lt, tai su 90% tikimybe
galima tikėtis, kad jis ieško vadovaujančio
darbo.
Klausimas – kaip elgtis su 10% likusių
atvejų?
Galimi du variantai:


Egzistuoja loginis paaiškinimas, kurį galima
suformuoti taisyklės pavidalu;
Tai pradinių duomenų klaida. Šiuo atveju
reikalingas duomenų valymas.
Duomenų gavybos metodų
klasifikavimas

DG metodus galima skirstyti pagal
darbo su pradiniais duomenimis
principą (duomenys išsaugojami
arba distiliuojami prieš naudojimą):


Tiesioginis duomenų naudojimas arba
duomenų išsaugojimas;
Formalizuotų dėsningumų išaiškinimas
ir panaudojimas arba šablonų
distiliavimas
Tiesioginis duomenų naudojimas
arba duomenų išsaugojimas



Duomenys saugomi detaliu pavidalu
ir tiesiogiai naudojami prognostinio
modeliavimo ir/arba išimčių
analizėje.
Šių metodų problema – labai didelių
duomenų bazių analizės
sudėtingumas.
Metodai:

Klasterinė analizė, artimiausio kaimyno
ir k-artimiausio kaimyno metodai,
analogijos metodai.
Formalizuotų dėsningumų išaiškinimas
ir panaudojimas arba šablonų
distiliavimas



Šioje technologijoje iš pradinių
duomenų ištraukiamas vienas
informacijos šablonas ir
pertvarkomas į tam tikras formalias
konstrukcijas, kurių pobūdis
priklauso nuo metodo.
Šis procesas vykdomas laisvosios
paieškos etape.
Kituose etapuose naudojami
rezultatai kompaktiškesni už pačias
duomenų bazes.
Formalizuotų dėsningumų išaiškinimas
ir panaudojimas arba šablonų
distiliavimas

Naudojami metodai:




Loginiai metodai;
Vizualizavimo metodai;
„Kros-tabuliacijos“ metodai;
Metodai, besiremiantys lygtimis.
Loginiai arba loginės indukcijos
metodai




Užklausos ir jų analizės.
Simbolinės taisyklės.
Sprendimų medžiai.
Genetiniai algoritmai.
„Kros-tabuliacijos“ metodai




Agentai.
Bajeso tinklai.
Kros-tabuliacinė vizualizacija.
Šie metodai lengviausiai
interpretuojami – rasti dėsningumai
pateikiami labai akivaizdžia forma.
Metodai paremti matematinėmis
lygtimis

Statistiniai metodai:





Koreliacinė-regresinė analizė;
Dinamikos sekų koreliacija;
Dinaminių sekų tendencijų tyrimas;
Harmoninė analizė.
Neuroniniai tinklai.

DG metodai gali būti skirstomi ir
skirtingų matematinių modelių
apmokymo būdų pagrindu:


Statistiniai metodai;
Kibernetiniai metodai.
Statistiniai metodai




Duomenų analizė ir aprašymas.
Ryšių analizė (koreliacinė,
regresinė, faktorinė, dispersinė
analizės).
Daugiamatė statistinė analizė
(komponentinė, diskriminantinė,
daugiamatė regresinė analizės).
Laiko sekų analizė (dinaminiai
modeliai ir prognozavimas).
Kibernetiniai metodai




Dirbtiniai neuroniniai tinklai
(atpažinimas, klasterizavimas,
prognozė).
Evoliucinis programavimas
(argumentų grupinės įtakos metodo
algoritmai).
Genetiniai algoritmai
(optimizavimas).
Neryškioji (nedvimatė) logika.
Kibernetiniai metodai



Asociatyvi atmintis (analogų,
prototipų paieška).
Sprendimų medžiai.
Ekspertinių žinių apdorojimo
sistemos.

DG metodus galima skirstyti pagal
DG uždavinius:



Segmentavimo metodai
(klasterizavimas, klasifikavimas),
Prognozavimo metodai.
arba


Aprašomųjų rezultatų gavimo metodai
(šablonų radimas),
Prognozuojančiųjų rezultatų gavimo
metodai.

similar documents