DuomGavyba_5 - Šiaulių universitetas

Report
DUOMENŲ GAVYBA
Paskaita 5. Klasifikavimas
Kęstutis Žilinskas
Šiaulių universitetas, 2013
Klasifikavimas



Klasifikavimas – paprasčiausias ir
populiariausias DG uždavinys.
Klasifikavimas – sisteminis
tyrinėjamų objektų išskirstymas
pagal tam tikrus požymius.
Klasifikavimas – pradinių sąvokų
grupavimas ir jų išdėstymas tam
tikra tvarka, nusakančia panašumo
laipsnį.
Klasifikavimas

Klasifikavimas – sutvarkyta pagal
tam tikrą principą aibė objektų,
turinčių panašius kvalifikacinius
požymius (vieną ar keletą savybių),
parinktus panašumo arba
skirtingumo tarp objektų
nustatymui.
Klasifikavimo taisyklės




Kiekviename skirstymo žingsnyje
turi būti taikoma tik viena savybė;
Skirstymas turi būti visuotinis,
bendras tūris lygus skirstinių tūriui;
Skirstymo nariai tarpusavyje
nesuderinami, skirstymų tūriai turi
nesikirsti;
Skirstymas turi būti nuoseklus.
Klasifikavimo rūšys


Pagalbinis (dirbtinis) klasifikavimas,
vykdomas pagal išorinį požymį,
leidžiantis suteikti objektų aibei tam
tikrą tvarką;
Natūralusis klasifikavimas,
vykdomas pagal esminius
požymius, apibūdinančius objektų
vidinį bendrumą.
Klasifikavimo rūšys

Paprastoji – skirstymas tik pagal
požymį ir tik vieną kartą visoms
objektų rūšims.


Dichotomija (A ir ne A).
Sudėtingoji – skirstymas pagal kelis
požymius ir šių paprastųjų
skirstymų sintezė.

Periodinė cheminių elementų lentelė.
Klasifikavimas



Klasifikavimas – objekto (įvykio,
reiškinio) priskyrimas vienai iš anksto
žinomai klasei.
Klasifikavimas – dėsningumas,
leidžiantis daryti išvadą apie
konkrečios grupės (klasės) požymius.
Klasifikavimas – tai strategija
„mokymas su mokytoju“ (supervised
learning), kontroliuojamas arba
valdomas mokymas.
Klasifikavimo uždavinys

Kategoriškai priklausomo kintamojo
numatymas, remiantis tolydinių
ir/arba kategorinių kintamųjų
parinkimu.


Galima numatyti, kas iš firmos klientų
yra potencialūs tam tikros prekės
pirkėjai, o kas – ne.
Turime binarinį klasifikavimą, kai
priklausomas kintamasis gali turėti tik
dvi reikšmes.
Klasifikavimas

Kitas klasifikavimo variantas –
priklausomas kintamasis gali turėti
reikšmes iš tam tikros iš anksto
nustatytų klasių aibės.


Reikia nustatyti, kokios markės
automobilį klientas nori pirkti.
Nagrinėjama priklausomojo kintamojo
klasių aibė.
Klasifikavimo rūšys


Vienmatis klasifikavimas (pagal
vieną požymį).
Daugiamatis klasifikavimas (pagal
du ar daugiau požymių).

Biologinių organizmų klasifikavimas, kai
organizmai skirstomi į porūšius
priklausomai nuo jų fizinių parametrų
matavimo rezultatų.
Pavyzdys




Tegul turime turistinės agentūros
klientų duomenų bazę.
Joje yra informacija apie klientų
amžių ir mėnesines pajamas.
Turima dviejų rūšių reklama:
brangesnis ir komfortiškesnis poilsis
(1) bei pigus jaunatviškas poilsis
(2).
Apibrėžtos dvi atitinkamos klientų
klasės.
Duomenų bazė
Lentelė 1. Turizmo agentūros klientai
Kliento
kodas
Amžius
Pajamos
Klasė
1
18
25
1
2
22
100
1
3
30
70
1
4
32
120
1
5
24
15
2
6
25
22
1
7
32
50
2
8
19
45
2
9
22
75
1
10
40
90
2
Užduotis

Nustatyti, kuriai klasei priklauso
naujas klientas ir kurios rūšies
reklamą jam verta siųsti.
Grafinis duomenų vaizdas

Oranžinė spalva – 1 klasė, pilka – 2.
Uždavinio tikslas – nustatyti, kuriai klasei
priklauso naujas klientas (balta spalva).
Klasifikavimo procesas


Klasifikavimo proceso tikslas –
sukurti modelį, kuris ima
prognozuojamus atributus kaip
įeinančiuosius parametrus ir gauna
priklausomo atributo reikšmę.
Klasifikavimo proceso esmė –
suskaidyti objektų aibę į klases
pagal tam tikrą kriterijų.


Klasifikatorius leidžia nustatyti
pagal objekto požymių vektorių
kuriai iš anksto apibrėžtai klasei
priklauso šis objektas.
Klasifikuojant matematiniais
metodais reikia turėti formalųjį
objekto aprašymą, kuriuo galima
operuoti panaudojant klasifikavimo
matematinį aparatą.



Mūsų atveju toks aprašas –
duomenų bazė.
Kiekvieno objekto (duomenų bazės
įrašo) kiekviename lauke –
informacija apie tam tikrą objekto
savybę.
Pradiniai duomenys (arba jų imtis)
skaidomi į apmokančiuosius ir
testinius.
Apmokančioji aibė



Apmokančioji aibė (training set) –
aibė, apimanti duomenis, kurių
pagalba apmokomas
(konstruojamas) modelis.
Aibę sudaro įeinantieji ir išeinantieji
(tikslo) parametrai.
Išeinantieji parametrai (jų
reikšmės) skirti modelio
apmokymui.
Testinė aibė



Testinė aibė (test set) – duomenys,
nepatekę į apmokamąją aibę.
Ją taip pat sudaro įeinantieji ir
išeinantieji parametrai.
Išeinančiųjų parametrų reikšmės
leidžia patikrinti modelio
veiksmingumą.
Klasifikavimo procesas

Klasifikavimo procesą sudaro du
etapai:

Modelio konstravimas;

Modelio panaudojimas.
Modelio konstravimas
- iš anksto apibrėžtų klasių
aprašymas:



Kiekvienas duomenų rinkinio pavyzdys
priskiriamas vienai iš klasių;
Šiame etape apmokančioje aibėje
konstruojamas modelis;
Gautas modelis pateikiamas
klasifikavimo taisyklėmis, sprendimų
medžiu arba matematine formule.
Modelio naudojimas
- naujų arba nežinomų reikšmių
klasifikavimas:
 Modelio teisingumo (tikslumo)
įvertinimas.
Žinomos testinio pavyzdžio reikšmės
palyginamos su gauto modelio
panaudojimo rezultatais.
 Tikslumo lygis – teisingai klasifikuotų
testinės aibės pavyzdžių procentas.
 Testinė aibė negali priklausyti nuo
apmokamosios aibės.


Jei modelio tikslumas priimtinas,
modelį galima naudoti naujų
pavyzdžių, kurių klasė
nežinoma, klasifikavime.
Modelio konstravimas
Modelio panaudojimas
Klasifikavimo metodai








K. sprendimų medžiais.
Bajeso (naivusis) K.
K. dirbtiniais neuroniniais tinklais.
K. atraminiais vektoriais.
Tiesinė regresija.
K. artimiausio kaimyno metodu.
K. CBR-metodu.
K. genetiniais algoritmais.
Klasifikavimas tiesine regresija
Klasifikavimas sprendimu medžiu
if X > 5 then grey
else if Y > 3 then orange
else if X > 2 then grey
else orange
Klasifikavimas neuroniniu tinklu
Klasifikavimo tikslumas




Klasifikavimo tikslumo įvertinimas
galimas kryžminiu patikrinimu
(Cross-validation).
Tai kvalifikavimo patikrinimas
testinės aibės duomenimis.
Testinės aibės klasifikavimo tikslumas
palyginamas su apmokančiosios aibės
klasifikavimo tikslumu.
Jei abu tikslumai beveik lygūs,
modelis praėjo kryžminį patikrinimą.

Duomenų skaidymas į
apmokančiąją ir testinę aibes tam
tikra proporcija.


Pvz.: apmokančioji aibė 2/3 duomenų,
testinė – 1/3.
Jei imtis maža, galima taikyti
specialius metodus, leidžiančius
šioms aibėms dalinai kirstis.
Klasifikavimo metodų įvertinimas

Metodus galima įvertinti pagal šias
charakteristikas:





Greitis;
Robastiškumas;
Interpretuojamumas;
Apimtis.
Patikimumas.
Greitis

Laikas reikalingas modelio
sukūrimui bei jo panaudojimui.
Robastiškumas


Nepriklausomumas nuo kokių nors
pradinių prielaidų netikslumų.
Užtikrina galimybę dirbti su
duomenimis „su triukšmu“ bei
praleistomis duomenų reikšmėmis.
Interpretuojamumas

Įgalina analitiką suprasti gautą
modelį.
Apimtis


Sprendimų medžio dydis.
Klasifikavimo taisyklių
kompoktiškumas.
Patikimumas

Metodais veikia, jei duomenų
rinkinyje yra triukšmai ar
netikslumai.

similar documents