LISP Miner a 4. úkol

Report
LISP Miner a 3. úkol
4IZ210 – Zpracování informací a
znalostí
Ing. D. Pejčoch
Osnova cvičení
•
Seznámení se zadáním 3. úkolu
•
Analýza nákupního košíku a asociační pravidla
•
Teoretické pozadí procedury ASSOC
•
Seznámení s nástrojem LISP Miner
•
Demonstrace funkcionality nástroje na vzorových datech
•
Detailní postup pro 3. úkol
Stručné zadání 3. úkolu
•
Seznámení se s nástrojem LISP Miner
•
Vyřešení analytické otázky zadané jednotlivým týmům
– Navázání datového zdroje
– Příprava dat
– Použití procedury ASSOC (Fundovaná implikace, Nadprůměrné souvisení)
– Nalezení rozumného počtu hypotéz (max 30 – 50)
– Interpretace hypotéz s využitím dodatečných znalostí
•
Vypracování analytické zprávy v systému Sewebar
•
Vypracování zprávy pro lékaře v systému Sewebar
Užitečné i nezbytné zdroje
•
Tutoriály na LISP Miner: http://lispminer.vse.cz/tutorial
•
LM_SKRIPT_11.pdf = RAUCH, J. Systém LISp-Miner: Stručný popis určený pro
posluchače kurzu Zpracování informací a znalostí. Praha: VŠE, 2011. = Popis
systému a procedury ASSOC
•
LMDataSource_0409.pdf = popis komponenty LM Data Source pro přípravu dat
•
Adamek_pro_KIZI_0411.pdf = RAUCH, J., TOMEČKOVÁ, M. Adámek – popis dat
(verse VI) = popis datového souboru použitého pro 3. úkol
•
Adamek_4IZ210_11_12_zima_ZADANI.pdf = podrobné zadání úlohy
•
4ft-Miner_Cedenty_1111.pdf = Procedura 4ft-Miner – zadání množiny
relevantních pravidel
•
Adamek_Data.zip = data k zadání
•
http://lispminer.vse.cz/tutorial/t6.html = export do SEWEBARu
Co je to analytická otázka?
•
klient(?) <=> kvalita(špatná) / typ(?) ... pro jaké parametry klienta a typy půjčky
platí, že příslušnost klienta k segmentu je téměř totéž jako mít špatnou půjčku
příslušného typu
•
klient(?) =>* kvalita(špatná)... pro jaké parametry klienta platí, že vedou ke špatné
půjčce
Asociační pravidla
•
Pojem asociační pravidlo zaveden Agrawalem
•
V metodě GUHA se používal pojem hypotéza
•
4ft = implementace procedury ASSOC metody GUHA automatického vytváření
hypotéz
•
Lisp Miner = nástroj vyvíjený na KIZI
Přehled základních pojmů
Kvantifikátor
vztahu
Antecedent
≈
Succedent
/
Cedenty
dílčí cedenty (atributy) spojené konjunkcí
literály (hodnoty atributů) spojené konjunkcí nebo disjunkcí
Condition
Příklad přidělení analytických otázek jednotlivým
týmům
Zdroj: Adamek_4IZ210_...pdf
8
Úkol číslo 4: DZD – skupiny atributů
Zdroj: Adamek_4IZ210_...pdf
9
Zdroj: Adamek_pro_KIZI_...pdf, tzn. popis dat
Zdroj: Adamek_pro_KIZI_...pdf, tzn. popis dat
LISP Miner - instalace
Stáhněte si z webu http://lispminer.vse.cz/download tyto soubory:
•
http://lispminer.vse.cz/files/exe/LM.4ft.zip = základní modul LM pro proc 4FT
•
http://lispminer.vse.cz/files/exe/LM.Sewebar.zip = modul pro Sewebar
•
http://lispminer.vse.cz/files/exe/ws.export.zip = webová služba pro export
•
http://lispminer.vse.cz/files/exe/Barbora.zip = Vzorová data o loanech
LISP Miner - instalace
LISP Miner – vytvoření datového zdroje pomocí
LMAdmin
Otevření nastavení úlohy s
možností přegenerování
hypotéz
Spuštění modulu
pro definici dat
Přidání nové
analýzy
Spuštění modulu pro
zobrazení výsledků (pro
označenou úlohu)
Vytvoření kategoriálního atributu – krok 1
Vytvoření kategoriálního atributu – krok 2
Primary Key nastaví
primární klíč!!!!!!
Bez něj do nepůjde
Vytvoření kategoriálního atributu – krok 3
Vytvoření numerického spojitého atributu
Tab. 3 Adamek_pro_KIZI_0310.pdf
Typy intervalů
•
Ekvidistantní intervaly = intervaly shodné délky
•
Ekvifrekvenční intervaly = intervaly se zhruba shodným počtem četností
Zdroj: Adamek_pro_KIZI_...pdf, tzn. popis dat
Pohled na vytvořené intervaly
Vytvoření skupin atributů pomocí Tree of atrib.
Vytvoření úlohy v 4ftTask
Určení Ant, Suc
• Rizikové faktory RFK/4 N
–
–
–
–
HLP = hyperlipoproteinemie
DM = diabetes mellitero
HT = hypertenze
RF = rodinná anamnéza - fatální
Suc ?
• Cholesterol CHL/4 R
–
–
–
–
Chol = Celkový cholesterol
HDL = HDL Cholesterol
LDL = LDL Cholesterol
Tgl = Triacyglyceroly
Ant ?
H: Jaké naměřené hodnoty CHL vedou k jednotlivým rizikovým faktorům
Definice anteceden
Coeficient type
Podmnožina
Jediná kategorie dané
proměnné v literálu
Klouzavý interval
Řezy
Nastavení základních parametrů Antecedentu
Doporučené nastavení cedentů
Zdroj: Adamek_4IZ210_...pdf
Definice Succedentu
Použití procedury ASSOC
Vysvětlení čtyřpolní tabulky
Suc
Non Suc
Ant
a
b
Non Ant
c
d
Spolehlivost pravidla = a / (a + b)
Podpora pravidla (Base) = a
Nastavení kvantifikátorů
Pohled na celkové nastavení úlo
Výsledky generování hypotéz
Zobrazení hypotéz
Zobrazení hypotéz
Zobrazení hypotéz exportovaných do schránky
Export do SEWEBAR
Export do SEWEBAR
Postřehy k realizaci úkolu
•
Je pravděpodobné, že úvodní požadované nastavení parametrů neumožní
vygenerování většího počtu hypotéz
•
Expertimentální snižování parametrů má svá úskalí:
– Nízká podpoora => spolehlivá pravidla, která nelze generalizovat (min = 20)
– Nízká spolehlivost => neprůkazná pravidla
– Snížování parametrů je nutné okomentovat
•
Teoretické pozadí procedury ASSOC
•
Seznámení s nástrojem LISP Miner
•
Demonstrace funkcionality nástroje na vzorových datech
•
Detailní postup pro 3. úkol

similar documents