Πρόγνωση με Νευρωνικά δίκτυα

Report
Σύγχρονα συστήματα
προβλέψεων και μοντελοποίησης
Δημήτρης Λέκκας
Τμήμα Στατιστικής και Αναλογιστικών
Χρηματοοικονομικών Μαθηματικών
Περιγραφή




Πρόγνωση
Μέθοδοι
Πρόγνωση με Συναρτήσεις Μεταφοράς
Πρόγνωση με Τεχνητά Νευρωνικά δίκτυα
(ΤΝΔ)


Artificial Neural Networks (ANN)
Διόρθωση πρόγνωσης
2
Γιατί να κάνουμε πρόγνωση με
ΤΝΔ?
Pattern or Noise?
Δεδομένα επιβατών αεροπορικής
εταιρίας
 Εποχικότητα, Τάση
 Πολλαπλασιαστική επίδραση της
εποχικότητας Ή προσθετική
επίδραση της εποχικότητας

Πωλήσεις νωπών προϊόντων σε
supermarket
 Εποχικότητα, Παλμοί, Θόρυβος
 Άγνωστο μοντέλο

3
Γιατί να κάνουμε πρόγνωση με
ΤΝΔ?
Pattern or Noise?

TAR(p) Threshold Autoregressive
model
yt  0,9 yt 1   t
 0,3 yt 1   t
for yt 1  1
for yt 1  1

Random Walk model
yt  yt 1   t
4
Γιατί Τεχνητά Νευρωνικά Δίκτυα?
– μη γραμμικότητα



Διαθέσιμα δεδομένα – άγνωστες διεργασίες
Πολλές εξαρτημένες σχέσεις στο χώρο των
επιχειρήσεων και της αγοράς είναι μη-γραμμικές
ΤΝΔ μπορούν να προσεγγίσουν οποιαδήποτε
γραμμική και μη-γραμμική σχέση με ακρίβεια




Μπορούν να μάθουν (learn)
Μπορούν να προεκτείνουν (extrapolate)  generalisation
(ικανότητα γενίκευσης)
Μπορούν να εξάγουν πληροφορία από τα δεδομένα
Ευέλικτα εργαλεία για προσομοίωση και πρόγνωση
5
“An ANN is a nonlinear mathematical structure which is capable of
representing arbitrary complex nonlinear processes that relate the
inputs and the outputs of any system” (Hsu et al., 1995).
Ανήκουν στην ομάδα των data-driven μεθόδων όπως
τα μοντέλα Συνάρτησης Μεταφοράς, σε αντίθεση με τις
μεθόδους που βασίζονται στην περιγραφή των
διεργασιών / σχέσεων (process-driven).
Ένα ΤΝΔ μπορεί να παράγει μελλοντικές τιμές μιας
χρονοσειράς με πολλές μεταβλητές που πιθανόν
περιέχει θόρυβο, βασισμένο σε παλιότερες
παρατηρήσεις.
6
Γιατί Τεχνητά Νευρωνικά Δίκτυα?
– ευέλικτη μοντελοποίηση

Άγνωστες διεργασίες που περιγράφονται από τα
δεδομένα – απαιτούν την δημιουργία υποψήφιων
μοντέλων

Ευελιξία στις μεταβλητές εισόδου – κωδικοποίησης






Δυαδικό - Binary scale [0;1], [-1;1]
Δεκαδικό - Nominal/ordinal scale (0,1,2,…,10)
Μετρικό - Metric scale (0,235 7,75 10220303,0 …)
Ευελιξία στις μεταβλητές εξόδου
Αριθμός μεταβλητών εισόδου
Αριθμός μεταβλητών εξόδου
7
Γιατί Τεχνητά Νευρωνικά Δίκτυα?
– ευέλικτη μοντελοποίηση

Μια αρχιτεκτονική δικτύου  πολλές εφαρμογές
8
Εφαρμογή των ΤΝΔ σε διαφορετικά
πεδία έρευνας και εφαρμογής
2500+ επιστημονικές δημοσιεύσεις σε πρόγνωση με ΤΝΔ

Νευροφυσιολογία – προσομοίωση και ανάλυση λειτουργίας εγκεφάλου

Πληροφορική




Μηχανική





email & URL filtering
VirusScan (Symmantec Norton Antivirus)
Speech recognition & Optical Character Recognition
Έλεγχος και διαχείριση συστημάτων
Αυτόματη αναγνώριση στόχου
Ανίχνευση εκρηκτικών σε αεροδρόμια
Εκκίνηση και προσγείωση αεροπλάνων και πυραύλων (NASA)
Κλήμα και καιρικά φαινόμενα


Πρόγνωση βροχόπτωσης
Επιδράσεις φαινομένων όπως ElNino
9
Εφαρμογή των ΤΝΔ σε διαφορετικά
πεδία έρευνας και εφαρμογής

Επιχειρήσεις





Έλεγχος και ανίχνευση
απάτης με πιστωτικές κάρτες
Μέθοδοι προσομοίωσης και
πρόγνωσης
Παραγωγή ηλεκτρικής
ενέργειας / ζήτηση
Πωλήσεις
Οικονομικός τομέας

Προγνώσεις μετοχών,
δεικτών κλπ.
10
Τι είναι τα Τεχνητά Νευρωνικά
Δίκτυα?

Τεχνητά Νευρωνικά Δίκτυα


Μια μηχανή που έχει σχεδιαστεί για να προσομοιώσει τον τρόπο
που λειτουργεί το ανθρώπινο μυαλό - το δίκτυο ‘περιγράφεται’
σε κώδικα για να λειτουργεί σε Η/Υ.
Μια τάξη στατιστικών μεθόδων για την διαχείριση πληροφορίας
που αποτελείται από έναν αριθμό (μεγάλο?) απλών δομών
(νευρώνια - neurons) που ανταλλάσσουν πληροφορίες μέσω
οργανωμένων συνδέσεων.
Είσοδος
•Παρατηρήσεις χρονοσειρών
•Μεταβλητές
•Δεδομένα εικόνας (pixel/bits)
•Δακτυλικά αποτυπώματα
•Χημικές αναλύσεις
•...
Διεργασία
Black Box
Έξοδος
•Πρόγνωση χρονοσειρών
•Εξαρτημένες μεταβλητές
•Ομαδοποίηση
•Πιθανότητες
•Κύριο συστατικό
•...
11
Παράδειγμα
12
Τεχνητά Νευρωνικά Δίκτυα (Τ.Ν.Δ.)
Υπολογιστικό σύστημα που εκτελεί ορισμένες
χαρακτηριστικές λειτουργίες.

Τι είναι τα Τ.Ν.Δ.

Δομή
Νευρώνες / Στρώματα / Σύνδεση

Εκπαίδευση Τ.Ν.Δ.
Ενδυνάμωση / αποδυνάμωση βαρών μέχρι να
λάβουν κατάλληλες τιμές

Εφαρμογές Τ.Ν.Δ.
Στρατηγική ασφαλίσεων
Τραπεζικό σύστημα και οικονομία
Πρόβλεψη Οικονομικών Μεγεθών
Εκμετάλλευση πετρελαίου και παραγώγων του
13
Δομή Τεχνητών Νευρωνικών Δικτύων
ΤΕΧΝΗΤΟΣ ΝΕΥΡΩΝΑΣ
• Βάρη
• Αθροιστής
Σ
• Συναρτήσεις μεταφοράς
ΔΟΜΗ ΔΙΚΤΥΟΥ
Σχηματική Αναπαράσταση ενός Τεχνητού Νευρώνα
• Αριθμός Στρωμάτων
• Συναρτήσεις μεταφοράς
• Πλήθος Νευρώνων
• Είδος σύνδεσης
Παράδειγμα δομής ενός Τεχνητού Νευρωνικού Δικτύου14
Νευρώνια - Απλές δομές
Κάθε νευρώνιο δέχεται ένα άθροισμα από εισόδους (με διαφορετικά
βάρη) – έξοδος από νευρώνια της προηγούμενης στοιβάδας (layer).
Το εισερχόμενο σήμα προωθείται (propagates) μέσω μια μη-γραμμικής
συνάρτησης ενεργοποίησης (activation function) στα νευρώνια της
επόμενης στοιβάδας.
Το κάθε νευρώνιο έχει διπλό ρόλο:


Α) ενοποίηση της πληροφορίας που προέρχεται από εξωτερικές
πηγές ή νευρώνια (συνήθως μέσω μιας γραμμικής συνάρτησης)
Β) παραγωγή του σήματος εξόδου βάση μιας προκαθορισμένης
συνάρτησης ενεργοποίησης (sigmoid, linear, the cubic polynomial
κλπ)
Η μετατροπή αυτή των εισόδων σε εξόδους σε ένα νευρώνιο είναι
σχετικά απλή, η πολυπλοκότητα και η ισχύς των ΤΝΔ επιτυγχάνεται με
την αλληλεπίδραση ενός αριθμού νευρωνίων.
1.0
...
X2(p)

Xi(p)
yj(p)
... ...
X1(p)
15
Xn(p)
Αρχικές ιδέες, κίνητρο και
εφαρμογή ΤΝΔ
16
Επεξεργασία πληροφορίας σε
βιολογικά νευρώνια

Προσομοίωση βιολογικών λειτουργιών σε νευρώνια


10-100 δις Νευρώνια με 10000 συνδέσεις στον εγκέφαλο
Είσοδος (αισθήσεις), Επεξεργασία (εσωτερικά) & Έξοδος
(κινητική)
Γενική ιδέα: η επεξεργασία των πληροφοριών γίνεται στα νευρώνια!
17
Επεξεργασία της πληροφορίας
στα νευρώνια ΤΝΔ
18
Συναρτήσεις

Εισόδου – γραμμική (άθροισμα)

Εξόδου – γραμμικές, μη-γραμμικές
19
Επεξεργασία της πληροφορίας σε
νευρώνιο

Νευρώνιο  δυαδικό κατώφλι
20
21
Γραφική παρουσίαση
Απλή γραμμική παλινδρόμηση... Με τη μορφή εξίσωσης
Απλή γραμμική παλινδρόμηση... Με τη μορφή σχήματος
22
Απλή εξίσωση ΤΝΔ χωρίς ανατροφοδότηση (feedback)
Επίσης
 Απλοποίηση για
πολύπλοκα μοντέλα
23
Συνδυασμός νευρωνίων
•Απλή διεργασία σε κάθε νευρώνιο
•Συνδυασμός απλών νευρωνίων
δημιουργεί σύνθετη συμπεριφορά
• ...
24
Αρχιτεκτονική δικτύων στοιβάδες (layers)


Όλα τα ΤΝΔ είναι οργανωμένα σε στοιβάδες.
Τρεις τύποι - διαφορετικές λειτουργίες:



Στοιβάδα εισόδου (input layer)
Κρυφές στοιβάδες (hidden layers)
Στοιβάδα εξόδου (output layer)
Κάθε στοιβάδα αποτελείται από ένα αριθμό
νευρωνίων και οι στοιβάδες συνδέονται μεταξύ τους
με κάποια βάρη (correlation weights).
25
Αρχιτεκτονική ΤΝΔ πολλαπλών
στοιβάδων




Νευρώνια un οργανωμένα σε στοιβάδες
Συνδέσεις μεταξύ στοιβάδων με βάρη wi,j
Δεδομένα εισόδου xi
Δεδομένα εξόδου ok
26
Ορολογία
Τεχνητά Νευρωνικά Δίκτυα
Στατιστική
Είσοδος σε νευρώνια εισόδου
Ανεξάρτητες μεταβλητές / με
υστέρηση (lagged)
Έξοδος από νευρώνια εξόδου
Εξαρτημένες μεταβλητές
Εκπαίδευση/ ΕκμάθησηTraining/ learning
Προσδιορισμός παραμέτρων
Parameterization
Βάρη - Weights
Παράμετροι
...
...
27
Αρχιτεκτονική ΤΝΔ



Ο τρόπος σύνδεσης των στοιβάδων, ο αριθμός των
κρυφών στοιβάδων και ο αριθμός των νευρωνίων
σε κάθε στοιβάδα – η αρχιτεκτονική του δικτύου –
καθορίζει τον τρόπο που θα γίνει ο υπολογισμός
Σε μερικές περιπτώσεις η αρχιτεκτονική μπορεί να
καθοριστεί κατά τη διαδικασία εκπαίδευσης του
δικτύου (cascade correlation (Imrie et al., 2000) &
Linear Least Square Simplex (Hsu et al., 1995).
Η αρχιτεκτονική ή ο τύπος του δικτύου καθορίζεται
από την εφαρμογή.
28
Τύποι δικτύων



fully connected - , όλα τα νευρώνια είναι συνδεδεμένα μεταξύ
τους με διάφορους τύπους συνδεσμολογίας (forward,
backward or no-connection (zero weight)
layered, δεν υπάρχουν συνδέσεις από ανώτερες στοιβάδες σε
κατώτερες στοιβάδες
acyclic, δεν υπάρχουν συνδέσεις μεταξύ νευρωνίων ίδιας
στοιβάδας. Δίκτυα που δεν είναι acyclic αναφέρονται ως
recurrent.


Feed forward δίκτυα ανήκουν στα acyclic networks.
modular networks - η αρχιτεκτονική τους αποτελείται από
ξεχωριστά στοιχεία που όταν συνδεθούν δημιουργούν ένα
δίκτυο
29
Τύποι δικτύων




Μulti-layered feed forward neural networks (FFNN)
(Rumelhart et al., 1986),
self-organising feature maps (Kohonen, 1982)
Hopfield networks (Hopfield, 1987).
Από αυτούς τους τύπους τα FFNN έχει
παρατηρηθεί να έχουν την καλύτερη απόδοση για
την περιγραφή σχέσεις όπου υπάρχουν δεδομένα
εισόδου και εξόδου.
30
Τύποι δικτύων - εκπαίδευση

Πριν από την εφαρμογή ενός ΤΝΔ πρέπει να
ορισθούν




Ο αριθμός των στοιβάδων
Ο αριθμός των νευρωνίων και οι συνδέσεις μεταξύ τους
Οι τιμές των παράμετροι (weights and biases)
Η διαδικασία προσδιορισμού των παραμέτρων
(weights and biases) αναφέρεται ως εκπαίδευση ή
εκμάθηση (learning or training).
31
Δεδομένα εκπαίδευσης και ελέγχου
32
Παράδειγμα
33
Τύποι εκπαίδευσης




Η διαδικασία προσδιορισμού των παραμέτρων (learning)
μπορεί να χωριστεί σε δυο κατηγορίες supervised και
unsupervised.
supervised : μια ομάδα δεδομένων (calibration ή training set)
που περιέχει παρατηρήσεις από τις μεταβλητές του
συστήματος, είναι διαθέσιμα για να προσδιοριστεί η απόδοση
του συστήματος
unsupervised : δεν υπάρχουν διαθέσιμα δεδομένα
(calibration ή training set) για να υποδείξουν τα σφάλματα του
συστήματος και να βοηθήσουν στον προσδιορισμό των
παραμέτρων. Η διαδικασία βασίζεται στην αναγνώριση
διαφορών στα δεδομένα ή στο περιβάλλον με κανόνες.
πχ supervised learning
 classification
unsupervised learning  clustering
34

Η ισχύς του ΤΝΔ & ακρίβια πρόγνωσης επηρεάζονται από

Επιλογή συνάρτησης ενεργοποίησης





ΤΝΔ με γραμμικές παραμέτρους  ευκολότερος προσδιορισμός
παραμέτρων
Περίοδος και μέθοδος εκπαίδευσης
Ποσότητα διαθέσιμων δεδομένων – επιλογή μεθόδου
Περιορισμοί λόγω προβλημάτων στην πρόγνωση μεγάλων
τιμών.
Υπάρχουν μέθοδοι για την κατασκευή ΤΝΔ που να μπορούν
να κάνουν πρόγνωση τιμών που να είναι μεγαλύτερες από τις
τιμές στα δεδομένα εκμάθησης.
35
Εκπαίδευση Τ.Ν.Δ.
1. Διαδικασία (1 εποχή)
•
Είσοδος
•
Έξοδος
•
Σύγκριση με στόχο
•
Τροποποίηση βαρών
X1
X2
Αυτοματοποίηση:
•
•
Δεδομένα εκπαίδευσης
Αλγόριθμος εκπαίδευσης
•
Τερματισμός εκπαίδευσης
Υ1
-
T1
ΥΥn-1
n-1 Υn -
Tn-2
Υ2
●
T2
●
2.Υπερεκπαίδευση
3.Γενίκευση
Τ.Ν.Δ.
●
●
Xn-2
Xn-1
Xn
●
Υn-2
Tn-1
Tn
36
Αποτελέσματα
Τιμή Στιγμιαίου Ναύλου μεταφοράς Σιδήρου
(Βραζιλία - ΒΔ. Ευρώπη / 120.000dwt)
38
Αποτελέσματα
Τιμή Στιγμιαίου Ναύλου μεταφοράς Σιδήρου
(Βραζιλία - ΒΔ. Ευρώπη / 120.000dwt)
ANN+1
ANN+3
ANN+6
ANN+9
ANN+12
39
Αποτελέσματα
Worldscale VLCC Ras Tanura-Rotterdam
120.00
ΤΝΔ+3
100.00
80.00
60.00
OUTPUT
TARGET
40.00
20.00
20
01
-0
2
20
01
-0
4
20
01
-0
6
20
01
-0
8
20
01
-1
0
20
01
-1
2
20
02
-0
2
20
02
-0
4
20
02
-0
6
20
02
-0
8
20
02
-1
0
20
02
-1
2
20
03
-2
0.00
40
Αποτελέσματα
Worldscale VLCC Ras Tanura-Rotterdam
140.00
ΤΝΔ+9
120.00
100.00
80.00
60.00
OUTPUT
TARGET
40.00
20.00
20
01
-0
20 8
01
-1
20 0
01
-1
20 2
02
-0
20 2
02
-0
20 4
02
-0
20 6
02
-0
20 8
02
-1
20 0
02
-1
2
20
03
-2
20
03
-4
20
03
-6
20
03
-8
0.00
41
5000
2006-02
6000
2005-12
2005-10
2005-08
2005-06
2005-04
2005-02
2004-12
2004-10
2004-08
2004-06
2004-04
Αποτελέσματα
"ΤΝΔ+12"
BDI
4000
3000
2000
1000
0
42
20
06
-0
2
-1
2
5000
-1
0
-0
8
-0
6
-0
4
-0
2
-1
2
-1
0
-0
8
-0
6
-0
4
-0
2
-1
2
-1
0
6000
20
05
20
05
20
05
20
05
20
05
20
05
20
04
20
04
20
04
20
04
20
04
20
04
20
03
20
03
Αποτελέσματα
Πρόβλεψη ΤΝΔ+18
BDI
4000
3000
2000
1000
0
43
Υστέρηση στα δεδομένα




Εισαγωγή υστέρησης στα δεδομένα πριν την
προώθηση στις κρυφές στοιβάδες.
P(t)
Χρήση - tapped delay line (TDL)
Η έξοδος είναι ένας πίνακας η-διαστάσεων
που αποτελείται από τα δεδομένα εισόδου σε
προηγούμενες χρονικές περιόδους. Κάθε
στοιχείο του πίνακα μπορεί να έχει διαφορετική
παράμετρο ενώ προωθείται στην επόμενη
κρυφή στοιβάδα.
Λειτουργεί ως μνήμη που αποθηκεύει
παλαιότερες τιμές των δεδομένων εισόδου
P(t)
D



P(t-1)



D
P(t-n)
45
Feed-forward neural networks
(FFNN)



Τα FFNN είναι δομημένα σε στοιβάδες χωρίς συνδέσεις μεταξύ
νευρωνίων της ίδιας στοιβάδας. Μεταξύ της στοιβάδας εισόδου
και εξόδου υπάρχουν μια ή περισσότερες κρυφές στοιβάδες.
Κάθε μονάδα επεξεργασίας πληροφορίας (νευρώνιο) είναι
συνδεδεμένο με όλα νευρώνια της επόμενης στοιβάδας με βάρη
(παραμέτρους) που πρέπει να προσδιοριστού.
Η πληροφορία που παρουσιάζεται στην στοιβάδα εισόδου (i)
προωθείται προς τα μπρος μέσα στο δίκτυο και τις κρυφές (h)
στοιβάδες στην στοιβάδα εξόδου (o).
output
layer
bt,1
bt,2
...
bt,s
bh,1
bh,2 . . .
bh,n
Wth
,
hidden
layer
Wh,i
...
input
layer
a1
a2
46
am

Οι δείκτες στα βάρη είναι με αντίστροφη σειρά


π.χ. wh,i αντιστοιχεί στη σύνδεση μιας εισόδου σε ένα
νευρώνιο στη κρυφή στοιβάδα.
Η είσοδος σε κάθε νευρώνιο στη κρυφή στοιβάδα
n
input( g h )   wh,i ai  bh, p
p 1
n: είναι ο αριθμός των νευρωνίων στην προηγούμενη
στοιβάδα, b: το βάρος μιας σταθερής εισόδου ίσης με τη
μονάδα
47
 n


output( g h )  f h (input( g h ))  f h  wh,i a i  bh, p 
 p 1



g(h) είναι η έξοδος ενός νευρωνίου στη κρυφή στοιβάδα, fh είναι η
συνάρτηση ενεργοποίησης στη κρυφή στοιβάδα.
Αντίστοιχα η έξοδος ενός νευρωνίου στη στοιβάδα εξόδου g(t)
μπορεί να προσδιοριστεί από:
 m

 n

 m

output( g t )  f t   wt ,h output( g h )  bt   f t   wt ,h f h   wh ,i ai  bh , p   bt 
 r 1

 r 1

 p 1



48
Συναρτήσεις

Γραμμική
f (x)  x
1
1  e x

Σιγμοειδής
f( x ) 

Υπερβολική
εφαπτομένη
1  e  x
f( x ) 
1  e x
49

Ένα FFNN πολλαπλών στοιβάδων είναι ένα αρκετά
ισχυρό μοντέλο προσομοίωσης


Πχ ένα δυο-στοιβάδων δίκτυο (1 input – 1 hidden – 1
output) με σιγμοειδή συνάρτηση στην κρυφή στοιβάδα και
γραμμική στην εξωτερική μπορεί να εκπαιδευτεί και να
προσομοιώνει σχεδόν κάθε συνάρτηση (με πεπερασμένο
αριθμό ασυνεχειών)
Όπως παρουσιάζεται από τους Hsu et al. (1995)
ένα δυο-στοιβάδων δίκτυο με πεπερασμένο αριθμό
νευρωνίων στην κρυφή στοιβάδα ικανοποιεί τις
απαιτήσεις ώστε να θεωρηθεί universal function,
ικανό να προσεγγίζει κάθε λειτουργία με
περισσότερες από μια μεταβλητές. Το γεγονός αυτό
αναφέρεται και σαν “Kolmogorov’s mapping neural
50
network existence theorem” (Hsu et al., 1995).
Recurrent Networks


Ενδιαφέρον λόγω της χρήσης
προηγούμενων τιμών για την
πρόγνωση.
Elman recurrent network
(Elman, 1988)



δυο-στοιβάδων δίκτυο (1 input
– 1 hidden – 1 output)
Ανατροφοδότηση. Επιπλέον
σύνδεση από την έξοδο της
κρυφής στοιβάδας στην είσοδο.
Δίνει τη δυνατότητα να μάθει,
να αναγνωρίσει, να γενικεύσει
και να προσομοιώσει χρονικά
μεταβαλλόμενα συστήματα.
bt,2
bt,1
output
layer
Wth
,
bh,1
hidden
layer
bh,2
Wh,i
Feedback
units
input
layer
a1
an
51





Το Elman ΤΝΔ έχει Υπερβολική εφαπτομένη
συνάρτηση ενεργοποίησης στην κρυφή στοιβάδα
(recurrent) και γραμμική συνάρτηση στην στοιβάδα
εξόδου.
Περισσότερα νευρώνια στην κρυφή στοιβάδα από
FFNN.
Ανάλογα την εφαρμογή τα recurrent ΤΝΔ
υπερτερούν των FFNN ακόμα και σε περιπτώσεις
με δεδομένα με θόρυβο.
Δεν αναπαράγουν τα ίδια αποτελέσματα με ίδια
δεδομένα εισόδου.
Μπορεί να γίνουν ασταθή (moving target problem)
52
Εκπαίδευση



Για τα Feed-forward ΤΝΔ συνήθως χρησιμοποιείται o
back propagation αλγόριθμος εκπαίδευσης (Rumelhart
et. al., 1986)
Παραλλαγή της μεθόδου κλίσης καθόδου (gradient
descent optimisation) που χρησιμοποιείται για την
ελαχιστοποίηση του σφάλματος μεταξύ της εκτιμώμενης
και παρατηρούμενης τιμής εξόδου. Τα σφάλματα
προωθούνται προς τα πίσω μέσα στο δίκτυο και
χρησιμοποιούνται για τον υπολογισμό των διαφορικά της
συνάρτησης σφάλματος ως προς τα βάρη
(παραμέτρους) που πρέπει να προσδιοριστούν.
Τα βάρη προσαρμόζονται με το πέρας κάθε
παρατήρησης (adaptive training) ή μετά το πέρας όλων
των διαθέσιμων δεδομένων εκπαίδευσης π.χ. epoch
(batch training).
53
Εκπαίδευση ΤΝΔ
54
Εκπαίδευση ΤΝΔ –
ελαχιστοποίηση σφάλματος
Ελαχιστοποίηση του σφάλματος αλλάζοντας ένα βάρος wj
55
Error backpropagation =
3D+gradient decent
Αναζήτηση σε πολυδιάστατη επιφάνεια σφαλμάτων
•Στόχος: προσδιορισμός της πιο
βαθεία κοιλάδας
•Τοπική αναζήτηση
•Σταθερό βήμα
•Ακολουθεί τη μέγιστη κλίση
Τοπικό ελάχιστο - κάθε κοιλάδα
Συνολικό (Global) ελάχιστο – η πιο
βαθεία κοιλάδα
Μεταβάλλεται με την επιφάνεια
σφαλμάτων
56
Βack propagation learning
algorithm

Η εκτιμώμενη έξοδος του δικτύου συγκρίνεται με τις
παρατηρήσεις και υπολογίζεται το άθροισμα των
τετραγώνων των σφαλμάτων (SSE) ή το μέσο
τετραγωνικό σφάλμα (MSE).
N
SSE   ( yq  d q )
2
q 1

1 N
MSE   ( yq  d q ) 2
N q1
Σε κάθε επανάληψη το σφάλμα μεταφέρεται προς
τα πίσω (στις στοιβάδες) και υπολογίζεται η
μεταβολή στα βάρη τις κάθε στοιβάδας
new
h,i
w
w
old
h,i
 wh,i
wh,i  l
(SSE)
wh,i
l: learning rate
57
Συντελεστές αλγόριθμου
εκπαίδευσης

Η σύγκλιση και η αποτελεσματικότητας του
αλγόριθμου εκπαίδευσης εξαρτάται από μια ομάδα
συντελεστών.

Learning rate (l) – κάθε ΤΝΔ υπάρχει ένας βέλτιστος ρυθμός
εκμάθησης






Ξεκινώντας από μεγάλο
Ξεκινώντας από μικρό
k

w   bl
0

if ( SSE)  0
if ( SSE)  0
otherwise
w  w  w  aw
Momentum term (α)
Ρυθμός προσαρμογής παραμέτρων
Initial weights (Αρχικές τιμές ) – επανεκκίνηση πολλές φορές
Επιτάχυνση του ρυθμού εκμάθησης
new
ip

old
ip
ip
ip
Αριθμητικοί μέθοδοι quasi- Newton Levenberg-Marquardt
58
Αρχικές τιμές
 Ακόμα
και στην περίπτωση δυο παραμέτρων είναι
πιθανόν να υπάρχουν δυο ελάχιστα.
 Επανεκκίνηση
(ανάλογα με το μέγεθος του δικτύου
100-1000 φορές)
59
Προσαρμοζόμενα ΤΝΔ
πολλαπλών στοιβάδων

Μικρά δίκτυα



Λιγότερες παράμετροι
Εκπαιδεύονται καλύτερα
Δίκτυα που πιθανόν να γενικεύσουν καλύτερα σε νέα δεδομένα
Για τον προσδιορισμό του κατάλληλου μεγέθους και
αρχιτεκτονικής οι ακόλουθες προσεγγίσεις μπορούν να
χρησιμοποιηθούν


Ξεκινώντας από ένα μεγάλο δίκτυο και απενεργοποιώντας
νευρώνια και συνδέσεις που θεωρούνται ασήμαντοι (pruning
algorithms) (Maier and Dandy, 2000).
Ξεκινώντας από ένα μικρό δίκτυο του οποίου το μέγεθος
αυξάνει (νευρώνια και στοιβάδες) μέχρι να έχει ικανοποιητική
επίδοση (cascade correlation).
60
Γενίκευση - Generalisation
Error
0.92
5 neurons
4 neurons
5 neurons
4 neurons
0.9
Error on test data
0.86
0.84
2
R (testing data)
0.88
0.82
Error on training data
0.8
0.78
0
1
2
3
4
5
6
Number of runs
7
8
9
Airline Passenger data
700000
Βοηθητικά
δεδομένα
εκπαίδευσης
Δεδομένα εκπαίδευσης
600000
10
Instant when error on test
data begins to worsen
Training time
Δεδομένα
αξιολόγησης
απόδοσης
500000
400000
300000
200000
100000
61
0
1
7
13
19
25
31
37
43
49
55
61
67
73
79
85
91
97 103 109 115 121 127
Τεχνητά Νευρωνικά Δίκτυα (ANN)
Αρχιτεκτονική
over-parameterisation
initialisation
Εκπαίδευση - Training
Ικανότητα Γενίκευσης
Generalisability
(over-training)
62
Πρόγνωση με ΤΝΔ
x1
ANN
…
x2
xn
yt
…
x1
ANN
. . . yt +c-1
yt +c-2
…
xn-1
ANN
yt +c
Flow forecast using flow data (verification)
yt +c-n
or xv
600
flow
BP
CC
ELM
ADP
500
xn
yt+1
yt+m
400
3
ANN
…
…
x2
Discharge (m /s)
yt
x1
300
200
100
0
18/4/92
19/4/92
20/4/92
21/4/92
22/4/92
23/4/92
Time
63
Πρόγνωση με ΤΝΔ
64
Επιλογές στα ΤΝΔ
65
Αξιολόγηση της επίδοσης των
ΤΝΔ
66
Αξιολόγηση με ανταγωνισμό
67
Διαθέσιμα λογισμικά για ΤΝΔ
Matlab toolbox
68
Πλεονεκτήματα - Μειονεκτήματα

Πρόγνωση σε κάθε χρονικό
βήμα



Χωρίς προεπεξεργασία
Δεν απαιτείται επιλογή
μοντέλου
Ελευθερία στη
μοντελοποίηση


Με ένα μοντέλο
Πολλές επιλογές




Γραμμικά
Μη-γραμμικά
Πολυπαραμετρικά
Πρόγνωση πολλαπλών
βημάτων
69
Σημαντικά χαρακτηριστικά των
ΤΝΔ









Είναι universal approximators συναρτήσεων και των διαφορικών τους.
Είναι μη-γραμμικά, μπορούν να προσομοιώσουν πολύπλοκες διεργασίες
πολύ καλύτερα από άλλες γραμμικές μεθόδους.
Έχουν παράλληλη δομή, περιέχουν πολλές όμοιες ανεξάρτητες μονάδες που
μπορούν να λειτουργούν ταυτόχρονα που συχνά τα κάνει ταχύτερα από
εναλλακτικές μεθόδους.
Μπορούν να εξάγουν πληροφορίες από τα δεδομένα χωρίς παλαιότερη
γνώση των δεδομένων ή του συστήματος που αναλύεται.
Μπορούν να μεταβάλουν τη συμπεριφορά τους ανάλογα με τις αλλαγές του
συστήματος, μπορούν να μάθουν / να αυτο-προσαρμοστούν για να
παράγουν σταθερή απόκριση όταν εκπαιδεύονται χρησιμοποιώντας
δεδομένα εξόδου.
Μπορούν να χωρίσουν το χώρο των διαθέσιμων δεδομένων και να
δημιουργήσουν διαφορετικές σχέσεις για διαφορετικά τμήματα του χώρου
των δεδομένων.
Μπορούν να οργανώσουν τμηματικά μη-γραμμικά μοντέλα που να
συμπεριλαμβάνουν ασυνέχειες.
Μπορούν να γενικεύσουν σε νέες τιμές δεδομένων εφόσον έχουν οργανωθεί
και εκπαιδευτεί κατάλληλα. Η ικανότητα γενίκευσης είναι σημαντική ιδικά σε
περιπτώσεις που τα δεδομένα περιέχουν θόρυβο, σφάλματα ή είναι
κατεστραμμένα.
Μπορούν να εντοπίσουν σημαντικά χαρακτηριστικά στα δεδομένα εισόδου
70
και να τα ιεραρχήσουν.
Μειονεκτήματα

Μπορεί να αποτύχουν να αναπαράγουν το επιθυμητό αποτέλεσμα λόγω:





Αδυναμία κατά την εκπαίδευσης να προσδιοριστούν τα κατάλληλα βάρη
Ακατάλληλο μέγεθος/αρχιτεκτονική (Τα ΤΝΔ επιλέγονται/οργανώνονται ανάλογα με
την εφαρμογή και τα διαθέσιμα δεδομένα – πολυπλοκότητα που υποστηρίζεται
από τα δεδομένα)
Η επιλογή του βέλτιστου δικτύου (αρχιτεκτονική και παράμετροι) σχετίζεται με
την εφαρμογή και πρέπει να γίνεται μέσω διαδικασίας trial-and-error όταν
αυτοματοποιημένες μέθοδοι όπως cascade correlation δεν μπορούν να
χρησιμοποιηθούν.
Δεν είναι ικανά να ανταποκριθούν σε πολύ μεγάλες μεταβολές του
συστήματος που προσπαθούν να προσομοιώσουν καθώς έχουν εκπαιδευτεί
σε ιστορικά δεδομένα. Μπορούν όμως να παράγουν τύπους ή ρυθμούς
ανάλογους των δεδομένων που έχουν εκπαιδευτεί χρησιμοποιώντας νέα
δεδομένα. Όπως σε όλες τις μεθόδους που βασίζονται σε δεδομένα, όταν
υπάρχουν σημαντικές μεταβολές στο σύστημα πρέπει να προσδιοριστούν και
να εκπαιδευτούν ξανά,
They do not provide/allow for clear understanding of the response of the
ANN's components (number of neurons / layers, weights), when compared
with other hydrological models.
71

similar documents