Generalizacja danych przestrzennych

Report
Generalizacja danych przestrzennych
dr hab. Ryszard Walkowiak prof. nadzw.
Generalizacja danych
W poprzednich wykładach stwierdziliśmy, że jednym z
głównych zadań GIS jest właściwa reprezentacja danych
przestrzennych.
Powierzchnia Ziemi, badana z dużą szczegółowością, jest
tworem niewyobrażalnie skomplikowanym.
Jej bardzo dokładne zobrazowanie wymagałoby umieszczenia
w bazie danych, a następnie przetwarzania, ogromnej, prawie
nieskończonej liczby danych.
Prowadziłoby to do wytwarzania map zbyt szczegółowych,
całkowicie nieczytelnych.
Z tego względu opracowano różne metody upraszczania,
nazywane generalizacją danych.
Generalizacja danych
Metody generalizacji danych dzielimy ogólnie na:
 generalizację kształtu
 generalizację statystyczną.
Generalizacja kształtu
Generalizacja kształtu polega na zmianie kształtu
obiektów w celu lepszego ich uwidocznienia na mapie,
przy zachowaniu ich najważniejszych cech.
Generalizacja kształtu
 uproszczenie lub wybór punktów np. przez eliminację
niektórych wierzchołków wieloboku tak, aby jego
kształt stał się prostszy.
Generalizacja kształtu
 wygładzanie polegające na zastępowaniu ostrych i
złożonych kształtów przez wygładzone
Generalizacja kształtu
 agregacja, czyli zastąpienie dużej liczby
szczegółowych znaków mniejszą liczbą nowych
znaków.
Generalizacja kształtu
 łączenie polegające na zastępowaniu kilku obiektów
powierzchniowych przez jeden.
Generalizacja kształtu
 scalanie polegające łączeniu wielu obiektów liniowych
w jeden.
Generalizacja kształtu
 dekompozycja polegająca na zamianie obiektu
powierzchniowego na obiekt punktowy.
Generalizacja kształtu
 wybór obiektów polegający na eliminacji pewnych
obiektów przy zachowaniu ogólnych prawidłowości
rozkładu przestrzennego
Generalizacja kształtu
 przewiększenie obiektu w celu zachowania atrybutów,
mimo że przy danej skali powinien być niewidoczny.
Generalizacja kształtu
 wzmocnienie przez zmianę wielkości i kształtów
symboli
Generalizacja kształtu
 przemieszczenie obiektów z ich rzeczywistego
położenia w celu zachowania ich relacji
przestrzennych i czytelności
Generalizacja statystyczna
Gdy mapy są używane do wyświetlania informacji
statystycznych (np. liczba ludności, procent bezrobocia itd.),
należy zachować szczególną ostrożność, aby przedstawić jak
najdokładniej przestrzenny rozkład danych.
Jest to trudne zadanie, gdyż sensem wyświetlania danych
statystycznych na mapach jest uchwycenie ich rozkładu w
przestrzeni.
Jednak uogólniając i upraszczając dane, można ukryć
subtelne różnice w rozkładzie.
Dlatego też, podczas mapowania danych statystycznych,
należy zawsze starać się znaleźć równowagę między
wiernością rzeczywistemu rozkładowi danych a
uogólnieniem, tak, aby uwypuklić zależności przestrzenne.
Generalizacja statystyczna
Aby przedstawić wartości jakiejś zmiennej w postaci
kolorów, należy podzielić cały zakres zmienności tej
zmiennej na przedziały.
W tym celu należy najpierw ustalić liczbę przedziałów a
następnie ich granice.
Generalizacja statystyczna
15
25
7
21
34
56
61
45
39
92
77
88
0-30
31-65
65-
Generalizacja statystyczna
0-25
15
25
7
21
34
56
26-50
61
45
39
51-75
92
77
88
76-
Generalizacja statystyczna
 Ilość klas
 Za mało klas: zarys rozkładu danych jest niewyraźny, gubimy
niuanse.
 Za dużo klas: dezorientacja, problem z interpretacją, gubimy
strukturę przestrzenną.
 Większość map tematycznych zawiera od 3 do 7 klas.
 Przy zastosowaniu odcieni szarości, 8 klas to maksimum,
które da się rozróżnić.
Generalizacja statystyczna
 Metody klasyfikacji
 Mapy tematyczne przygotowane z tych samych danych i
z taką samą ilością klas, dają inną informację, jeśli
zastosowano różne metody podziału (klasyfikacji).
 Metoda podziału musi być odpowiednia do określonego
rozkładu statystycznego danych.
Generalizacja statystyczna
Rozkład danych
 Histogram
 Pierwszy etap przy tworzeniu map tematycznych: wykreślenie
frekwencji występowania określonych przedziałów wartości
cechy
 Umożliwia identyfikację rozkładu danych.
 Zastosowanie podstawowych statystyk opisowych: średnia,
mediana, skośność, kurtoza.
Frekwencja
Jednolity
Wartość cechy
Normalny
Wykładniczy
Generalizacja statystyczna
Rozkład danych
 (Max-Min) / IK
 Prosta interpretacja.
 Odpowiednie dla danych o
rozkładzie jednolitym i ciągłym.
 Nieodpowiednie jeśli dane są
skupione wokół niewielu
wartości.
C1
C2
C3
C4
Frekwencja
 Jednakowe przedziały
 Każda klasa reprezentuje
jednakowy przedział wartości
cechy.
 Szerokość klasy to różnica
między wartością największą a
najmniejszą podzielona przez
ilość klas.
Min
Wartość
Max
n(C2)
C3
Wartość
C4
n(C4)
C2
n(C3)
C1
n(C1)
 Kwantyle
 Równa ilość obserwacji w
każdej klasie.
 n(C1) = n(C2) = n(C3) = n(C4).
 Stosowny dla równomiernie
rozłożonych danych.
 Obiekty o zbliżonych
wartościach cechy mogą się
znajdować w różnych
kategoriach.
 Jednakowa powierzchnia
 Klasy tworzone są aby miały
podobną powierzchnię.
 Efekt podobny do podziału
kwantylowego jeśli wielkość
jednostki jest taka sama.
Frekwencja
Generalizacja statystyczna
Rozkład danych
Generalizacja statystyczna
Rozkład danych
C1
C2
C3
C4
Frekwencja
 Odchylenie standardowe
 Jako granice klas stosowana
jest średnia i wielokrotności
odchylenia standardowego.
 Wskazana, gdy rozkład
wartości cechy jest zbliżony
do normalnego.
 Wizualizacja obiektów,
których wartości cechy są
powyżej lub poniżej średniej.
 Wyraźnie widoczne obiekty
odstające.
 Nie pokazuje wartości jako
cech obiektów, jedynie ich
odległość od średniej.
Wartość -1STD Śr. +1STD
Generalizacja statystyczna
Rozkład danych
 Wzrost arytmetyczny,
geometryczny lub
wykładniczy
 Szerokość przedziałów
C2
Frekwencja
klasowych rośnie lub maleje
nieliniowo.
 Wskazane dla rozkładów o
charakterze wykładniczym.
C1
Wartość
C3 C4
Generalizacja statystyczna
Rozkład danych
 Podział naturalny (Natural
breaks)
 Złożona metoda optymalizacji




C1
C2
Frequency

podziału.
Minimalizuje sumę wariancji
w każdej klasie.
Najlepsza jeśli dane nie są
rozłożone równomiernie.
Uzasadniona statystycznie.
Trudna do porównania z
innymi klasyfikacjami.
Arbitralna decyzja wyboru
odpowiedniej ilości klas.
Value
C3 C4
Generalizacja statystyczna
Rozkład danych
 Podział własny
 Operator wybiera podział klasowy, który jest najlepiej
dostosowany do rozkładu danych.
 Metoda ta podawana jest jako ostatnia, ponieważ
zazwyczaj nie ma jasnych kryteriów dokonanego
podziału, lub są one stosowane niekonsekwentnie.
 Zazwyczaj tego typu wybór związany jest z osobistym
doświadczeniem eksperta.
 Często do tej grupy można włączyć podział dokonany ze
względów estetycznych (okrągłe liczby).
 5000 - 10000 zamiast 4982 - 10123.
 Inny cel
 Klasyfikacja może być także użyta do umyślnego
zamazania lub ukrycia informacji.
Generalizacja statystyczna
Rozkład danych
Równe przedziały
Kwantyle
Generalizacja statystyczna
Rozkład danych
Odchylenie standardowe
Wnioskowanie przestrzenne
 Uzupełnianie braków danych
 Zazwyczaj próbkowanie nie jest kompletne zarówno w ujęciu
czasowym, jak i przestrzennym.
 Bardzo często potrzebna jest metoda obiektywnego
uzupełniania braków danych.
 Interpolacja i ekstrapolacja
 Dane w lokalizacjach gdzie nie dokonano pomiaru niekiedy
mogą być szacowane na podstawie wyników pomiarów
dokonanych w sąsiedztwie.
 Interpolacja:
 Prognozowanie brakujących danych w miejscach (czasie) leżących
pomiędzy miejscami (czasem), w których pobrano próbki.
 Ekstrapolacja:
 Prognozowanie brakujących danych leżących poza zasięgiem obszaru
znanego.
Wysokość
Wnioskowanie przestrzenne
Interpolacja i ekstrapolacja
Linia interpolowana
Oczekiwanie na światłach
Próbka
Lokalizacja
Linia ekstrapolowana
Próbka
Linia interpolowana
Liczba pojazdów
Wnioskowanie przestrzenne
Dopasowanie trendu
1.9
1.8
1.7
1.6
1.5
1.4
y = 0.6435x + 1.0553
R² = 0.1781
1.3
1.2
0.7
0.75
0.8
0.85
0.9
0.95
1
Wnioskowanie przestrzenne
Niebezpieczeństwo ekstrapolacji
Wnioskowanie przestrzenne
Niebezpieczeństwo ekstrapolacji
Rekordy w biegu na 100 m mężczyzn
12
10
8
6
4
2
0
1900
-2
2100
2300
2500
2700
Obserwacje
2900
ekstrapolacja
3100
3300
3500

similar documents