Percepcja 2

Report
IDENTYFIKACJA
(ROZPOZNAWANIE) OBIEKTU
• Identyfikacja wzrokowa zależna od perspektywy
(Stephen Palmer, Eleanor Rosch i Paul Chase (1981)
• Identyfikacja poprzez wyodrębnianie geonów - komponentów
(Biederman, 1987)
Rozpoznawanie (recognition)
• wzbudzenie przez bodziec wzorca (schemat percepcyjny), zapisanego
w pamięci długotrwałej, „najlepiej” reprezentującegp rozpoznawany
przedmiot.
inaczej:
• Porównanie danych sensorycznych z danymi w <wzrokowej pamięci
długotrwałej>
wraz z
• <Rozpoznanie obiektum> pola V1-V2,V3, V4, V5 kory wzrokowej (
aktywacja wzorca)
Wgląd spostrzeżeniowy
Wgląd spostrzeżeniowy – nagła, nieoczekiwana zmiana percepcji przedmiotu.
Wydmy nadmorskie o zachodzie
Spostrzeganie
jako testowanie hipotez
•
Poznawcze teorie spostrzegania zakładają, że bodźce są informacyjnie ubogie
•
W odniesieniu do percepcji to założenie wymaga dalszego założenia, że
wrażenia same w sobie są niezdolne do tego, aby dostarczyć trafnego obrazu
świata
•
Wrażenia wymagają wzbogacenia poprzez modele umysłowe.
•
Wybór modelu umysłowego dokonuje się przez stawianie i weryfikację
hipotez
Spostrzeganie
jako testowanie hipotez
• Co to?
• Domysł (hipoteza 1) ……………
• weryfikacja
• Domysł (hipoteza 2) ……………
• Weryfikacja
• Domysł (hipoteza 3) ……………
• weryfikacja
IDENTYFIKACJA
(ROZPOZNAWANIE) OBIEKTU
• Identyfikacja wzrokowa zależna od perspektywy
(Stephen Palmer, Eleanor Rosch i Paul Chase (1981)
• Identyfikacja poprzez wyodrębnianie geonów - komponentów
(Biederman, 1987)
Perspektywa uprzywilejowana
(canonical perspective)
• Perspektywa, w której przedmioty są
spostrzegane najszybciej i najłatwiej.
• Stephen Palmer, Eleanor Rosch i Paul Chase
(1981)
Badania
Palmer, Rosch i (1981)
•
•
Materiałem empirycznym były fotografie 12 obiektów, między innymi konia, pianina,
filiżanki, samochodu, krzesła, telefonu.
Każdemu obiektowi zrobiono dwanaście zdjęć przedstawiających jego
różne perspektywy: z góry, z boku, z przodu, z tyłu, oraz wybrany zbiór kombinacji tych
czterech prostych perspektyw, na przykład jednoczesne ujęcie obiektu częściowo z przodu,
z góry i z boku.
•
•
Metoda:
prezentowano badanym wybrane perspektywy wszystkich przedmiotów z poleceniem
nazwania spostrzeganego przedmiotu tak szybko, jak to możliwe
•
•
Wyniki
Otrzymane wyniki badań wykazały istotny wpływ zastosowanych czterech perspektyw
określonego przedmiotu na czas jego rozpoznawania.
Perspektywa kanoniczna przedmiotu jednoczesne ujęcie obiektu częściowo z przodu, z góry
i z boku była rozpoznawana najszybciej i najdokładniej.
Najmniej reprezentatywna perspektywa przedmiotu np.. z góry albo od spodu wpływała na
•
•
najdłuższy czas reakcji jego rozpoznania.
Rozpoznawanie
poprzez wyodrębnianie komponentów
(Biederman, 1987)
•
•
Zgodnie z jego koncepcją, tylko 36 różnych kształtów geometrycznych ( geonówgeometrical ions), takich jak np. bloki, walce, sfery, łuki czy ostrosłupy, zupełnie wystarczy
do opisania wszystkich obiektów rzeczywistych.
Według Biedermana system poznawczy dysponuje subsystemami, umożliwiającymi rozpoznanie tych kształtów dzięki zbieraniu informacji dotyczących rejestrowanych w
polu wzrokowym linii, krawędzi i kątów, przy czym analizie podlegają cechy równoległości i
symetrii.
•
W ten sposób detekcja kubka wymaga rozpoznania dwóch komponent strukturalnych:
cylindra (na ciecz) i łuku (ucho do trzymania).
•
Rozpoznane komponenty są następnie zestawiane z trwałymi reprezentacjami umysłowymi
w celu identyfikacji postrzeganego obiektu. Klasyfikacja percepcyjna jest rozstrzygana na
rzecz takiej reprezentacji, do której komponenty strukturalne są najlepiej dopasowane.
Fazy rozpoznawania
Biederman (1987)
• Aktywacja <wzrokowych detektorów cech > kształtu, ruchu,
barwy, itd… i zarazem wydobywanie geonów
• Ultra-krótkie magazynowanie danych w <pamięci ikonicznej> do
0.500 milisekund >
• Porównanie układów geonów z danymi w <wzrokowej pamięci
długotrwałej>
• <Rozpoznanie obiektu> pola V1-V2,V3, V4, V5 kory wzrokowej
człowiek
ramię
przedramię
ręka
Biederman – rozpoznawanie postaci człowieka
5 wyjściowych geonów i
4 obiekty
Teorie percepcji
Teoria spostrzegania
Kierunek procesu
Teoria asocjacji
Oddolny ( wrażenia  percept)
Teoria postaci
Odgórny( percept  wrażenia)
Teoria wzorców
wrażenia interakcja  percept
Teoria cech
oddolny ( wrażenia  percept)
Teoria obliczeniowa
Teoria ekologiczna
wyłącznie wrażenia
Teoria asocjacji w spostrzeganiu
•
•
•
•
•
•
•
Teoria asocjacjonistyczna (skojarzeniowa) spostrzeżeń głosi prymat części nad całością,
wrażeń nad spostrzeżeniami. To oddolna teoria przetwarzania (bottom – up).
Odmienne zestawy wrażeń definiują więc, przez swoją sumę, odmienne spostrzeżenia.
Wrażenia łączą się ze sobą w spostrzeżenia na zasadzie praw kojarzenia (asocjacji), to
znaczy:
styczności wrażeń w czasie: jednocześnie niebieski i prostokąt
styczności wrażeń w przestrzeni: w tym samym miejscu przestrzeni <niebieski> i
<prostokąt>
podobieństwa: wszelkie obiekty niebieskie, obiekty poruszające się w tym samym
kierunku
wzajemnego kontrastu, np.: zielone na czerwonym / czerwone na zielonym.
Współwystępowanie wrażeń jest niezbędnym, ale niewystarczającym warunkiem
powstania spostrzeżenia. Dopiero wielokrotne występowanie wrażeń poszczególnych
sprzyja powstaniu skojarzenia w postaci spostrzeżenia.
Teoria postaci w spostrzeganiu
• Zwolennicy tej teorii przyjęli zasadę prymatu całości nad częściami, dokładniej
obrazu percepcyjnego nad składnikami sensorycznymi. To odgórna teoria
percepcji (top- down).
• Oto eksperyment potwierdzający tę teorię:
• Badania Navona ( 1977)
• E. krótko eksponował na ekranie litery złożone z liter, prosząc o identyfikację
liter (złożonych odrębnie od liter składowych) i odwrotnie – samych liter
składowych.
• Wyniki
• Ujawniły, że czas identyfikacji liter złożonych był krótszy od liter składowych,
kiedy litery składowe były jasno identyfikowalne.
• To potwierdza prymat całości nad częściami, „lasu nad drzewami.”
Eksperyment Navon’a (1977)
•
Co to?
Zasady organizacji percepcyjnej
•
•
•
•
•
Kiedy bodźce są:
blisko siebie
są podobne
są symetryczne
tworzą dobrą kontynuację
dają się „zamknąć,”
to automatyczne tworzą wzrokową
konfigurację, „postać.”
Zasady organizacji percepcyjnej
wg. Wertheimera (1923)
Bliskość
Zamykanie Podobieństwo
Ciągłość
powiązanie
Symetria
Teoria wzorców (szablonów)
• Teoria zakłada, że proces rozpoznawania obiektu przebiega na
zasadzie porównania obrazu sensorycznego z jego
percepcyjnym szablonem (template). Szablony percepcyjne są
holistyczne (nierozkładalne na części). Obiekt zostaje jako ten
szablon, który jest najlepiej dopasowany do obrazu
sensorycznego.
• Jak rozwiązać problem, kiedy obiekt ma taki sam kształt, jak
szablon, ale jest za duży albo za mały, rozciągnięty albo
skrócony, itp..?
• Wtedy normalizację obrazu doprowadza do dopasowania
obrazu do szablonu. Za normalizację odpowiadają procesy
zwane <stałością bodźców>.
• Ograniczeniem teorii szablonów jest nietrwałość obrazów w
pamięci ultra-krótkiej.,
Co to za znak? = nierozpoznany!
Brak szablonu (template)
w
pamięci długoterminowej
Normalizacja bodźca
szablon
Teoria cech w spostrzeganiu
• To oddolna teoria spostrzegania ( bottom-up)
• Proces spostrzegania wymaga więcej czasu, w miarę jak wzrasta
liczba potencjalnych szablonów, do których można zaliczyć
przetwarzane dane sensoryczne (Posner, MitchelI, 1967).
• Stąd można sądzić, że w dłużej przebiegającym procesie
identyfikacji obiektów, rozpoznanie opiera się na podstawie
analizy szczególnie dystynktywnych właściwości tych obiektów
(przez zespoły komórek zwane detektorami cech) i porównania
tychże właściwości z cechami reprezentacji umysłowych
obiektów zawartymi w pamięci długotrwałej, a nie na
całościowym porównaniu obrazu sensorycznego ze wzorem (
szablonem).
Wejście sensoryczne
szablony
Teoria cech w spostrzeganiu
Wejście
sensoryczne
Detektory cech
Cechy obiektów
w pamięci
długotrwałej
rozpoznanie
Nabywanie wzorcowych reprezentacji umysłowych
Gibson (1969)
•
•
•
•
•
•
•
•
Gibson (1969) stwierdziła, że nabywanie wzorcowych reprezentacji umysłowych odbywa się w procesie
spostrzegania dystynktywnych cech (features), pozwalających odróżnić jeden wzorzec od drugiego.
Zaproponowała ona cztery zasady, zgodnie z którymi wyróżniane są w procesie spostrzegania cechy kryterialne
1/ cecha kryterialna musi przyjmować rożne wartości w odniesieniu do rożnych wzorców.
Dla liter wydaje się być np. ich wysokość, pozwalająca odróżnić choćby litery: "d", "s" i "p".
2/ Konkretna wartość cechy kryterialnej przypisana konkretnemu modelowi powinna pozostać niezmienna
niezależnie od punktu i właściwości obserwacji (jasność, wielkość i perspektywa).
Tak litera "d" pozostaje zawsze wyższa niż litera "s", niezależnie od rodzaju użytej czcionki (pod warunkiem, że tej
samej wobec obu liter.
3/ wszystkie cechy kryterialne powinny razem (mechanizm integracji cech) składać się w unikatowy wzorzec - a
żadne dwa rożne wzorce nie mogą charakteryzować się kombinacją tych samych cech.
Litery "d" i "b" mają mnóstwo cech wspólnych, takich jak np. wysokość, „zaokrąglenia" itd. jednak ich rożna
orientacja przestrzenna w zestawieniu z tymi wspólnymi właściwościami gwarantuje ich rozróżnialność.
4/ liczba cech kryterialnych powinna być relatywnie mała. W przeciwnym razie proces identyfikacji obiektu
przebiegałby bardzo długo, a przebiega bardzo szybko (np. czytanie liter czy rozpoznawanie twarzy).
TEORIA BEZPOŚREDNIEJ PERCEPCJI
JAMESA GIBSONA
Gibsona teoria bezpośredniej percepcji
Wprowadzenie: Gibson zbudował swoją teorię podczas II Wojny światowej , kiedy polecono
mu przygotować film treningowy pilotom.
Wtedy rozwinął swoją teorię przepływu wzorów wzrokowych opartą o nakierowanie na
nieruchomy punkt do którego zmierza pilot. Reszta otoczenia wzrokowego oddala się od tego
punktu przepływając „ponad i wokół”. Istotne są dwie stałe:
• biegun (albo punkt, do którego ktoś zmierza) i
• horyzont w relacji do wysokości osoby.
Te niezmienniki (inwarianty) pozwalają na zachowanie <stałości wielkości>.
Gibson podrzuca teorię, że pamięć długoterminowa dostarcza znaczeń perceptom. Znaczeń
dostarczają tzw. „affordancje”.
Ludzie są zdolni do dość automatycznego „dostrajanie się ” do swojego otoczenia. Gibson
wyjaśniał to rezonansem, odfiltrowaniem informacji zgodnych od szumu.
Gibson stwierdza, że percepcja wzrokowa jest, skrajnie dokładna, precyzyjna, a złudzenia
wzrokowe nie mają praktycznie związku z codzienną percepcją. Inaczej niż teoria postaci,
Gibson pojmuje ruch jako znaczący składnik percepcji. Psychologiczne laboratoria i
eksperymenty dotychczas pomijały kwestię percepcji w ruchu.
cel
horyzont
+
przepływy
przepływy
przepływy
Gibsona teoria bezpośredniej percepcji
Gibsona teoria percepcji wzrokowej oparta jest o trzy podstawowe idee:
I.
Porządek optyczny obiektów (Optic Array): Wzory optyczne docierające do oczu
można pojmować jako porządki optyczne zawierające wszelką informację
dostępną siatkówce. Ten porządek dostarcza jednoznacznej informacji o
rozmieszczeniu obiektów w przestrzeni.
II. Gradienty tekstury (Textured Gradients): Kiedy szyk optyczny przepływa wokół
widza , gradient tekstury tego co widzi dostarcza informacji o dystansach,
szybkości itp. Tego rodzaju percepcja nie wymaga wielkiego przetwarzania
informacji przez system poznawczy, gdyż spostrzeganie opiera się na działaniu,
ruchu.
III. Affordancje - oznaczają przypisywanie konkretnych znaczeń do informacji
wzrokowej. Gibson utrzymuje, że potencjalne zastosowanie przedmiotu jest
bezpośrednio dostrzegane tzn. drabina „zaprasza” do wspinania; kamień, pień
do siadania, itd.
Spostrzeganie obiektu z ruchu
(1988) "Perception of Translational Heading From Optical
Flow "
Warren, William H. Jr., Morris, Michael W., Kalish, Michael
("translational heading" = ruch w przestrzeni )
• Gibson dostrzegł, że kiedy ktoś porusza się, następuje „przepływ” tekstur przez
pole widzenia , a centrum tego przepływu, nieruchomy punkt wskazuje na
kierunek ruchu. Widać to kiedy siedząc na przednim fotelu jedziemy
samochodem itp. Ta teoria jest znana jako is known as the „hipoteza
generalnego promienistego przepływu” (Global Radial Outflow Hypothesis)
• Artykuł podaje ilustrację pokazując diagram wektorów pola wzrokowego, kiedy
rotacyjne ruchy oczu i głowy zakłócają spójność tego przepływu w sposób
uporządkowany, kiedy otoczenie wzrokowe jest rozległą płaszczyzną.
Linie pionowe - kierunek ruchu,
kropki - elementy otoczenia,
odcinki – wielkość wektorów szybkości
a/ chwilowe optyczne i siatkówkowe
wektory prędkości równolegle do
płaszczyzny.
b/ chwilowe wektory prędkości na
siatkówce oka, kiedy oko dokonuje
fiksacji przez jednoczesną rotację „do
dołu” i „w prawo” poprzez centrum oka.
Dostrzegalny jest spiralny wzór
w górnym prawym rogu
c/ chwilowe wektory prędkości na
na siatkówce oka, kiedy złożono wektory
ruchu równoległego do płaszczyzny i
wektory spowodowane przez rotację
oka.
(1991) Perception of circular heading from optical flow.
By Warren, William H.;Mestre, Daniel R.;Blackwell, Arshavir W.;Morris, Michael W.
Journal of Experimental Psychology: Human Perception and Performance, Vol 17(1), Feb 1991, 28-43
• Abstract
• Obserwatorzy oglądali przepływ przypadkowo rozmieszczonych punktów,
który symulował ruch obserwatora po kole. Pytani byli o to, czy przejdą z
lewej czy z prawej celu odległego o 16 metrów. (Observers viewed randomdot optical flow displays that simulated self-motion on a circular path and
judged whether they would pass to the right or left of a target at 16 m).
• Teoretycznie wystarczą tylko dwa punkty w dwu kolejnych ekranach, aby
ustalić kierunek ruchu po kole, jeśli oś rotacji jest znana.
• Wyniki
• Dokładność zachowania kierunku była lepsza 1.5° , kiedy mieli dostarczano
im trój- wymiarowej informacji o przepływie tekstur gruntu, ścian.
Dokładność była stała dla gęstości punktów > 2, co zgodne jest z teorią.
a/ chwilowe optyczne i siatkówkowe
wektory prędkości równolegle do
Płaszczyzny
b/ chwilowe wektory prędkości na
siatkówce oka, kiedy obserwator
dokonuje ruchu po kole
Perception of circular heading
from optical flow.
By Warren, William H.;Mestre,
Daniel R.;Blackwell, Arshavir
W.;Morris, Michael W.
Journal of Experimental
Psychology: Human Perception and
Performance, Vol 17(1), Feb 1991,
28-43
Computer vision is a field that includes methods for acquiring,
processing, analysing, and understanding images and, in general, - highdimensional data from the real world in order to produce numerical or
symbolic information, e.g., in the forms of decisions.
WIDZENIE SZTUCZNE
(WIDZENIE KOMPUTEROWE)
WIDZENIE KOMPUTEROWE
• As a technological discipline, computer vision seeks to apply its theories and
models to the construction of computer vision systems. Examples of
applications of computer vision include systems for:
• Procesy kontroli w przemyśle (np. roboty przemysłowe).
• Nawigacja automatyczna (np. pojazdów autonomicznych i robotów
mobilnych)
• Wykrywanie zdarzeń (np. nadzór optyczny lub zliczanie ludzi).
• Organizowanie informacji (np. indeksacja baz obrazów lub sekwencji
obrazów).
• Modelowanie obiektów lub otoczenia (np. analiza obrazów medycznych
albo modelowanie topograficzne ).
• Interaction ( np. interakcja komputer-człowiek)
• Inspekcja automatyczna ( in manufacturing applications
Obliczeniowa ekstrakcja cech z
obrazu
Przykład
Wykrywanie krawędzi jest podstawowym narzędziem w przetwarzaniu
obrazu i widzeniu komputerowym, szczególnie w obszarach wykrywania
cech i ekstrakcji cech, które zmierzają do identyfikacji tych punktów w
zdygitalizowanym obrazie w których raptownie zmienia się jasność obrazu
lub, formalnie, kiedy wykazuje nieciągłość.
Pamiętajmy to jest obraz na siatkówce
Widzenie Sztuczne
Nie ma obiektu i tła
Nie ma krawędzi,
Nie ma naroży,
Nie ma powierzchni,
Nie ma części,
Nie ma faktury
Nie wiadomo, gdzie obiekt,
gdzie cień.
itd.
Tylko informacje o
intensywności
pobudzenia komórek
siatkówki.
Analiza obliczeniowa obrazów
•
•
•
•
•
•
•
Obliczanie regionów i części
Obliczanie konturów
Obliczanie krawędzi
Obliczanie kierunku krawędzi
Obliczanie naroży
Obliczanie grzbietów i dolin
………..
Effect wielkości 
(Gaussian kernel size, algorytm Johna Canny)
oryginał
Canny przy
Canny przy
Wybór rozmiaru zależy od pożądanego skutku:
wielki rozmiar sprawia, że obliczenie wykrywa krawędzie wielkiej
skali i przeciwnie, mały rozmiar wykrywa drobne cechy.
Wykrywanie Blob’ów
( Binary Large Objects)
• In the area of computer vision, refers to visual modules that are aimed at
detecting points and/or regions in the image that differ in properties like
brightness or color compared to the surrounding
Wykrywanie konturu
(Active Contour Model)
• Active contour model, inaczej zwany ekstrakcją węży, jest ramą do wykreślania
zarysu obiektów w przeładowanym szumem obrazie dwu-wymiarowym.
Wykrywanie krawędzi
•
Edge detection is a fundamental tool in image processing and computer vision,
particularly in the areas of feature detection and feature extraction, which aim at
identifying points in a digital image at which the image brightness changes sharply
or, more formally, has discontinuities.
Wykrywacz krawędzi Johna Canny ( 1986)
•
The Canny edge detector is an edge detection operator that uses a multistage algorithm to detect a wide range of edges in images. Most importantly,
Canny also produced a computational theory of edge detection explaining why the
technique works. It was developed by John F. Canny in 1986 . The edges are
coloured to indicate the edge direction: yellow for 90 degrees, green for 45
degrees, blue for 0 degrees and red for 135 degrees.
Wykrywanie naroży
(Corner detection)
• A corner can be defined as the intersection of two edges. A corner can also be
defined as a point for which there are two dominant and different edge directions
in a local neighborhood of the point.
Wykrywanie grzbietów
(Ridge detection)
• Computer vision use differential geometric
definition of ridges and valleys at a fixed scale in a
two-dimensional image
Przykład obliczeniowej obróbki
obrazu
TEORIA OBLICZENIOWA DAVIDA
MARRA (1982)
Poziomy analizy
• David Marr traktował widzenie jako system przetwarzania informacji.
Wraz z Tomaso Poggio założył, że ten system zawiera trzy różne ale
dopełniające się poziomy analizy. Ta idea znana jest we psychologii
poznawczej jako hipoteza Marra o trzech poziomach.
• Poziom obliczeniowy: co robi system? ( np. jakie napotyka problemy i
jak je rozwiązuje), i co równie ważne, dlaczego to czyni.
• Poziom algorytmiczny/ reprezentacji : jak system czyni, to co czyni?
Dokładniej, jakich używa reprezentacji i jakie stosuje algorytmy, aby
budować i manipulować reprezentacjami.
• Poziom implementacji : jak system jest fizycznie zorganizowany? W
przypadku procesów biologicznych, jakie struktury nerwowe i jaka
aktywność nerwowa przebiega w systemie wzrokowym.
Etapy analizy obrazu siatkówkowego
David Marr zakładał, że analiza obrazu siatkówkowego przebiega w 4 odrębnych etapach,
przy czym każdy następny etap przejmuje wyjście poprzedniego i dokonuje na nim nowych
analiz. Etapami tymi są:
•
I. Opis z poziomu szarości– pomiar intensywności światła w każdym punkcie obrazu
siatkówkowego.
•
II. Szkic podstawowy
Po pierwsze
– Surowy szkic: wyodrębnienie obszarów które potencjalnie odpowiadają krawędziom i teksturze
rozpoznawanych obiektów;
Następnie
– Pełny szkic: wyodrębnione obszary wykorzystuje się do generowania obrysów obiektów w polu
widzenia
•
III. 2 1⁄2D Szkic zorientowany na obserwatora: w tym etapie opisy obiektów dotyczą tego,
jak powierzchnie w polu widzenia pozostające w relacji względem siebie, zorientowane są
względem obserwatora.
•
IV. 3D szkic zorientowany na obiekt– w tym etapie tworzone są opisy obiektów które
pozwalają na rozpoznanie obiektu z dowolnego punktu widzenia. ( tj. niezależnie od punktu
widzenia obserwatora).
Marr rozwinął swoją teorię głównie w oparciu o projektowanie symulacji komputerowych i
algorytmów, które mogły dokonywać stosownych analiz.
Pamiętajmy to jest obraz na siatkówce
Widzenie Sztuczne
Nie ma obiektu i tła
Nie ma krawędzi,
Nie ma naroży,
Nie ma powierzchni,
Nie ma części,
Nie ma faktury
Nie wiadomo, gdzie obiekt,
gdzie cień.
itd.
Tylko informacje o
intensywności
pobudzenia komórek
siatkówki.
I. Opis z poziomu szarości
Pierwszy etap teorii Marra zakłada tworzenie opisu dotyczącego intensywność tj jasność
światła w każdym punkcie siatkówki.
Ten opis dotyczący informacji o intensywności nazywany jest opisem skali
szarości , gdyż ograniczenie do intensywności wyklucza długość fal świetlnych
podających informację o barwach.
Jeśli wyłączymy kolor w telewizorze, pozostały obraz będzie czarno- biały, a
dokładniej przybierze różne odcienie szarości.
Marr nie ignoruje barw bodźców, ale ogranicza się do włączenia modułu przetwarzanie,
który przetwarza intensywność bodźców.
Informacja o kolorze przetwarzana jest przez inny moduł. Pozostałe moduły mogą
przetwarzać kształt obiektów, itd.
II.Szkic pierwotny:
Surowy szkic
Tworzenie szkicu pierwotnego zachodzi w dwóch etapach:
Pierwszy etap stanowi sporządzenie surowego szkicu z poziomu szarości przez <identyfikację
wzorów> zależnie od różnic intensywności poszczególnych punktów.
Duże zmiany intensywności ujawniają krawędzie obiektu, mniejsze- jego części i teksturę , a
jeszcze mniejsze- przypadkowe fluktuacje w odbijanym przez przedmiot świetle.
II. Szkic pierwotny:
Pełny szkic
Pełny szkic pierwotny zawiera informacje o organizacji obrazu, szczególnie w odniesieniu do
umiejscowienia, kształtu, tekstury i wewnętrznych części dowolnych obiektów w polu widzenia.
Program komputerowy dokonuje tego przez przypisanie znaczków lokalizacyjnych (location
tokens) dotyczących obszarów poziomu szkicu surowego na podstawie regionów (blobs),
krawędzi-segmentów, pasków. Przypisanie znaczków lokalizacyjnych sprawia, że tworzą się
grupy obiektów, które mogą podlegać dalszej organizacji przez przypisanie znaczków wyższej
hierarchii.
Szkic pierwotny „tygrysa”
Surowy szkic tygrysa zawierałby informację o krawędziach ciała tygrysa, jak również o krawędziach i
wzorze tygrysich pasków i teksturze jego sierści.
W pełnym szkicu tygrysa znaczki lokacyjne poszczególnych włosów pozwalają na zgrupowanie
włosów w każdy z pasków wzoru tygrysiej skóry.
Znaczniki miejsca dla każdego paska zostałyby dalej grupowane, gdyż pojedynczy pasek biegnie
równolegle do innych pasków wzdłuż ciała tygrysa.
Z tej analizy wynika, że trzeba przynajmniej dwóch poziomów znaczników lokalizacji.
Różne mechanizmy powodują przypisywanie znaczników lokalizacyjnych składnikom surowego szkicu
i tworzenie coraz to wyższych hierarchii. Są one zbliżone do zasad tworzenia Postaci ze względu na
bliskość, dobrą kontynuację, kontur urojony itd..
2 ½ D Szkic zorientowany na widza
Według Marra, dwu i pół wymiarowy (2 ½ D ) szkic składa się z serii szkiców pierwotnych, które
zawierają wektory (linie odnoszące się do orientacji powierzchni i kierunku).
Wektor to „strzałka,” której zwrot mówi nam, gdzie zorientowana jest płaszczyzna, zaś długość
mówi nam, jak jest nachylona względem obserwatora.
Niżej widać 2 ½ wymiarowy sześcian.
Marr sugeruje, że każdy wektor może także zawierać liczbę wskazującą na odległość punktu
względem obserwatora.
3D Opis zorientowany na przedmiot
Marr (1982) ujmuje tę transformację jako przejście z 21/2D opisu zorientowanego na widza
na 3D opis zorientowany na obiekt, który pozwala na rozpoznawanie obiektu, mimo zmian
punktu widzenia.
W artykule z 1978 roku Marr i Nishihara sugerują, że obiekty można reprezentować
poprzez tworzenie 3D opisów zorientowanych na obiekt
Proponują przyjęcie kanonicznej ramy koordynat. To oznacza, że każdy obiekt
reprezentowany jest wewnątrz takiej ramy odniesienia , która posiada taki sam kształt jak
obiekt.
Np.. można sobie wyobrazić reprezentację marchewki, która byłaby długim stożkiem.
Takie przekształcenie jest paradoksalne, jako że trzeba byłoby wcześniej znać przybliżony
kształt obiektu, który mamy rozpoznać!
Pamiętajmy jednak, że tworzenie 3D opisu zorientowanego na obiekt następuje już po
długiej analizie obrazu siatkówkowego , i istnieją już informacje o ksztsałci/ obrysie.
3D reprezentacja
„czegoś”
Poniżej znajduje się opis jednej z metod
znajdowania osi obiektów, sugerowany
przez Marr and Nishihara (1978) is
illustrated.
(a) to jest „coś”.
(b) krok pierwszy to wyodrębnienie z
„czegoś” wypukłości (+++) i wklęsłości
obrysu (- - -).
(c) Teraz wyszukując maksymalne
wklęsłości obrys można rozdzielić na
sekcje.
(d) Z pomocą tych sekcji można podzielić
obiekt na mniejsze części.
(e) Powstaje możliwość wyodrębnienia w
poszczególnych częściach osi tych części.
(f ) ….
Source: Marr and Nishihara, 1978
Rozpoznanie obiektu
Tak został w kilku etapach wygenerowany trój-wymiarowy model obiektu.
Ale system przetwarzania nadal nie wie co to jest?
Wtedy model jest porównywany z danymi o modelach xzawartymi w magazynach
pamięci komputera i wyszukiwany jest egzemplarz, który najlepiej pasuje do modelu.
Egzemplarz najlepiej dopasowany jest podstawą dalszych porównań.
Proces porównań zatrzymuje się, kiedy uzyskany poziom odpowiada poziomowi
szczegółów zawartych w modelu.
Wtedy następuje rozpoznanie: To jest osiołek.
As the model is 3D, it allows recognition of the object from many angles and its
hierarchical nature allows recognition of the entire object whilst maintaining more detailed
information about the components.
Teoria obliczeniowa Davida
Marra
Teoria ekologiczna
Jamesa Gibsona
Praktyka percepcji
Spostrzeganie twarzy
• Teoria analizy cech twarzy ( bottom – up)
• Teoria całościowa ( top – down)
• Teoria Bruce i Young (1986)
Feature Analysis Theory (bottom – up)
This is the first theory of face recognition; perceiving person looks at individual parts or
features (nose, mouth, hair) of the face in recognizing it.
Aim
To see how features are used when recalling unfamiliar
faces.
Method
Participants were briefly shown faces of people they had
never seen before, and then had to describe the face.
Results
The features most often recalled were (from most to least
frequent): hair, eyes, nose, mouth, eyebrows, chin and
forehead.
Conclusion
Evaluation o theory
Faces of unfamiliar people tend to be recalled using the
face's main features; this suggests we view faces as
described in feature analysis theory.
Because of the nature of the experiment, that participants
were asked to describe a face, would make them more
likely to describe individual features, however,
face recognition could work differently.
Holistic Form Theory (top - down)
This theory says we look at the face as a whole (i.e. spacing, overall shape),
including stored information related to it, for example emotion (which is important when
recognizing a friend or relative).
It is said to be atop-down theory because you look at the bigger picture first.
Aim
Find out how important layout of faces is when
processing them.
Method
Pictures of famous faces where cut in half
horizontally. Participants had to first identify the
face from one half. And in the second condition
the two halves were put together to make a
composite.
Results
It took longer to recognise the composites than
the halves.
Conclusion
In the composite condition a new face
composition was formed, thus making it more
difficult to identify the two separate people.
Evaluation
There is always a problem with using 'famous'
faces, since a face that is famous to one person
may not be to another.
Prozopagnozja (agnozja twarzy
Prozopagnozja (agnozja twarzy, z gr. πρόσωπον = "twarz" + αγνωσία = "niewiedza")
– zaburzenie powstałe na skutek uszkodzenia mózgu, polegające na braku
rozpoznawania twarzy znajomych lub widzianych już osób, a także ich wyrazu
emocjonalnego. Zaburzenie może mieć również podłoże genetyczne.
Urojeniowy syndrom błędnej identyfikacji
•
Do DMS zalicza się następujące zaburzenia:
•
Zespół Capgrasa - chory utrzymuje, że osoby z jego otoczenia (zwłaszcza
członkowie rodziny) zostały zamienione na obcych, tyle że identycznie
wyglądających
•
Zespół Fregoliego - przekonanie chorego, że wszystkie osoby, które spotyka to w
rzeczywistości ta sama osoba zmieniająca swój wygląd
•
Zespół inter-metamorfozy - przekonanie, że osoby w otoczeniu chorego
wymieniają między sobą nie tylko tożsamość, ale i wygląd
•
Zespół sobowtóra - chory jest przekonany, że istnieje osoba identyczna z nim
samym zarówno pod względem psychicznym jak i fizycznym

similar documents