Szakdolgozat prezentáció - Informatikai Automatizált Rendszerek

Report
Készítette:
Nagy Levente
Konzulens:
Dr. Vámossy Zoltán egyetemi docens
2012.01.08.
A karakter felismerés két fő módja
Online-felismerés:
• kisebb erőforrás igény
• processzor idő
• memória
• több adat az inputról
• sebesség
• sorrendiség
• toll nyomásának erőssége
• valós időben kell feldolgozni
Offline-felismerés:
• csak a szöveg képe áll
rendelkezésre
• több idő áll rendelkezésre a
feldolgozáshoz
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
2
A kézzel írott szöveg típusai
Izolált karakterek:
Nyomtatott írás:
Folyóírás:
http://www.iform.hu/download/iform_keziras_felismeres_2oo4.pdf
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
3
A felismerési technológiák fejlődése:
http://www.parascript.com/company2/tech_overview.cfm
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
4
Alkalmazási területek
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
5
http://www.iam.unibe.ch/fki/databases/iam-handwriting-database
Input képek
6
Az input képek tulajdonságai
• angol nyelv
• folyóírás
• 1539 beolvasott oldal
• 657 különböző ember által
• több féle különböző tollal
• 15 különböző téma
• 115 320 szó, és „megoldásaik”
Felépítése:
• Sentence Database felirat
és az űrlap sorszáma
• a leírandó szöveg nyomtatva
• a kézzel írt szöveg helye
• az aláírás helye
Az egyes régiók egy vékony
vízszintes vonallal vannak
elválasztva.
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
7
A felismerés lépései
• a dokumentum binarizálása
• a dokumentum elforgatása
• a kézzel írt rész behatárolása
• a sorok kinyerése
• a sorok normalizálása
• a jellemzők kinyerése
• a jellemzők feldolgozása
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
8
Binarizálás
Eredeti
• a globális küszöbölések szkennelt
képek esetén megfelelőek lehetnek,
a homogén háttér miatt
Otsu
Isodata
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
9
Otsu binarizálás
- hisztogam alapú binarizálás
Y: előfordulások darabszáma
X: intenzitás mértéke
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
10
A dokumentum elforgatása
• például 2 fokonként forgatjuk a képet,
és minden állapotban készítünk a
képről egy vízszintes hisztogrammot
(projekciót)
• az lesz a helyes elforgatási szög, ahol
a legnagyobb csúcsok vannak
[1]
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
11
A dokumentum elforgatása
Fourier transzformációval:
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
• Fourier transzformáció
• Gamma korrekció és
kontraszt növelés
• Binarizálás magas
küszöbbel
• A középső és a legalsó
pont x koordinátabeli
különbségének
meghatározása
12
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
13
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
14
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
15
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
16
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
17
A kézzel írt rész behatárolása
Megvizsgált módszerek:
• Hough transzformáció (vonalkeresés)
• Vízszintes projekció
• Kontúrkeresés majd behatároló téglalap számítás
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
18
A kézzel írt rész behatárolása
Hough transzformációval:
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
19
Vízszintes projekcióval:
Fekete-fehér váltások száma:
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
20
Szürkeskálás kép projekciója:
Binarizált kép projekciója:
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
21
Binarizált kép projekciója:
Simított:
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
22
Vonalak megtalálása
kontúrkereséssel
A befoglaló téglalapok meghatározása:
Az a téglalap aminek szélessége legalább a 75%-a a dokumentum
szélességének, az lesz elválasztó egyenes.
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
23
Vonalak megtalálása
kontúrkereséssel
Az aláírás rálóg a vonalra:
Az utolsó sor rá van írva a vonalra:
• Ha a befoglaló téglalap tetejétől vágunk, nem marad bent a felesleges aláírás,
viszont elvész az utolsó sor
• Ha az aljától vágunk, akkor a sor meglesz, viszont az aláírás is
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
24
A sorok kinyerése
• szintén vízszintes hisztogram
• a völgyeknél lesz az elválasztó vonal
• átlógó vonások problémája
[2]
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
25
A sorok kinyerése
A simított vizszintes projekción meghatározott csúcsok által:
A simítás miatt a sorok alja és teteje levágódik, simítás nélkül viszont a zaj
miatt túl sok hamis csúcs keletkezne, és ez által hamis sorok.
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
26
A sorok kinyerése
Kontúrkeresés és befoglaló téglalapok:
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
27
A sorok kinyerése
Kontúrok + befoglaló téglalapok + kontúrok súlypontjai + sorok projekció alapján
28
A sorok kinyerése
Egybelógó sorok problémája:
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
29
A sorok elforgatása
• oszloponként a legalsó fekete pixel helyének
megkeresése (betűk talpa)
• ezen helyek felhasználása a lineáris regresszióban
• megkapjuk az írás alapvonalát
• ennek ferdesége alapján forgatjuk el a sort
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
30
A sorok elforgatása
Egyszerű lineáris regresszió
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
Kendall-Theil
31
Az írás dőltségének
megszüntetése
• itt függőleges hisztogramot készítünk a sorokról
• fokonként nyíró transzformációval forgatunk
• ahol a legmagasabbak a csúcsok a hisztogramban az a helyes
forgatási fok
[3]
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
32
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
33
Az írás dőltségének
megszüntetése
Globális dőlésszög meghatározással:
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
34
Sorok régióinak meghatározása
és normalizálása
• ki kell számolni a horizontális projekció deriváltját
• venni kell az értékek közül a legnagyobb 20%-ba
tartozókat
• ezeknek a súlypontját ki kell számolni
• az alsó és felső alapvonal a legalsó és legfelső helyen
lesz, ahol a távolság még kisebb a középvonaltól való
távolságok szórásának a felénél
[4]
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
35
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
36
A betűk szélességének
normalizálása
• az alsó- és felső alapvonal közt középen
elhelyezkedő vonal meghatározása (zöld egyenes)
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
37
A betűk szélességének
normalizálása
• a középvonal mentén előforduló fehér-fekete pixel
átmenetek megszámolása
• ez a darabszám jó becslést ad arra mennyi betű
lehet a sorban
• ennek függvényében nyújtjuk vagy zsugorítjuk
széltében a sort, hogy a betűk szélessége
normalizálva legyen
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
38
A kép intenzitásértékeinek
normalizálása
• A kép intenzitásértékeinek széthúzása 0-255 tartományba:
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
39
A jellemvektor
• offline-felismerés esetén 9 jellemző
• a számtani közepe a pixelek szürkeárnyalatos intenzitásainak,
• a pixelek súlypontja,
• a pixelek másodrendű súlypontja,
• a legfelső és legalsó pixelek helye,
• ezen helyek változásának mértéke a környező ablakokhoz képest,
• az előtér és háttér váltások száma a legfelső és legalsó pixelek között,
• az előtér pixelek eloszlása a legfelső és legalsó pixelek között.
• online-felismerés esetén 25 jellemző
• a fenti jellemzők mellett még pl.:
• a toll nyomásának mértéke
• a tollvonás sebessége
• az előző és következő időkeretben lévő pontokkal bezárt szög
• az előző és következő időkeretben lévő pontok közti távolság
• stb.
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
40
A jellemvektorok időkeretenként
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
41
Kitekintés
A jellemvektorok felhasználása:
A jellemvektorok valamilyen tanítóalgoritmus inputjaként
szolgálhatnak, ezek jellemzően:
• Rejtett Markov Modellek (Hidden Markov Models - HMMs)
• Mesterséges Neuronhálózatok (Artificial Neural Networks – ANNs)
• A Rejtett Markov Modellek már bizonyítottak számos szekvencia
osztályozási problémában, pl.: beszédfelismerés
• Neuronhálózatok esetében pedig azok a topológiák
alkalmazhatóak ahol a hálózat figyelembe veszi az időben
megelőző (és esetleg rákövetkező) inputokat is
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
42
Irodalomjegyzék
[1] E. Kavallieratou, N. Fakotakis és G. Kokkinakis, „Skew angle estimation
for printed and handwritten documents using the Wigner-Ville distribution”,
Image and Vision Computing 20, 2002, pp. 813-824
[2] R. Manmatha és J. L. Rothfeder, „A Scale Space Approach for
Automatically Segmenting Word from Historical Handwritten Documents”,
IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 27, no.
8, 2005, pp. 1212-1225
[3] M. Pastor, A. Toselli és E. Vidal, „Projection Profile Based Algorithm for
Slant Removal”, Image analysis and recognition: internaional conference,
ICIAR 2004, part 2, 2004, pp. 183-190
[4] M. Schüßler és H. Niemann „A HMM-based System for Recognition of
Handwritten Address Words”, In Proceedings of Sixth Int. Workshop on
Frontiers in Handwriting Recognition 98, Taejon, South Korea
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
43
Köszönöm a figyelmet
Kérdések
Óbudai Egyetem - Neumann János Informatikai Kar
Informatikai és Automalizált Rendszerek Szakirány
44

similar documents