2 - Compresia imaginilor. Generalitati

Report
UNIVERSITY POLITEHNICA of BUCHAREST
DEPARTMENT OF COMPUTER SCIENCE
Conf. Dr. Ing. Costin-Anton Boiangiu
<[email protected]>
Cuprins
1.
2.
3.
4.
5.
Introducere. Reprezentarea imaginilor
Aspecte ale perceptiei vizuale
Necesitatea compresiei imaginilor
Tehnici de baza in compresia imaginilor (imagini statice)
Standarde in compresia imaginilor. Exemple
Reprezentarea imaginilor
 Imaginile
discretizate sunt reprezentate prin tablouri
bidimensionale de forma de mai jos
 Pentru cazul simplu al unei imagini cu niveluri de gri, imaginea
discretizata este reprezentata printr-o matrice
x  x ( n1 , n 2 ) | 0  n1  N 1  1,
0  n 2  N 2  1
Reprezentarea imaginilor
 Intensitatile imaginilor pot fi reprezentate ca numere fara semn, pe un numar de n –
simboluri binare:

x ( i , j )  0 ,1,2 ,..., 2
n

1
sau intr-un format cu semn, de forma:

x( i , j )   2
n 1
, 2
n 1
 1,...,  1,0 ,1,2 ,..., 2
n 1

1
 Cel mai des n=8, insa pot fi si valori mai mari
 De exemplu n=12 pentru aplicatii medicale sau n=16 pentru aplicatii militare
 Imaginile color sunt reprezentate tipic prin trei valori:
 rosu
x R ( i , j )  x( i , j , k )
 verde
 albastru (RGB= Red, Green, Blue), de forma
x G ( i , j )  x( i , j , k , q )
x B ( i , j )  x( i , j , k , q , v )
Tipuri de imagini
 Exista
3
categorii de
imagini
discretizate,
fiecare
cu
anumite
particularitati:
 imagini “naturale“
 imagini text
 imagini grafice
fiecare dintre acestea
avand trasaturi specifice
de corelatie
Semnalele video uzuale
 Captarea imaginilor din exterior si convertirea lor in semnale
electrice analogice - operatie efectuata de camerele video - defineste
procesul de intrare video, sau filmare
 Semnalele video obtinute pot fi apoi stocate pe suport magnetic
(videobenzi si videocasete) sau transmise sub forma de semnal TV
 Semnalul electric ce provine de la camerele video are in mod
obisnuit trei componente, ce corespund celor trei culori esentiale, de
compozitie video: rosu, verde si albastru (RGB - Red, Green, Blue)
 Componenetele RGB sunt puternic corelate si – ca urmare – nu se pot
obtine rapoarte de compresie deosebite
 Pentru difuzare, se construieste din cele trei componente de baza un
singur semnal, denumit "semnal compozit", care codifica dupa anumite
expresii informatia video de transmis
Semnalele video uzuale
 Semnalul YUV (caracteristic pentru sistemul PAL): expolateaza
proprietatea ochiului uman de a fi mai sensibil la intensitatea
luminoasa (luminanta) decat la informatia de culoare (crominanta)
 Rezulta ca in loc de a separa culorile in componentele esentiale, se poate
separa informatia de luminanta (Y) de informatia de culoare (doua
canale de crominanta: U si V)
 Relatiile dintre componentele Y,U,V si R,G,B sunt exprimate in
formulele:
Y = 0.30R + 0.59G + 0.11B
U = 0.493(B-Y)
V = 0.877(R-Y)
 Compunerea lor se face dupa relatia:
Y  U sin 2 pif s t   V cos 2 pif s t 
Semnalele video uzuale
 Componenta de luminanta (Y) trebuie transmisa intotdeauna din motive de
compatibilitate; receptoarele alb-negru utilizand-o in mod obligatoriu, celelalte doua
fiind utilizate in plus, de receptoarele color
 Orice potentiala eroare in componenta de luminanta (Y) este mai importanta decat in
valorile de crominanta (U, V)
 De aceea pentru luminanta se aloca o latime de banda de transmisie mai mare ca
pentru crominanta
 Semnalul YIQ: este asemanator cu codificarea YUV si sta la baza standardului TV
NTSC:
 Compunerea lor se face dupa relatia
Y  I cos 2 pif s t   Q sin  2 pif s t 
Aspecte ale perceptiei vizuale
 Sensibilitatea la contrast variaza functie de frecventa
spatiala
 Cel mai sensibil este la frecvente joase:
Aspecte ale perceptiei vizuale
 Oamenii sunt mai sensibili la stralucire decat la culoare
 Modelul vederii colorate are la baza vederea tri-cromatica: ochiul
poseda 3 tipuri de senzori, fiecare sensibil inrtr-o anumita gama
de lungime de unda
 Daca :
s1 (  )
s2 (  )
s3 (  )
reprezinta functiile de absorbtie ale pigmentilor din retina, atunci
receptorii produc un semnal de forma:
ei 
 C (  )  e i (  )d 
unde C (  ) reprezinta distributia spectrala de energie a sursei de
lumina incidente
Aspecte ale perceptiei vizuale
 Perceptia miscarii este realizata daca miscarilor sunt cu o
frecventa mai mare de 24 imagini (cadre) / sec
 Ochiul este sensibil la schimbarile in luminanta si pe axa
albastru-galben
 Vederea presupune detectia marginilor (muchiilor)
 Este posibila mascarea vizuala prin schimbari mari ale
luminantei
Necesitatea compresiei imaginilor
 Transmisia si memorarea imaginilor necesita capacitati de memorie foarte mari
 In figura de mai jos se prezinta necesarul de memorie pentru diferite formate de
imagine
 De exemplu, numai pentru nivele de gri cu 256 de valori pentru un pixel, un cadru de
imagine in format SVGA necesita 800*600*8biti / (8 biti /Octet) = 500 KB iar pentru
HDTV este nevoie de 2MB
Necesitatea compresiei imaginilor
 Complexitatea problemei creste daca se considera imaginile color unde
fiecare pixel are nevoie de inca 3 octeti pentru informatiile de culoare RGB
 Daca se doreste transmisia unei astfel de imagini pe un canal telefonic cu
viteza de 10 Kb/s este nevoie de o durata
T = (800 pixeli * 600 pixeli * 8 biti * 3 culori ) / ( 10 Kb / s) / 60 s / min)=
19.2 min
 In cazul imaginilor dinamice, cum este cazul televiziunii, debitul de
informatie poate ajunge la 10 MB/s cee ce necesita canale speciale de
transmisiune si capacitati foarte mari de memorare
 De exemplu, un cadru de 512 x 512 pixeli, cu 8 biti pe culoare si 30 de cadre
pe secunda, o imagine digitala are un debit de informatie de:
512 * 512 * 8 *3 * 30 = 188 Mb /s = 23 MB /s.
Necesitatea compresiei imaginilor
 Obiectivul compresiei imaginilor este de a reduce numarul de
biti pentru a memora sau a transmite imaginile fara pierdere
semnificativa de informatie
 Algoritmii de compresie a imaginilor se bazeaza pe
proprietatile statistice ale imaginilor, si anume pe corelatiile
parametrilor unui set succesiv de pixeli
 Astfel, daca parametrii unui doemniu spatial de pixeli sunt
similari, atunci parametrii unui pixel din acel domeniu poate fi
exprimat in functie de parametrii celorlalti pixeli, deja codati
 O valoare mare a corelarii implica o distributie spectrala de tip
trece jos si, deci, necesitatea folosirii unei capacitati reduse pentru
transmisie
 Rezulta ca gradul de compresie al unei imagini depinde crucial de
proprietatile statistice ale elementelor imaginii
Necesitatea compresiei imaginilor
 Aplicatiile tipice pentru transmisia imaginilor sunt:
 televiziunea
 comunicatii pentru telemasura
 teleconferinte
 transmisii fax
 Stocarea imaginilor este necesara in:
 aplicatiile medicale
 aplicatiile de instruire
Necesitatea compresiei imaginilor
 Redundanta unei imagini depinde de o serie de parametri tehnologici
(adica de sistemul ce utilizeaza imagini) si se refera la:
 frecventa de esantionare
 numarul de niveluri de cuantizare
 prezenta si tipul de de zgomot
 Raportul de compresie arata raportul dintre numarul de biti pentru
reprezentarea imaginii originale si numarul de biti necesar pentru
reprezentarea imaginii comprimate
 Prezenta unui zgomot in imaginea originala va reduce corelatia dintre
pixeli si determina scadarea raportului de compresie posibil a fi obtinut
 Acelasi lucru se intampla si in cazul cresterii numarului de nivele de
cuantizare, cand iarasi se reduce corelatia dintre pixeli si, deci, raportul
de compresie poate sa fie mai mic
Tehnici de compresie a imaginilor
 Metodele de compresie pot fi clasificate in urmatoarele
categorii:
 metode care elimina redundanta informationala a imaginii de baza
 metode care elimina irelevanta informationala bazandu-se pe
modelul perceptiei vizuale a omului, deci a portiunilor sau
parametrilor imaginii care nu sunt percepute de om
 metode care trunchiaza imaginea originala, astfel incat imaginea
refacuta dupa compresie este o aproximatie a imaginii originale
 Algoritmii de compresie folosesc una sau mai multe tehnici din
categoriile de mai sus
Tehnici de compresie a imaginilor
 Din punctul de vedere al pierderii de informatie, metodele de
compresie pot fi:
 fara pierdere de informatie
 cu pierdere de informatie
 Metoda cu pierdere de informatie, cunoscuta si sub numele de
compresie ireversibila:
 Imaginea reconstruita nu este identica cu imaginea originala
 Se pot obtine rapoarte de compresie mari
 Raportul de compresie este cu atat mai mare cu cat gradul de
distorsiune acceptat este mai mare
Tehnici de compresie a imaginilor
 Metode de compresie fara pierdere de informatie:
 Se mai numesc metode de compresie reversibile sau cu pastrarea
bitilor (bit-preserving)
 Aceste metode se pot folosi in cazul imaginilor din aplicatiile
medicale, cand nu este permisa o degradare a informatiei
bilologice reprezentate de pixeli, intrucat altfel pot afecta
diagnosticul
 Rapoartele de compresie sunt foarte mici si nesemnificative
 Exista 3 strategii de baza:



codarea plana a bitilor
codare predictiva fara pierdere de informatie
codarea fara erori a diferentelor
Tehnici de compresie a imaginilor
 Metode de compresie fara pierdere de informatie (cont):
 Compresia fara pierdere de informatie pleaca de la
reprezentarea binara a imaginilor si se aplica unul din
algoritmii de codare entropica:


Huffman
Lempel-Ziv
 Nu se admite pierdere de informatie
 Rata de compresie depinde de algoritmul entropic folosit si
nu este foarte mare
 Aplicatiile importante ale acestui tip de compresie se refara
la imaginile binare (Fax) si imagini medicale
Tehnici de compresie a imaginilor
 Orice componenta a unei metode de compresie cu pierdere de
informatie poate fi implementata intr-o maniera adaptiva sau
ne-adaptiva
 O schema de compresie este adaptiva daca structura (numarul
si/sau valorile parametrilor) se schimba local in cadrul imaginii
pentru a folosi anumite particularitati ale statisticii locale
 Metodele adaptive ofera performante mai bune, dar implica
cresterea complexitatii
 Imaginile de intrare pot fi:
 imagini binare (cum sunt cele de tip text)
 continue (8 biti video, 12-biti medicale)
Clasificarea tehncilor de compresie
a imaginilor
Masuri de apreciere cantitativa
 Masurile de apreciere cantitativa nu sunt cei mai
importanti in evaluarea calitatii unei imagini reconstruite
dupa compresie
 Se folosesc numai pentru evaluarea eficientii codarii a
diferitilor algoritmii
 Masurile de baza se bazeaza pe:
 raportele semnal-zgomot
 eroarea medie patratica
 Fie o imagine de dimensiune NxM; fie s(i,j) intensitatea
imaginii in punctul aflat la intersectia liniei i cu coloamna
j si s’(i,j) intensitatea imaginii refacute in acelasi punct
Marimi
 Eroarea medie patratica (MSE = Mean Square Error)

MSE  E s ( i , j )  ˆs ( i , j )
2
  MN
1
N
M
  s ( i , j )  ˆs ( i , j )
2
i 1 j 1
 Eroarea medie patratica normalizata (NMSE = Normalized
Mean Square Error) se obtine prin raportare la energia
semnalului de la intrare:
N
NMSE 

2
E s ( i , j )  ˆs ( i , j ) 

E s ( i , j )
2

M
  s ( i , j )  ˆs ( i , j )
  i 1 j 1
N
M
  s ( i , j )
i 1 j 1
sau prin raportare la intensitatea imaginii:
NMSE p 

E s ( i , j )  ˆs ( i , j )
2
x pp
2

1
NM
N
M
  s ( i , j )  ˆs ( i , j )
i 1 j 1
2
x pp
2
2
2
Marimi
 Pentru o imagine cu rezolutie de 8 bit PCM, xpp este 255
 Daca se considera si momentele de timp prin indicele k, se
poate calcula eroarea medie patratica pe un domeniu de
timp caracterizat de P momente cu relatia:

TMSE  E s ( i , j , k )  ˆs ( i , j , k )
2
  MNP
1
N
M
P
2
ˆ


s
(
i
,
j
,
k
)

s
(
i
,
j
,
k
)

i  1 j  1k  1
Marimi
 Eroarea medie absoluta (MAE = Mean Absolute Error)
MAE  E  s ( i , j )  ˆs ( i , j )  
1
MN
N
M

s ( i , j )  ˆs ( i , j )
i 1 j 1
 Eroarea
medie absoluta normalizata
Normalized Mean Absolute Error)
N
NMAE 
E  s ( i , j )  ˆs ( i , j ) 
E  s( i , j ) 
M


s ( i , j )  ˆs ( i , j )
i 1 j 1
N
M

i 1 j 1
s( i , j )
(NMAE
=
Marimi
 Coeficientul de corelatie normalizat (NCC = Normalized
Correlation Coefficient)
NCC 
R ss (  )
R ss (  )  R ˆs ˆs (  )
E s ( i , j )  ˆs ( i , j )

N
E s ( i , j )  s ( i , j )  E ˆs ( i , j )  ˆs ( i , j )
M
  s ( i , j )  ˆs ( i , j )
i 1 j 1

N
M
 s
i 1 j 1
N
2
( i , j ) 
M
 ˆs
2
( i, j )
i 1 j 1
 trebuie sa fie 1 pentru o reconstructie ideala

Masuri de apreciere subiective
 Pentru evaluari subiective, se considera un grup de observatori,
considerand ca sunt experti in codarea imaginilor, care
analizeaza imaginile originale si cele procesate in conditii de
iluminare si de distanta adecvate
 Se calculeaza, ca si in cazul audio, un scor mediu al opiniilor
(MOS) pe baza unei scari de apreciere
 Exemplu:
Nr.
1
2
3
4
5
6
7
Opinia
Imperceptibila
Abia perceptibila
Perceptibila dar nu afecteaza
imaginea
Afecteaza imaginea dar nu
este deranjanta
Un pic deranjanta
Deranjanta
Intolerabila
Scor
7
6
5
4
3
2
1
Exemplu
 Figura alaturata prezinta 4
imagini in format “jpg” in
format gray (8 biti), deci
de la 0 la 255
 Dimensiunile matricilor ce
reprezinta imaginile sunt
de 200 x 200
 Imaginile au indiciii de
calitate, dupa formatul jpg,
de 90%, 40, 10% si 1%
Exemplu
Compresia prin re-cuantizare
Compresia prin re-cuantizare
 Scopul este reducerea numarului posibil de valori pentru codare
 Figura de mai jos arata mecanismul recuantizarii cu 4 domenii:
 Se obtine un raport de compresie dat de raportul dintre numarul initial de
niveluri si numarul nou de niveluri 4
 Fiecare valoare din fiecare intervalul va fi cuantizat cu un numar, iar la
decuantizare se inmulteste numarul memorat cu latimea intervalului de
recuantizare
Compresia prin re-cuantizare
 Raportul de compresie este
RC 
nc  nl  n _ bit _ per _ pixel
nc  nl  4

n _ bit _ per _ pixel
4

8
 2
4
Exemplu
 Sa se faca compresia imaginii de mai jos prin metoda
recuantizarii de la 8 la 2 biti pe esantion
 Dimensiunea imaginii este de 4x4 pixeli
 10

200

 200

 200
10
10
5
10
5
10
5
10
10 

200

200 

200 
Exemplu
 Plaja nivelelor de cuantizare, de la 0 la 255, este impartita in 4 domenii de
cuantizare, numerotate de la I0 la I3
 Fiecare interval este reprezentat prin numerele ce arata jumatatea intervalului
 Ceea ce trebuie memorat se refera la numarul intervalului, atat timp cat se cunoaste
latimea fiecarui interval
I0

I
 3
I3

I3
I0
I0
I0
I0
I0
I0
I0
I0
I 0  0
 
I3
3
  
I 3  3
 
I 3  3
0
0
0
0
0
0
0
0
0

3

3

3
Exemplu
Standardului CCITT
 Standardele CCITT T.4 si T.6 sunt elaborate pentru
compresia imaginilor alb-negru (transmisiii facsimile),
incluzand:
 rezolutii pentru scanare si tiparire
 restrictii de timp
 tolerante dimensionale, etc.
 Principiul de baza este codarea imaginii sursa in modul
linie dupa linie, corespunzator modului in care liniile sunt
tiparite si scanate intr-o masina de tip fax
Standardului CCITT
 Diferenta dintre cele doua standarde (T.4. si T.6.)consta in
modul in care sunt tratate liniiile succesive
 In primul standard liniile sunt codate independent, si, in al doilea
standard, liniile sunt codate cu referinta la liniile anterioare, ceea
ce duce la o compresie mai mare
 In primul standard o linie scanata este codata printr-o secventa
de numere de pixeli albi si negri, cu alternanta celor albi si
negri
 Fiecare secventa de pixeli este codata cu un numar variabil de biti
 Rapoartele de compresie sunt in general de ordinul 10:1 pentru
pagini de tipul textului scris
Standardului CCITT
 CCITT T.6 este mai complex, in sensul ca fiecare linie
este comparata cu linia anterioara, astfel incat – ca efect –
se considera si trasaturile verticale din imaginea sursa
 In loc sa se considere pixeli albi-negri alternanti, se
considera pozitiile pixelilor in care se schimba informatia,
deci se codifica pozitia fiecarui pixel inceput de trasatura
cu referire la linia precedenta
Exemplu

similar documents