Kepstri

Report
KANNANVAIHTO?
Kannanvaihto
• Vektori V voidaan esittää vaihtoehtoisten kantavektoreiden X1 ja X2, tai Y1 ja
Y2, tai Z1 ja Z2 avulla. Kertoimet W ovat kunkin komponenttivektorin pituuksia
(kun kantavektorit on normalisoitu pituuteen 1).
 = 1

2 1
2
 = 1

2 1
2
V
X2
Z1
Y2
 = 1 2
X1
1
0
Z2
Y1
• Vastaavasti signaalikehys voidaan ajatella vektorina, joka alun perin esitetään
kantavektoreiden δ(n-k) avulla, mutta joka voidaan esittää myös muiden
kantavektoreiden avulla.
• Fourier-muunnos on kannanvaihto, jossa (reaalinen) signaali esitetään
eritaajuisten kosini-aaltojen summana!
Fourier-muunnos kannanvaihtona
N 1
s (t ) 
 S (n )e
i
2f
nt
N
n0
N 1


n0
2 f
2 f


S ( n )  cos(
nt )  i sin(
nt ) 
N
N


N 1
 2  S ( n ) cos(
n0
Jos S on
symmetrinen
ja reaalinen,
kompleksiset
termit
häviävät!
2 f
N
nt )
1

1


s  1

:
1

1

1

 1

:
1

1
e
e
i
i
1
2 f
N
2 f
N
e
2
e
i
2
i
2 f
N
4
:
e
i
2 f
N
...
2 f
N
...
...
:
( N 1 )
e
i
2 f
N
( N 1 ) 2
1
cos(
1
2f
cos(
N
2 2  f
N
)
cos(
)
cos(
:
cos(

i
( N 1 )

e

2 f
i N 2 ( N 1 )
S
e


2 f
i N ( N  1 )( N  1 )

e

1
2 f
N
...
2 2  f
N
4 2  f
N
)
...
)
...
:
( N 1 ) 2  f
N
)
cos(
( N 1 )  2  2  f
N
)

( N 1 ) 2  f

cos(
)
N

2 ( N 1 ) 2  f
cos(
) S
N


( N  1 )( N  1 ) 2  f
cos(
) 
N
1
Fourier-muunnoksen reaaliset
kantavektorit
1
1
...
1
1

2f
2 2  f
( N 1 ) 2  f


1
cos( N )
cos( N )
...
cos( N )

 
2 2  f
4 2  f
2 ( N 1 ) 2  f
cos( N )
...
cos(
) S
s  1 cos( N )
N


:
:
:


( N  1 )( N  1 ) 2  f
1 cos( ( N 1 ) 2  f ) cos( ( N 1 )  2  2  f )
cos(
) 
N
N
N

Kepstri
englanniksi Cepstrum
Spektri on signaalin kannanvaihdos…
…niin on myös kepstri
Kepstri lasketaan spektrin logaritmista
• Äänen spektri S(w) muodostuu ääntöväylän
siirtofunktion H(w) ja kurkunpää-äänen siirtofunktion
G(w) tulona:
S(w) = H(w)G(w)
• Logaritmisena sama lauseke muuttuu yhteenlaskuksi:
Log(S(w)) = log(H(w)) + log(G(w))
• Nyt on periaatteessa helppoa erottaa kurkunpää-äänen ja
ääntöväylän spektrit kokonaisspektristä, kun ne ovat vain
summautuneet keskenään!
Spektrin jaksollisuus
Jaksollisen signaalin spektrissä näkyvät voimakkaina perustaajuuden
monikerrat eli harmoniset.
Niinpä jaksollisen äänen spektrikin näyttäisi olevan jaksollinen.
Voisimmeko esittää spektrin vielä jonkin muiden kantavektoreiden avulla siten,
että informaatio tulisi tallennettua tehokkaammin – ikään kuin
pääkomponenttiensa avulla?
Fourier-muunnoksella on jaksolliset kantavektorit. Entäpä jos tekisimme
spektrille vielä uuden Fourier-muunnoksen?
Spektristä kepstriin
• Kepstriä laskettaessa ajatellaan spektri ikään kuin
aikatason signaaliksi.
• Kun spektri on taajuusesitys aikatason signaalista,
niin kepstri on ’taajuusesitys’ spektristä. Tästä
nimi: spektri->kepstri
• Kun spektrin yksikkö on (englanniksi) frequency,
kepstrin yksiköksi on määrätty: ’quefrency’ joka
tosiasiassa on (pseudo)aika: t -> 1/t=f -> 1/f=t .
Kepstrin määritelmä
c x [k ] 
1
N
j 2k
N 1

log S ( n ) e
n
N
n0
• Reaalinen signaalikepstri määritellään
logaritmisena itseisarvo- tai tehospektrin
käänteisenä Fourier-muunnoksena.
• Koska reaalisen signaalin spektri S(n) on aina
symmetrinen funktio, voidaan Fouriermuunnos korvata kosinimuunnoksella.
Kepstri kosinimuunnoksen avulla
cs [k ] 

1
N
1
N
j 2k
N 1
 log
n
N
S (n) e
n0
N 1
 log
S ( n ) cos(
2k
N
n )  i sin(
2k
N
n)
n0
Koska S(n) on symmetrinen, kompleksiset sinitermit supistuvat pois:
cs [k ] 
1
N
N 1

log S ( n ) cos(
2k
N
n)
n0
Kosini II –muunnos lasketaan seuraavasti:
c x [k ] 
c log
1
N
Nämä ovat melkein samat!
N 1
 x ( n ) cos( 
k
N
( n  12 ))
n0
[k ] 
S (n)
1
N
N 1
 log
n0
S ( n ) cos(
k
N
( n  12 ))
DFT vs. DCT
• Fourier-muunnos voidaan korvata kosinimuunnoksella ja näin vähentää
laskentaa.
• Kosinimuunnoksen kantavektorit ovat lisäksi optimaalisemmat reaalisen,
symmetrisen signaalin esittämiseen.
kosinimuunnoksen kantavektorit
:
DFT-muunnoksen reaaliset kantavektorit
:
Puheen spektri- ja kepstrikomponentit
• Puhesignaalin tapauksessa oletetaan, että ääntöväylä
aiheuttaa spektriin laajoja resonanssialueita ja kurkunpääääni aiheuttaa harmonisen kampaspektrin.
• Jos siis spektrille tehdään taajuusanalyysi …
• …voidaan ajatella, että kepstrin pienen ajan quefrenssit
(matalat taajuudet) vastaavat ääntöväylän
spektriominaisuuksia
• ja pitkän ajan quefrenssit (korkeat taajuudet) vastaavat
kurkunpää-ääntä.
Kepstrin lifterointi
• Termi ’lifter’ on väännös sanasta ’filter’, ja tarkoittaa kepstrin
suodatusoperaatiota.
Short-Time Liftering
• Puheenkäsittelyssä kepstristä otetaan vain noin 20 ensimmäistä
komponenttia mallintamaan spektrin verhokäyrää.
Long-Time Liftering
• Kepstrin myöhemmän näytteet edustavat puheenkäsittelyssä
äänenkorkeutta ja sen harmonisia.
Middle-Time Liftering
• Hyvin pienen ajan kepstrikertoimet ovat herkkiä mm. spektrin
kaltevuudelle ja kurkunpääpulssin muodolle.
• Hyvin pitkän ajan kepstrikertoimet taas ovat herkkiä analyysikehyksen
ajallisille muutoksille.
• Puhujariippumattomassa puheentunnistuksessa tällaisten
henkilökohtaisten ominaisuuksien vaikutusta pienennetään lifteroimalla
kepstriä pehmeäreunaisella ikkunalla.

similar documents