音情報処理I - 奈良先端科学技術大学院大学

Report
音響信号処理特論
音声信号処理の基礎(その1)
奈良先端科学技術大学院大学
情報科学研究科 音情報処理学講座
猿渡 洋
(2013年5月24日)
本講義について
講義内容:音声・音響信号処理,統計信号処理
参考書:
(以下は必須ではありませんが、講義の補助教材として参考程度に挙げておきます)
• 鹿野、中村、伊勢 「音声・音情報のディジタル信号
処理」昭晃堂
• 大賀、山崎、金田 「音響システムとディジタル処理」
電子情報通信学会 など
評価方法:レポート2回(もしくは3回)+平常点
(レポート70%、平常点30%)
講義目標と日程
音声・一般音響信号処理の基礎理論および応
用技術例の解説を通じて,音響信号処理技術
について理解を深めることを目標とする.
講義日程(全て1日2コマ実施):
•
•
•
•
•
•
5月24日
5月31日
6月 7日
6月21日
7月12日
7月26日
音声信号処理の基礎
音声信号処理の基礎2
音響信号処理の基礎(雑音抑圧など)
音響信号処理の基礎2(逆フィルタなど)
さらに進んだ音響信号処理(ICA、BSS)
音響システムアプリケーション(3コマ)
猿渡担当分の講義資料について
講義資料は以下から各自入手すること
http://www.aist-nara.ac.jp/~sawatari/
(注)PowerPointとプリンタの相性により、配布資料形式
では一部数式が文字化けしていることがあります。そ
のような場合には、上記から資料を入手し「1ページ1
枚のモード」でプリントアウトしてみてください。
音声とは?
音声信号の特徴
• 人間の口から発せられる言語構造をもつ信号
• 基本周波数:
• 男性平均125 Hz
• 女性平均250 Hz
• スペクトル構造:
• 長時間平均的には800 Hzまではほぼ平坦,
• 800 Hz以上は -10 dB/octの傾斜をもつ
比較的 低周波数帯域にエネルギーが集中する信号
ディジタル音声処理
我々が耳にすることができる音声信号は…
• 口から発せられた原音声信号は,空気を媒体とし
て伝達され,耳(マイクロホン)に到達する.
• 音声信号をディジタル化した後、機械による処理
ディジタル音声処理のメリット
• 極めて技巧を凝らした(アナログでは処理できな
いような)信号処理を容易に実現可能
• ディジタル処理は信頼性があり装置がコンパクト
ディジタル音声処理の流れ
AD変換
原音声
信号
s(t )
標本化:離散時間化
マイクロホン
量子化:離散振幅化
我々が実際に扱うことのできる信号は…
振幅
離散振幅化
時間
離散時間化
計算機へ
Shannon-染谷の標本化定理1
• アナログ信号波形 x(t ) が0~W [Hz]に帯域制限
されているとき、 x(t )をT=1/2 W [s]ごとに標本
化すれば、標本値系列から以下のように波形再
生を行うことができる。
i  sin2W t  i / 2W 

x(t )   x

i   2W 
2W t  i / 2W 

標本化周期T=1/2W
Shannon-染谷の標本化定理2
1/T=2 W [Hz]: ナイキストレート
(例1)電話音声: W =4 [kHz] ⇒T=1/8000 [s]
(例2)通常音声: W =8 [kHz] ⇒T=1/16000 [s]
:
(例2)音楽信号: W =20 [kHz] ⇒T=1/40000 [s]
(因みにCDは48000 [Hz]でサンプリングされている)
音声の特徴抽出
音声の性質をよく表す特徴の抽出とは?
⇒時間波形をそのまま使用せずに周波数領域で特徴量を
記述することが多い。
理由:
• 音声波形は、振幅と位相が時間的にゆるやかに変化する
正弦波の和で構成されていると近似可能
• 人間の聴覚による音声の知覚において重要な特徴は、主
として振幅情報に含まれており、位相情報は通常重要な
役割を果たしていない。
周波数特性(スペクトル特性)のみを抽出して分析すればよい
音声のスペクトル構造1
短時間スペクトル
• 音声は、短時間区間ごとの電力スペクトル密度(周波数
領域におけるパワー特性)で測ることが多い。
音声スペクトル構造の2要素
• 周波数とともにゆるやかに変化する成分[スペクトル包絡]
⇒発声器官の共振・反共振特性を表す
(つまり人間の喉・口の形をあらわす特徴量)
• 細かく周期的(有声音;母音などの場合)または非周期的
(無声音の場合)に変化する成分 [スペクトル微細構造]
⇒音源の周期性
(つまり声帯の基本周期・声の高低を表す特徴量)
音声信号のスペクトルはこれら2つの要素の積で表される
音声のスペクトル構造:発声構造
人間頭部の断面図
②
鼻腔
声道
の共振
音声の音色を与える
(スペクトル包絡構造)
①
声帯 の振動
音声の基本周期を与える
(スペクトル微細構造)
①×②=最終的な音声
音声のスペクトル構造:発声構造2
母音型
有声音源
音程(ピッチ)
声道共振
口放射
音韻性・音色を付与
子音型
声道(後)
無声音源
鼻音型
有声音源
声道(前)
口放射
鼻腔
声道(後)
口放射
声道(前)
音声のスペクトル構造:分析例
スペクトル微細構造
最終的な短時間スペクトル
F0(基本周波数)
→f
スペクトル包絡構造

F0
→f
我々が聞いているのは
このスペクトル
共振ピーク(ホルマント)
→f
音声のスペクトル分析手法
短時間スペクトルを求める2手法
• ノンパラメトリック分析とパラメトリック分析
ノンパラメトリック分析法:
• 分析対象の信号に関して、特にモデルを仮定せずに周波
数分析を行う手法。万能であるが抽出すべきパラメータは
多くなる。
• (例)DFT(離散フーリエ変換)分析,ケプストラム分析
パラメトリック分析法:
• 分析対象信号に対して特定のモデル化を行い、そのモデ
ルを表現する特徴パラメータを抽出する。音声をよく表現
するモデルを用意できるならば、能率的な分析が可能。
• (例)線形予測分析
DFTに基づく音声スペクトル分析
N点DFT(離散フーリエ変換)
• 準備:
x(n) は時間波形, X (k ) は周波数特性
x(n)  { x(0), x(1), ..., x( N 1) }
X (k )  { X (0), X (1), ..., X ( N 1) }
• 定義1(フーリエ正変換;時間から周波数領域へ)
N 1
X (k )   x(n)  e j 2kn / N
n0
• 定義2(フーリエ逆変換;周波数から時間領域へ)
1 N 1
x(n)   X (k )  e j 2kn / N
N k 0
DFTに関する注意
N点DFT(離散フーリエ変換)
• 準備:
x(n) は時間波形, X (k ) は周波数特性
x(n)  { x(0), x(1), ..., x( N 1) } ←実数
X (k )  { X (0), X (1), ..., X ( N 1) } ←複素数
• 定義1(フーリエ正変換;時間から周波数領域へ)
N 1
X (k )   x(n)  e j 2kn / N
n0
kが0からN/2
⇒ 周波数0 Hzから最高周波数(W Hz)に対応
kがN/2+1からNー1
⇒ 周波数ーW Hzからー0 Hzに対応(負の周波数を表す)
DFTに関する注意(続き)
X (k ) における周波数対称性
• X (k ) は、N/2点を境にして複素共役対称となる。
• ただし、k=0の点の対称点は X (k )の中には現れ
ない(k=Nの位置に現れるから)。
X (k )
(8点DFTの例)
0
2
複素共役対称
4
6
k
W Hz
0 Hz
通常はこの破線内のみを表示する
DFTスペクトル分析例1
4点DFT
x(n) が単位インパルス信号 x(n)  {1, 0, 0, 0 }
41
X (k )   x(n)  e j 2kn / 4
X (k ) の実部
n0
1
 1 e j 2 k 0 / 4
 1  j0
0
x(n)
0
1
2
3
n
2
3
n
3
n
X (k ) の虚部
DFT
1
1
0
1
2
DFTスペクトル分析例1(続き)
DFTスペクトルの別の複素数表現
X (k ) | X (k ) | e j ( k )
振幅スペクトル特性と位相スペクトル特性
• 振幅スペクトル特性:
周波数成分 X (k ) (複素数)の絶対値
⇒その周波数成分の強さを表す
• 位相スペクトル特性:
周波数成分 X (k ) (複素数)の実部と虚部のなす角度
⇒その周波数成分の位相(時間的な遅れ・進み)を表す
前述の例では振幅特性=1 (for all k), 位相特性=0 (for all k)
一般に音声分析では振幅特性のみを見ればよい
DFTスペクトル分析例2(周期関数)
8点DFT
x(n) が1個おきに単位インパルス信号(周期信号)
x(n)  {1, 0, 1, 0, 1, 0, 1, 0 }
 j 2 k 0 / 8
X (k )  1  e
4  j0

 0
 1 e
 j 2 k 2 / 8
1 e
(kが0,4の場合)
周期スペクトル
X (k )
DFT
1
2
 1 e
 j 2 k 6 / 8
(kがそれ以外の場合)
x(n)
0
 j 2 k 4 / 8
4
6
n
4
0
2
4
6
n
DFTスペクトル分析例2(続き)
数学的には…
x(n) が周期信号である場合には、その周波数特性 X (k )
も周期関数となる。
一般に音声における声帯音源信号は…
• 有声音の場合には「周期的三角波」
⇒ 声帯音源の振幅スペクトルは周期的な微細構造を
持つ。よって音声信号自体も周期的スペクトルとなる。
スペクトル微細構造
声帯音源波形
DFT
→t
F0(基本周波数)
→f
実用的なDFTスペクトル分析
問題点1: 波形の不連続性
• 時間波形 x(n) を短時間分析する場合、波形
を途中で切り出すことになる。しかし、波形を切り
出すタイミングによって、得られるスペクトル形状
が変動してしまう。
⇒分析区間の両端で振幅が緩やかに減少する窓
関数を波形に乗じて切り出す。
問題点2: DFT演算にかかる計算コスト
• N点のDFTを行うのにN×N回の積和が必要
⇒高速フーリエ変換アルゴリズムを使用することに
よりN・logN回の積和演算でN点DFTを計算可能
サウンドスペクトログラム1
時間波形
x(n) における短時間DFT分析
• 利点:
• 比較的定常な部分の静的な特徴を見ることが可能
(例)定常母音/a/の特徴を見る
• 欠点:
• 音声が定常と見なせるのはせいぜい40 ms程度まで
• 音声波形全体がどのように変化していったのかを見ることは出来
ない。
⇒解決策:
DFTによる短時間スペクトル分析を時間軸方向に連続し
て実行し、それらを「時間ー周波数領域」へ2次元表示
この表示はサウンドスペクトログラムとよばれる
サウンドスペクトログラム2
短時間DFT分析
x(n)
…
t1
…
→t
t2
t3
→f
→f
時間t と周波数f の2次元(濃淡)表示を行う
→f
t
サウンドスペクトログラム例
サウンドスペクトログラム3
周波数分解能と時間分解能間トレードオフ
⇒より細かく周波数成分をみようとする
⇒DFTにおけるNを大きくする
⇒サウンドスペクトログラムの時間幅が荒くなる
広帯域分析と狭帯域分析
• 広帯域分析:
• 周波数分解能300 Hz, 時間分解能 3 ms
スペクトル上の周期性はぼやけるが、時間方向の細かな変動は
表現可能
• 狭帯域分析:
• 周波数分解能45 Hz, 時間分解能 22 ms
時間方向の細かな変動はぼやけるが、スペクトル上の周期性は
表現可能
DFT分析のまとめ
波形情報から周波数特性へ
• 音声信号は波形そのものよりも、周波数(振幅)
スペクトル上に重要な情報がある
• 高速アルゴリズムにより簡単な実装
周波数特性から分かることは…
• 周期的なスぺクトル微細構造⇒声帯音源の周期
• スペクトル包絡構造⇒声道の共振特性
両者が混合されて観測されるためその分離は不可能である
音声認識など音韻の識別には包絡情報のみが必要
⇒DFT分析だけでは不充分。更なる包絡抽出分析法が必要
音声スペクトルからの情報抽出
音声信号スペクトル
1.スペクトル微細構造
• 周期成分 ⇒ 声帯の振動に対応
• その人個人が持つ「声の高さ」
2.スペクトル包絡構造
• 声道・鼻腔における共振・反共振特性
⇒ 各音韻ごとの違いに対応
• 音声認識処理などでは、この包絡情報に基づいて
識別を行う.
スペクトル包絡の代表的抽出法
ケプストラム法
• モデルを仮定しないノンパラメトリック法の一種
• 短時間スペクトル上において微細構造と包絡
構造とを分ける。
線形予測法
• 自己回帰モデルに基づくパラメトリック法
• 声道における共振特性をモデリング
ケプストラムとは?
ケプストラム(cepstrum)
• 波形の短時間振幅スペクトルの対数の逆フー
リエ変換として定義される。
• ケプストラム領域では、微細構造と包絡構造
に対応する各成分を容易に見分けることがで
きる。
“Cepstrum”とは、「スペクトルを逆変換する」と
いう意味を含めてspectrumをもじって作った
造語である。
(Bogert, 1963)
ケプストラム算出手順
フーリエ変換
時間波形
短時間スペクトル
絶対値
振幅スペクトル
フーリエ変換には、一般
にDFTが用いられる。
対数
対数振幅スペクトル
逆フーリエ変換
ケプストラム
音声の対数振幅スペクトル構造
スペクトル微細構造
対
数
振
幅
最終的な(短時間)
対数振幅スペクトル
F0(基本周波数)
→f
スペクトル包絡構造
対
数
振
幅

F0
→f
対数振幅スペクトル上
では、積が和に置き換
えられることに注意!
→f
対数振幅スペクトルとケプストラム
音声の対数振幅スペクトル
スペクトル微細構造
対
数
振
幅 fに関して速い周期関数

→f
ケプストラム
0
逆DFT
スペクトル包絡構造
対
数
振
幅

→t?
異なる場所に集中
して値が生じる
0
fに関して遅い周期関数
→f
→t?
典型的なケプストラムの構造
ケプストラム
0
低次
高次
→ quefrency
低次のケプストラムは
高次のケプストラムは
スペクトル包絡に対応
スペクトル微細構造に対応
それぞれ異なるケフレンシー
位置に値が生じるので、容易
に区別可能
単位は「時間」ではないが、周波数frequency
の逆数のようなものなので、それをもじって
“quefrency”(ケフレンシー)と呼ばれる。
リフタリングによる包絡構造抽出
ケプストラム
低次ケプストラムのみ残す
リフター
0
DFT
→ quefrency
スペクトル包絡が抽出される
対
数
振
幅
→f
低次ケプストラムのみをケフレ
ンシー領域で切り出す窓関数
を“lifter”(リフター)*という。
*周波数領域のfilterのもじり
ケプストラム処理の特徴
スペクトル構造の分解
• 対数を利用してスペクトル積を和に変換
• ケフレンシー領域へ変換することにより、スペク
トル包絡と周期的微細構造を区別可能にする。
• 単純な窓かけ操作(リフター)により、包絡成分
のみ(もしくは微細構造のみ)を抽出可能
少ない演算量
• スペクトル包絡成分を抽出するのに必要な演算
[対数演算+逆DFT+リフタリング+DFT]
⇒ 非常に少ない演算量で抽出可能
ケプストラム例
母音のケプストラムの典型例
スペクトル微細構造に対応する高次成分
基本周波数に対応
スペクトル包絡に対応する低次成分
ケプストラムによるスペクトル包絡
短時間スペクトル包絡の例
スペクトル包絡の時間遷移
→
抽出されたスペクトル包絡
時
間
DFTを用いたケプストラムの算出1
N点DFT
• 準備:
X (k )は周波数特性
X (k )  { X (0), X (1), ..., X ( N 1) } ←複素数
• ケプストラム
cn への変換
1 N 1
j 2 kn / N
cn   log | X (k ) | e
N k 0
1 N 1
  log | X (k ) |  cos2 kn / N 
N k 0
⇒ ケプストラムは必ず実数で与えられる
DFTを用いたケプストラムの算出2
•
cn は必ずN/2点に関して対称形となる。
⇒実際にケプストラムとして表示するのはN/2まで
(16点DFTの例)
cn
0
2
4
6
8
10
通常はこの破線内のみを表示する
12
14
n
DFTを用いたケプストラムの算出3
•
cn を表示するのはN/2までであるが、リフタリング
を行う場合は、全N点に関してリフターを適用する。
⇒ リフターもN/2点で対称になることに注意!
(16点DFTの例)
cn
0
リフター
2
4
6
8
10
12
14
n
ケプストラム分析のまとめ
長所
• 比較的単純な操作でスペクトル包絡抽出可能
• 高次ケプストラムも使用すれば基本周波数も抽出可能
問題点
• リフタリングのカットオフ位置をどのようにして決めるか?
• 抽出されたスペクトル包絡において、ホルマント共振があ
まり強く表示されない。
人間の聴覚系では共振点をより聞いていると言われている
⇒声道での共振をモデルにしたパラメトリック分析が有効

similar documents