Analýza řečového signálu
Obsah
Oscilogram
- skutečný obraz zvukového vlnění
Převod analogového signálu na digitální
- postup má dvě části - vzorkování (provádí se na časové / vodorovné ose signálu) a kvantizaci (provádí se na amplitudové / svislé ose signálu)
Vzorkování
- vzorkovací frekvence (fs) udává, kolikrát za 1 sekundu provádíme měření
- např. CD je vzorkováno na 44,1 kHz, řeč na 16 nebo 32 kHz
- vzorkovací teorém - fs musí být vyšší než dvojnásobek nejvyšší frekvencní složky signálu
- - na jednu periodu nejvyšší harmonické musejí připadnout alespoň dva vzorky
- - pokud by to tak nebylo, některé vrcholy nebo propady by při vzorkování nebyly zohlednené = aliasování (zkreslování signálu)
Kvantizace
- počet (velikost) intervalů amplitudy - čím jsou intervaly menší, tím je měření přesnejší - je možné škálu rozdělit do více stupňů)
- udává se v bitech
- 8bitové rozlišení poskytuje 256 možných intervalů amplitudy, 16bitové až 65536 intervalů
Spektrogram
- akustický korelát kvality zvuku
- nezobrazuje úplně přesně
- ← dá se nastavit – např. 100 Hz bude 0 a spektrogram jako šedou zobrazí např. jen všechno o 50 Hz nižší, ostatní je bílá
- možnost úpravy dynamiky
- spektrogram (i oscilogram, prostě analýza) počítá s tím, že zvuk je v nějakém okamžiku stacionární → počítá se průměr
- okno = analyzuje se jen část signálu, zleva a zprava se ořízne → pak se počítají průměry okna
- typy okénkových funkcí:
- - obdélníkové okno – normálně vyřízlé zprava a zleva (→ může být problém s navazováním, pokud se musí replikovat)
- - křivka – řeší ↑ problém – začíná jakoby na nule, pak stoupá a zase klesá k nule (takový cibulky za sebou) → lépe navazuje (nula na nulu)
- - Hammingovo (a Hannovo) okno
- - Gaussovo okno (používá se v Praatu)
Fouriérova transformace
- přepíná z oscilogramu na spektrogram (časové → frekvenční zobrazení)
Fouriérův teorém
- každá periodická složka je rozložitelná na sinusovky, cosinusovky (tzn. složité vlny na jednodušší)
- problémy:
- 1) řeč není periodická – řeší se replikací okna do nekonečna → trvání okna se stává periodou
- 2) v počítači je řeč binární (digitální), ne analogická → algoritmus DFT (diskrétní Fouriérova transformace) – analýza binárního signálu
- z počátku velice časově náročná → 1965? vynalezena FFT (fast Fouriér transform) – v okně je vždy počet vzorků odpovídající mocnině dvou → rychlejší
- výsledkem je amplitudové spektrum
- podstata – počítá se korelace mezi složenou vlnou a SIN / COS
- - máme jednoduchou složenou vlnu a zajímá nás, jaký má vztah k SIN
- - korelace se počítá tak, že se vynásobí hodnoty vln, které jsou přesně nad sebou a podle toho, jestli jsou na stejné nebo odlišné straně od nuly se jim dá buď plus, nebo mínus
- → dostaneme, nakolik se ty vlny shodují (ta složená a ta SIN)
- - počítá se vlastně čárové spektrum ve všech frekvencích, i různě fázově posunuté
- - pomocí toho děláme z vlny spektrogram – ta korelace nám říká, jak silná (co do intenzity) je ta vlna v určité frekvenci → takové ty černé fleky ve spektrogramu v Praatu
- Fouriérovo spektrum není úplně přesné ← moc „kopečků“ → musí se vyhlazovat:
- 1) metoda LPC (linear predictive coding) – lineární predikce
- - statistická metoda
- - říká, že n-tý vzorek x(n) je nějakou lineární kombinací vzorků předcházejících
- - chceme najít křivku, která to spektrum co nejefektivněji proloží
- - když chci najít funkci 10. řádu, LPC z toho udělá vlnu s 10 vrcholy a propady (to je jeden úsek, pak se to asi překlopí dolů a jede to jako SIN s víc vrcholkama)
- - musím vědět, kolik formantů chci najít a do jaké frekvence a LPC si podle toho spočítá ten řád
- 2) Fouriérova transormace od sebe oddělí jednotlivé složky vlny – udělá ze složené hodně jednoduchých – když na ty oddělené aplikujeme Fouriérovu transformaci ještě jednou, měla by oddělit jednotlivé složky spektra (a vrátit se zpět do časového zobrazení) – hlavní složky jsou filtr vokálního traktu a hlasivkový signál
- → tak vznikne kepstrum (← spektrum) – oddělený filtr a hlasivkový signál → signál umažeme, zbyde filtr → znovu Fouriérovu tranformaci a vznikne už jen vyhlazené spektrum
- - je to vlastně Fouriérova transformace logaritmu Fouriérovy transformace
Vlnková transformace
- nekoreluje se sinusovkami a cosinusovkami, ale s vlnkami
- jsou různé druhy vlnek – různě vysoké a široké kopečky ve vlnce
- vlnka je časově definovaná – když mám takhle dlouhé okno, program vezme stejně dlouhou vlnku
- je to kombinace „krátkého“ a „dlouhého“ pohledu, je ve vývoji
Autokorelace
- základní algoritmus, který se používá i v Praatu
- = korelace (porovnávání) vlny samy se sebou, ale s nějakým fázovým posunem
- - kdyby se neposouvala → maximální korelace, ale potřebujeme najít max. korelaci pro nenulový posun → základní perioda a základní frekvence F0
- násobíme jednotlivé vzorky a pak sečteme (jako u Fouriéra)
- dělá chyby – např. může za F0 prohlásit frekvenci dvojnásobnou nebo poloviční = oktávové skoky
- silný první F může také narušit detekci
Kepstrum
- metoda získání vyhlazeného spektra
- časová reprezentace
- většinou se vyjadřuje ve vzorcích
- T0 = ten nejvyšší vrcholek někde uprostřed = základní perioda (udává se v ms)
- levá část nějakým způsobem popisuje formanty, ale neví se, jak
- jediným jasným výsledkem je právě perioda
- původně navrženo pro získání F0 (až pak se zjistilo, že když F0 odfiltrujeme, získáme vyhlazené spektrum)
- vymýšlejí se stále nové metody na získávání F0 – stále neexistuje spolehlivá metoda
Reference
- Palková, Z. (1994): Fonetika a fonologie češtiny. Praha: Karolinum. (vybrané části)
- Kent, R. D. - Read, C. (1992): The acoustic analysis of speech. San Diego: Whurr Publishers.
- Johnson, K. (2003): Acoustic and auditory phonetics. Oxford: Blackwell Publishing.
- Stevens, K. N. (1998): Acoustic phonetics. Cambridge, Massachusetts: MIT Press. (vybrané části)
- Harrington, J. - Cassidy, S. (1999): Techniques in speech acoustics. Dordrecht: Kluwer. (vybrané části)