Analýza řečového signálu: Porovnání verzí

Řádek 75: Řádek 75:
 
: - musím vědět, kolik formantů chci najít a do jaké frekvence a LPC si podle toho spočítá ten řád
 
: - musím vědět, kolik formantů chci najít a do jaké frekvence a LPC si podle toho spočítá ten řád
 
* 2) Fouriérova transormace od sebe oddělí jednotlivé složky vlny – udělá ze složené hodně jednoduchých – když na ty oddělené aplikujeme Fouriérovu transformaci ještě jednou, měla by oddělit jednotlivé složky spektra (a vrátit se zpět do časového zobrazení) – hlavní složky jsou '''filtr vokálního traktu''' a '''hlasivkový signál'''
 
* 2) Fouriérova transormace od sebe oddělí jednotlivé složky vlny – udělá ze složené hodně jednoduchých – když na ty oddělené aplikujeme Fouriérovu transformaci ještě jednou, měla by oddělit jednotlivé složky spektra (a vrátit se zpět do časového zobrazení) – hlavní složky jsou '''filtr vokálního traktu''' a '''hlasivkový signál'''
* → tak vznikne [[Anal%C3%BDza_%C5%99e%C4%8Dov%C3%A9ho_sign%C3%A1lu#kepstrum|kepstrum]] (← spektrum) – oddělený filtr a hlasivkový signál → signál umažeme, zbyde filtr → znovu Fouriérovu tranformaci a vznikne už jen vyhlazené spektrum
+
* → tak vznikne [[Analýza_řečového_signálu#Kepstrum|kepstrum]] (← spektrum) – oddělený filtr a hlasivkový signál → signál umažeme, zbyde filtr → znovu Fouriérovu tranformaci a vznikne už jen vyhlazené spektrum
 
: - je to vlastně Fouriérova transformace logaritmu Fouriérovy transformace
 
: - je to vlastně Fouriérova transformace logaritmu Fouriérovy transformace
  

Verze z 5. 9. 2014, 17:02

Příklad oscilogramu.

Oscilogram

  • skutečný obraz zvukového vlnění


Převod analogového signálu na digitální

  • postup má dvě části - vzorkování (provádí se na časové / vodorovné ose signálu) a kvantizaci (provádí se na amplitudové / svislé ose signálu)


Vzorkování

  • vzorkovací frekvence (fs) udává, kolikrát za 1 sekundu provádíme měření
  • např. CD je vzorkováno na 44,1 kHz, řeč na 16 nebo 32 kHz
  • vzorkovací teorém - fs musí být vyšší než dvojnásobek nejvyšší frekvencní složky signálu
- na jednu periodu nejvyšší harmonické musejí připadnout alespoň dva vzorky
- pokud by to tak nebylo, některé vrcholy nebo propady by při vzorkování nebyly zohlednené = aliasování (zkreslování signálu)


Kvantizace

  • počet (velikost) intervalů amplitudy - čím jsou intervaly menší, tím je měření přesnejší - je možné škálu rozdělit do více stupňů)
  • udává se v bitech
- 8bitové rozlišení poskytuje 256 možných intervalů amplitudy, 16bitové až 65536 intervalů


Spektrogram

  • akustický korelát kvality zvuku
  • nezobrazuje úplně přesně
  • ← dá se nastavit – např. 100 Hz bude 0 a spektrogram jako šedou zobrazí např. jen všechno o 50 Hz nižší, ostatní je bílá
  • možnost úpravy dynamiky
  • spektrogram (i oscilogram, prostě analýza) počítá s tím, že zvuk je v nějakém okamžiku stacionární → počítá se průměr
  • okno = analyzuje se jen část signálu, zleva a zprava se ořízne → pak se počítají průměry okna
  • typy okénkových funkcí:
- obdélníkové okno – normálně vyřízlé zprava a zleva (→ může být problém s navazováním, pokud se musí replikovat)
- křivka – řeší ↑ problém – začíná jakoby na nule, pak stoupá a zase klesá k nule (takový cibulky za sebou) → lépe navazuje (nula na nulu)
- Hammingovo (a Hannovo) okno
- Gaussovo okno (používá se v Praatu)


Fouriérova transformace

Převod časového zobrazení na frekvenční.
  • přepíná z oscilogramu na spektrogram (časové → frekvenční zobrazení)


Fouriérův teorém

  • každá periodická složka je rozložitelná na sinusovky, cosinusovky (tzn. složité vlny na jednodušší)
  • problémy:
1) řeč není periodická – řeší se replikací okna do nekonečna → trvání okna se stává periodou
2) v počítači je řeč binární (digitální), ne analogická → algoritmus DFT (diskrétní Fouriérova transformace) – analýza binárního signálu
z počátku velice časově náročná → 1965? vynalezena FFT (fast Fouriér transform) – v okně je vždy počet vzorků odpovídající mocnině dvou → rychlejší
  • výsledkem je amplitudové spektrum
  • podstata – počítá se korelace mezi složenou vlnou a SIN / COS
- máme jednoduchou složenou vlnu a zajímá nás, jaký má vztah k SIN
- korelace se počítá tak, že se vynásobí hodnoty vln, které jsou přesně nad sebou a podle toho, jestli jsou na stejné nebo odlišné straně od nuly se jim dá buď plus, nebo mínus
→ dostaneme, nakolik se ty vlny shodují (ta složená a ta SIN)
- počítá se vlastně čárové spektrum ve všech frekvencích, i různě fázově posunuté
- pomocí toho děláme z vlny spektrogram – ta korelace nám říká, jak silná (co do intenzity) je ta vlna v určité frekvenci → takové ty černé fleky ve spektrogramu v Praatu
  • Fouriérovo spektrum není úplně přesné ← moc „kopečků“ → musí se vyhlazovat:
  • 1) metoda LPC (linear predictive coding) – lineární predikce
- statistická metoda
- říká, že n-tý vzorek x(n) je nějakou lineární kombinací vzorků předcházejících
- chceme najít křivku, která to spektrum co nejefektivněji proloží
- když chci najít funkci 10. řádu, LPC z toho udělá vlnu s 10 vrcholy a propady (to je jeden úsek, pak se to asi překlopí dolů a jede to jako SIN s víc vrcholkama)
- musím vědět, kolik formantů chci najít a do jaké frekvence a LPC si podle toho spočítá ten řád
  • 2) Fouriérova transormace od sebe oddělí jednotlivé složky vlny – udělá ze složené hodně jednoduchých – když na ty oddělené aplikujeme Fouriérovu transformaci ještě jednou, měla by oddělit jednotlivé složky spektra (a vrátit se zpět do časového zobrazení) – hlavní složky jsou filtr vokálního traktu a hlasivkový signál
  • → tak vznikne kepstrum (← spektrum) – oddělený filtr a hlasivkový signál → signál umažeme, zbyde filtr → znovu Fouriérovu tranformaci a vznikne už jen vyhlazené spektrum
- je to vlastně Fouriérova transformace logaritmu Fouriérovy transformace


Vlnková transformace

  • nekoreluje se sinusovkami a cosinusovkami, ale s vlnkami
  • jsou různé druhy vlnek – různě vysoké a široké kopečky ve vlnce
  • vlnka je časově definovaná – když mám takhle dlouhé okno, program vezme stejně dlouhou vlnku
  • je to kombinace „krátkého“ a „dlouhého“ pohledu, je ve vývoji


Autokorelace

  • základní algoritmus, který se používá i v Praatu
  • = korelace (porovnávání) vlny samy se sebou, ale s nějakým fázovým posunem
- kdyby se neposouvala → maximální korelace, ale potřebujeme najít max. korelaci pro nenulový posun → základní perioda a základní frekvence F0
  • násobíme jednotlivé vzorky a pak sečteme (jako u Fouriéra)
  • dělá chyby – např. může za F0 prohlásit frekvenci dvojnásobnou nebo poloviční = oktávové skoky
  • silný první F může také narušit detekci


Kepstrum

  • metoda získání vyhlazeného spektra
  • časová reprezentace
  • většinou se vyjadřuje ve vzorcích
  • T0 = ten nejvyšší vrcholek někde uprostřed = základní perioda (udává se v ms)
  • levá část nějakým způsobem popisuje formanty, ale neví se, jak
  • jediným jasným výsledkem je právě perioda
  • původně navrženo pro získání F0 (až pak se zjistilo, že když F0 odfiltrujeme, získáme vyhlazené spektrum)
  • vymýšlejí se stále nové metody na získávání F0 – stále neexistuje spolehlivá metoda



Reference

  • Palková, Z. (1994): Fonetika a fonologie češtiny. Praha: Karolinum. (vybrané části)
  • Kent, R. D. - Read, C. (1992): The acoustic analysis of speech. San Diego: Whurr Publishers.
  • Johnson, K. (2003): Acoustic and auditory phonetics. Oxford: Blackwell Publishing.
  • Stevens, K. N. (1998): Acoustic phonetics. Cambridge, Massachusetts: MIT Press. (vybrané části)
  • Harrington, J. - Cassidy, S. (1999): Techniques in speech acoustics. Dordrecht: Kluwer. (vybrané části)

Zpět na rozcestník: Akustika | Fonetika