Detail předmětu
Zpracování řečových signálů (v angličtině)
FIT-ZREeAk. rok: 2022/2023
Aplikace počítačového zpracování řeči, číslicové zpracování řečových signálů, tvorba a slyšení řeči, úvod do fonetiky, předzpracování a základní parametry, lineárně-prediktivní model, cepstrum, určování základního tónu hlasu, kódování - časová oblast a vokodéry, rozpoznávání - DTW a HMM, syntéza. Software a knihovny pro zpracování řeči.
Jazyk výuky
angličtina
Počet kreditů
5
Garant předmětu
Zajišťuje ústav
Nabízen zahraničním studentům
Všech fakult
Výsledky učení předmětu
Studenti se seznámí se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Pochopí základní algoritmy analýzy řeči společné mnohým aplikacím. Získají přehled o aplikacích (rozpoznávání, syntéza, kódování) a o praktických stránkách implementace řečových algoritmů. Budou schopni navrhnout jednoduchý systém pro zpracování řeči (detektor řečové aktivity, rozpoznávač několika izolovaných slov), včetně implementace do aplikačních programů.
Způsob a kritéria hodnocení
- půlsemestrální test
- prezentace projektů
- presentace výsledků na poč. cvičeních
Učební cíle
Seznámit studenty se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Popsat základní algoritmy analýzy řeči společné mnohým aplikacím. Podat přehled aplikací (rozpoznávání, syntéza, kódování) a informovat o praktických stránkách implementace řečových algoritmů.
Doporučená literatura
Gold, B., Morgan, N.: Speech and Audio Signal Processing, John Wiley & Sons, 2000, ISBN 0-471-35154-7 (EN)
Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN 80-200-0203-0 (EN)
(EN)
Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN 80-200-0203-0 (EN)
(EN)
Elearning
eLearning: aktuální otevřený kurz
Zařazení předmětu ve studijních plánech
Typ (způsob) výuky
Přednáška
26 hod., nepovinná
Vyučující / Lektor
Osnova
- Úvod, aplikace zpracování řeči, relevatní vědní obory, informační obsah.
- Číslicové zpracování řečových signálů
- Tvorba a slyšení řeči, základní pojmy z psychoakustiky, aplikace ve zpracování řeči.
- Úvod do fonetiky, mezinárodní normy pro označování fonémů.
- Předzpracování a základní parametry.
- Lineárně-prediktivní model, spektrum pomocí lineární predikce. Aplikace LP.
- Cepstrální analýza, Mel-frekvenční cepstrum
- Určování základního tónu hlasu
- Kódování řeči.
- Rozpoznávání řeči, dynamické programování DTW, skryté Markovovy modely HMM
- Syntéza řeči
- Software a knihovny pro zpracování řeči.
Cvičení na počítači
26 hod., povinná
Vyučující / Lektor
Osnova
- V laboratořích (kromě poslední) je používán Matlab.
- Rámce, okna, spektrum, předzpracování.
- Lineární predikce (LPC).
- Určování základního tónu.
- Kódování.
- Rozpoznávání - Dynamic time Warping (DTW).
- Rozpoznávání - skryté Markovovy modely (Hidden Markov Model Toolkit - HTK).
Elearning
eLearning: aktuální otevřený kurz