Rozpoznávání řeči

Rozpoznáváním řeči se rozumí automatický převod mluvené řeči do textu.

Metody rozpoznávání řeči jsou citlivé na rozdíly v intonaci i výslovnosti jednotlivých mluvčích,^[1] které se snaží překonat složitými výpočetními operacemi. Proces rozpoznání řeči je velmi výpočetně náročný, zvláště jde-li o rozpoznávání plynulé řeči.

Existují použitelné komerční programy. Pro angličtinu (a další jazyky) zřejmě nejpokročilejším z nich Dragon Naturally Speaking spojený s IBM ViaVoice alias "Nuance Dragon". Pro češtinu se jedná o NovaVoice a NewtonDictate.

Programy využívající počítačové rozpoznávání řeči mohou sloužit pro vytváření textových dokumentů nebo pro hendikepované osoby (například hlasové ovládání počítače).

Programy na rozpoznávání řeči často využívají internetové připojení a analýzu provádí na vzdáleném serveru, což může být bezpečnostní problém.^[2]

Závislost na mluvčím

Rozpoznávání řeči může být jednak závislé na mluvčím (speaker dependent, SD) či na mluvčím nezávislé (speaker independent, SI).

Systémy, které jsou závislé na mluvčím dosahují pro danou osobu lepších výsledků, ale jejich nevýhodou je, že mluvčí musí namluvit několik hodin nahrávek, aby bylo možné natrénovat dobré modely.

Systémy, které jsou nezávislé na mluvčím jsou natrénované pomocí nahrávek od velkého množství lidí. Nedosahují ovšem takové úspěšnosti jako systémy závislé na mluvčím. Bylo proto vyvinuto několik metod, které SI model adaptují na konkrétního mluvčího. Mezi základní metody adaptace patří metody MAP (maximální aposteriorní pravděpodobnost, Maximum a posteriori estimation), MLLR (Maximum Likelihood Linear Regression) a jejich různé variace.

Metody počítačového rozpoznání řeči

Pro počítačové rozpoznání řeči se využívá algoritmu HMM (skryté Markovovy modely). Tento model je statistický Markovovský model, který obsahuje skryté stavy. HMM se používají v rozpoznávání řeči, protože řečový signál může být chápán jako po částech stacionární signál, nebo po krátkých časových úsecích stacionární signál. V krátkém čase (např. 10 ms), může být řeč aproximována jako stacionární proces. Pro rozpoznávání se často používá Viterbiho algoritmus.

Tato metoda se používá pro spojité rozpoznávání řeči, což je mnohem komplexnější a náročnější úloha než rozpoznávání izolovaných slov. Při vyslovování izolovaných slov se mluvčí více soustředí na konkrétní slovo a vyslovuje jej zřetelněji. Při spojité řeči dochází také k některým jevům jako je například spodoba slov (poslední hláska ve slově je ovlivněna následující hláskou, kterou začíná druhé slovo), polykání hlásek, apod.

Další využívanou metodou je metoda DTW (dynamické borcení času, en:Dynamic Time Warping). Tato metoda je vhodná pro rozpoznávání izolovaných slov (například pro hlasové ovládání počítače), protože je zapotřebí mít ve slovníku uloženou modelovou nahrávku každého použitého slova. Metoda měří podobnost mezi dvěma nahrávkami slov (popřípadě slovních spojení) a snaží se najít nejlepší shodu - určité úseky zkracuje či prodlužuje tak, aby byl rozdíl mezi nahrávkami co nejmenší.

Rozpoznávání řeči pro češtinu

Pro češtinu (a obecně jakýkoliv ohebný jazyk) jsou tyto programy složitější převážně kvůli mnohem větším slovníkům, které musí obsahovat všechny možné varianty slov (v angličtině jedno slovo woman má v češtině mnohem více možných překladů, žena, ženy, ženě, ženu, apod.)

V českém prostředí jsou uživatelům na komerční bázi k dispozici dva produkty: NovaVoice od firmy CC Novasoft a NewtonDictate od společnosti Newton Technologies. Jejich úspěšnost se liší podle druhu textu, ale lze říci, že přesahuje 90 procent.^[3]

Experimentální softwarový systém pro automatický převod mluvené řeči do textu vyvíjí v ČR několik výzkumných pracovišť v Liberci, Brně, Praze a Plzni.

Jeden z nich vzniká v rámci projektu MegaWord.cz na Katedře kybernetiky Západočeské univerzity v Plzni a firmy SpeechTech. Systém má pracovat v reálném čase se slovníkem významně převyšujícím milion slov.

Výsledkem práce Laboratoře počítačového zpracování řeči Technické univerzity v Liberci jsou aplikace jako již zmíněný NewtonDictate nebo ATT Toolki, program pro přepis televizních a rozhlasových pořadů nasazený ve firmě Newton Media.

Reference

↑ V prográmku jménem JetVoíce můžete ovládat hlasem některé činnosti počítače. Hlasové záznamy jsou v něm vidět v obrazové podobě, kde můžete rozpoznat jak vaše intonace závratně mění způsob, jakým počítač zvuk vnímá.
↑ Coming soon—offline speech recognition on your phone. techxplore.com [online]. [cit. 2024-12-13]. Dostupné online.
↑ NĚMEC, Jan. Test přepisovačů hlasu: opravdu to funguje. e15.cz [online]. 2010–03–04 [cit. 2013-05-15]. Dostupné v archivu pořízeném z originálu dne 2020-07-19.

Externí odkazy

Obrázky, zvuky či videa k tématu rozpoznávání řeči na Wikimedia Commons
Rozpoznávání řeči v České terminologické databázi knihovnictví a informační vědy (TDKIV)

[1] V prográmku jménem JetVoíce můžete ovládat hlasem některé činnosti počítače. Hlasové záznamy jsou v něm vidět v obrazové podobě, kde můžete rozpoznat jak vaše intonace závratně mění způsob, jakým počítač zvuk vnímá.

[2] Coming soon—offline speech recognition on your phone. techxplore.com [online]. [cit. 2024-12-13]. Dostupné online.

[3] NĚMEC, Jan. Test přepisovačů hlasu: opravdu to funguje. e15.cz [online]. 2010–03–04 [cit. 2013-05-15]. Dostupné v archivu pořízeném z originálu dne 2020-07-19.

[1]

[2]

[3]

Navigation

Navigace

Tématické portály