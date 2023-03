Aplikaci Beey se podařilo vybudovat uživatelskou komunitu v 50 zemích a za jejím vznikem stojí vývojáři z pražské firmy Newton Technologies a tým vědců z Laboratoře počítačového zpracování řeči na Fakultě mechatroniky, informatiky a mezioborových studií Technické univerzity v Liberci (FM TUL).

Petr Červa z Laboratoře počítačového zpracování řeči na FM TUL. | Foto: Radek Pirkl

Liberečtí vědci se podíleli na vylepšení úspěšné české aplikace pro převod hlasu na text, ta nyní zvládne přesně zapisovat slova mluvčího i přes rozléhající se hluk. Umělá inteligence to zvládá zásluhou nových neuronových modelů.

„Nové architektury neuronových sítí umožňují trénovat systémy rozpoznávání řeči pouze na základě zvukových nahrávek a odpovídajících textových přepisů. Na rozdíl od minulé generace modelů tak není nutné vytvářet slovníky obsahující pro každé slovo různé výslovností varianty. A zejména novou generaci modelů není vůbec nutné učit, jak se slova v daném jazyce vyslovují,“ informoval vedoucí týmu z FM TUL Petr Červa. Vylepšení tak zjednodušilo proces přípravy dat pro učení, kterých je nyní možné použít řádově více než v minulosti.

Dvacet světových jazyků

Základem programu je jeden z nejkvalitnějších nástrojů pro automatické rozpoznání řeči, který je v současnosti na trhu. Poradí si nejen s češtinou, ale i s dalšími devatenácti světovými jazyky. Mezi všemi dvaceti jazyky umí aplikace Beey také překládat. „U čtené nebo předem připravené řeči je už dnes přesnost přepisu téměř sto procent. Pro záznamy obsahující promluvu více mluvčích najednou nebo velkého ruchu na pozadí se pohybuje od 80 procent výše,“ upřesnil Adam Pluhař z Oddělení komunikace a marketingu TUL.

Podle tvůrců tu je přesto stále prostor ke zlepšení. Ke zvyšování přesnosti přispívá kromě stále lepší architektury neuronových sítí také vzrůstající množství dat pro trénování, které mají k dispozici. Souvisí to s tím, že dané technologie využívá stále více lidí. Převod mluvené řeči na psaný text umožňuje získávat rychlé a levné přepisy podcastů, rozhovorů, schůzí nebo přednášek.

Umělá inteligence v Beey titulkuje videa na internetu a s využitím automatických překladů zpřístupňuje také audiovizuální obsah z celého světa. Technologie nachází využití i v průmyslu, zdravotnictví, médiích nebo státní správě. „Naším cílem je, aby výsledky posledních výzkumů v oblasti umělé inteligence mohl využívat každý, ať je to student, lékař, novinář nebo třeba státní úředník. Proto si náš program může vyzkoušet zdarma každý, kdo má počítač nebo chytrý mobil a přístup k internetu,“ zdůraznil ředitel společnosti firmy Newton Technologies Petr Herian.

Podle něj zvýšený zájem o novinky v oblasti umělé inteligence pomáhá tyto technologie dále zlepšovat a hledat i jejich další uplatnění. „Lidé si pomalu zvykají na to, že se hlasové technologie stávají součástí jejich práce i běžného života. A nejde už zdaleka jen o diktování zpráv do mobilu. Náš program titulkuje oblíbené seriály, pomáhá neslyšícím nebo přepisuje jednání na soudech. Usnadňuje práci novinářům nebo výuku ve školách. Nových příležitostí je celá řada a já jsem hrdý na to, že jsou u toho i čeští vývojáři a vědci,“ podotkl Herian.

Během epidemie koronaviru začala platforma Beey titulkovat vybrané, zejména zpravodajské, pořady pro sluchově postižené. Beey lze obecně využít pro přepis a následnou opravu jakéhokoli zvukového záznamu. „Může jít o soudní jednání, záznam rozhovoru z diktafonu nebo třeba automatický přepis televizního či rozhlasové pořadu pro účely monitoringu médií. Právě pro poslední zmíněnou aplikaci se Beey využívá asi nejvíce. Je skvělé, že zpřístupňuje hlasové technologie stále širšímu okruhu osob,“ dodal Červa.