--- license: apache-2.0 datasets: - classla/ParlaSpeech-CZ language: - cs metrics: - wer base_model: - fav-kky/wav2vec2-base-cs-80k-ClTRUS - fav-kky/gpt2-small-cs library_name: transformers pipeline_tag: automatic-speech-recognition --- Tento model byl vytvořen v rámci bakalářské práce Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči. Byl trénován po dobu 10 epoch na datové sadě ParlaSpeech a dosáhl hodnoty WER 7,9 %. Při trénování byla většina modelu zmrazena – trénovala se pouze embedding vrstva, vrstvy typu cross-attention a projekční vrstva (tzv. adaptér) mezi výstupy enkodéru a vstupy dekodéru. Adaptér se skládá z 1D konvoluční vrstvy pro podvzorkování a dvoublokového Transformer enkodéru. Model dosahuje pouze o 0,9 procentního bodu horší WER než plně trénovaný model bez adaptéru, a to i přesto, že využívá přibližně polovinu trénovatelných parametrů. ![adapter bock](./figures/adapter_block.png "V této práci byly analyzovány dva adaptéry. Oba využívají 1D konvoluční vrstvu pro podvzorkování. Vlevo lze vidět adaptér který využívá lineární vrstvu s normalizací, vpravo adaptér který využívá Transformer enkodér.") ``` @thesis{huml2025efektivni, author = {Dominik Huml}, title = {Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči}, year = {2025}, school = {Vysoké učení technické v~Brně, Fakulta informačních technologií}, type = {Bakalářská práce}, address = {Brno}, supervisor = {Ing. Alexander Polok} } ```