Saltar para:
Logótipo
Comuta visibilidade da coluna esquerda
Você está em: Início > Publicações > Visualização > A customized residual neural network and bi-directional gated recurrent unit-based automatic speech recognition model

A customized residual neural network and bi-directional gated recurrent unit-based automatic speech recognition model

Título
A customized residual neural network and bi-directional gated recurrent unit-based automatic speech recognition model
Tipo
Artigo em Revista Científica Internacional
Ano
2022-04
Autores
Selim Reza
(Autor)
Outra
Ver página pessoal Sem permissões para visualizar e-mail institucional Pesquisar Publicações do Participante Sem AUTHENTICUS Sem ORCID
Marta Campos Ferreira
(Autor)
FEUP
J.J.M. Machado
(Autor)
FEUP
João Manuel R. S. Tavares
(Autor)
FEUP
Revista
Vol. 215 119293
Páginas: 1-10
ISSN: 0957-4174
Editora: Elsevier
Indexação
Publicação em ISI Web of Science ISI Web of Science
Clarivate Analytics
Classificação Científica
CORDIS: Ciências Tecnológicas
FOS: Ciências da engenharia e tecnologias
Outras Informações
ID Authenticus: P-00X-FZ7
Abstract (EN): Speech recognition aims to convert human speech into text and has applications in security, healthcare, commerce, automobiles, and technology, just to name a few. Inserting residual neural networks before recurrent neural network cells improves accuracy and cuts training time by a good margin. Furthermore, layer normalization instead of batch normalization is more effective in model training and performance enhancement. Also, the size of the datasets presents tremendous influences in achieving the best performance. Leveraging these tricks, this article proposes an automatic speech recognition model with a stacked five layers of customized Residual Convolution Neural Network and seven layers of Bi-Directional Gated Recurrent Units, including a logarithmic so f tmax for the model output. Each of them incorporates a learnable per-element affine parameter-based layer normalization technique. The training and testing of the new model were conducted on the LibriSpeech corpus and LJ Speech dataset. The experimental results demonstrate a character error rate (CER) of 4.7 and 3.61% on the two datasets, respectively, with only 33 million parameters without the requirement of any external language model.
Idioma: Inglês
Tipo (Avaliação Docente): Científica
Nº de páginas: 10
Documentos
Nome do Ficheiro Descrição Tamanho
1-s2.0-S0957417422023119 Paper 2250.21 KB
paper 1st Page 183.26 KB
Publicações Relacionadas

Dos mesmos autores

Traffic State Prediction Using One-Dimensional Convolution Neural Networks and Long Short-Term Memory (2022)
Artigo em Revista Científica Internacional
Selim Reza; Marta Campos Ferreira; José J. M. Machado; João Manuel R. S. Tavares
An Actor-Critic-based adapted Deep Reinforcement Learning model for multi-step traffic state prediction (2025)
Artigo em Revista Científica Internacional
Selim Reza; Marta Campos Ferreira; J.J.M. Machado; João Manuel R. S. Tavares
A multi-head attention-based transformer model for traffic flow forecasting with a comparative analysis to recurrent neural networks (2022)
Artigo em Revista Científica Internacional
Selim Reza; Marta Campos Ferreira; José Joaquim M. Machado; João Manuel R. S. Tavares
A citywide TD-learning based intelligent traffic signal control for autonomous vehicles: Performance evaluation using SUMO (2025)
Artigo em Revista Científica Internacional
Selim Reza; Marta Campos Ferreira; J. J. M. Machado; João Manuel R. S. Tavares

Da mesma revista

Towards a data privacy-predictive performance trade-off (2023)
Outra Publicação em Revista Científica Internacional
Carvalho, T; Moniz, N; Faria, P; antunes, l
Learning path personalization and recommendation methods: A survey of the state-of-the-art (2020)
Outra Publicação em Revista Científica Internacional
Nabizadeh, AH; José Paulo Leal; Rafsanjani, HN; Shah, RR
Time-evolving O-D matrix estimation using high-speed GPS data streams (2016)
Artigo em Revista Científica Internacional
Luís Moreira-Matias; João Gama; Michel Ferreira; João Mendes-Moreira; Luís Damas
Three-dimensional guillotine cutting problems with constrained patterns: MILP formulations and a bottom-up algorithm (2021)
Artigo em Revista Científica Internacional
Mateus Martin; José Fernando Oliveira; Elsa Silva; Reinaldo Morabito; Pedro Munari
The 'Healthcare Access and Quality Index' revisited: A fuzzy data envelopment analysis approach (2024)
Artigo em Revista Científica Internacional
Pereira, MA; Ana Maria Cunha Ribeiro dos Santos Ponces Camanho

Ver todas (57)

Recomendar Página Voltar ao Topo
Copyright 1996-2025 © Centro de Desporto da Universidade do Porto I Termos e Condições I Acessibilidade I Índice A-Z
Página gerada em: 2025-10-17 às 08:17:37 | Política de Privacidade | Política de Proteção de Dados Pessoais | Denúncias | Livro Amarelo Eletrónico