Saltar para:
Logótipo
Comuta visibilidade da coluna esquerda
Você está em: Início > Publicações > Visualização > Evaluation of Lyrics Extraction from Folk Music Sheets Using Vision Language Models (VLMs)

Publicações

Evaluation of Lyrics Extraction from Folk Music Sheets Using Vision Language Models (VLMs)

Título
Evaluation of Lyrics Extraction from Folk Music Sheets Using Vision Language Models (VLMs)
Tipo
Artigo em Livro de Atas de Conferência Internacional
Ano
2025
Autores
Mendes, AS
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
Murciego, AL
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
Silva, LA
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
Jiménez-Bravo, DM
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
Navarro-Cáceres, M
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
Ata de Conferência Internacional
Páginas: 91-102
23rd EPIA Conference on Artificial Intelligence-EPIA
Viana do Castelo, PORTUGAL, SEP 03-06, 2024
Indexação
Publicação em ISI Web of Knowledge ISI Web of Knowledge - 0 Citações
Publicação em Scopus Scopus - 0 Citações
Outras Informações
ID Authenticus: P-017-C9T
Abstract (EN): Monodic folk music has traditionally been preserved in physical documents. It constitutes a vast archive that needs to be digitized to facilitate comprehensive analysis using AI techniques. A critical component of music score digitization is the transcription of lyrics, an extensively researched process in Optical Character Recognition (OCR) and document layout analysis. These fields typically require the development of specific models that operate in several stages: first, to detect the bounding boxes of specific texts, then to identify the language, and finally, to recognize the characters. Recent advances in vision language models (VLMs) have introduced multimodal capabilities, such as processing images and text, which are competitive with traditional OCR methods. This paper proposes an end-to-end system for extracting lyrics from images of handwritten musical scores. We aim to evaluate the performance of two state-of-the-art VLMs to determine whether they can eliminate the need to develop specialized text recognition and OCR models for this task. The results of the study, obtained from a dataset in a real-world application environment, are presented along with promising new research directions in the field. This progress contributes to preserving cultural heritage and opens up new possibilities for global analysis and research in folk music.
Idioma: Inglês
Tipo (Avaliação Docente): Científica
Nº de páginas: 12
Documentos
Não foi encontrado nenhum documento associado à publicação.
Recomendar Página Voltar ao Topo
Copyright 1996-2025 © Faculdade de Direito da Universidade do Porto  I Termos e Condições  I Acessibilidade  I Índice A-Z
Página gerada em: 2025-12-04 às 20:17:50 | Política de Privacidade | Política de Proteção de Dados Pessoais | Denúncias | Livro Amarelo Eletrónico