Saltar para:
Logótipo
Você está em: Início > Publicações > Visualização > Building resources for Emakhuwa: machine translation and news classification benchmarks

Building resources for Emakhuwa: machine translation and news classification benchmarks

Título
Building resources for Emakhuwa: machine translation and news classification benchmarks
Tipo
Artigo em Livro de Atas de Conferência Internacional
Ano
2024
Autores
Ata de Conferência Internacional
Páginas: 14842-14857
2024 Conference on Empirical Methods in Natural Language ProcessingExportar publicação no formato APA
Miami, 2024
Indexação
Publicação em Scopus Scopus - 0 Citações
Crossref
Outras Informações
ID Authenticus: P-018-3EK
Resumo (PT):
Abstract (EN): This paper introduces a comprehensive collection of NLP resources for Emakhuwa, Mozambique’s most widely spoken language. The resources include the first manually translated news bitext corpus between Portuguese and Emakhuwa, news topic classification datasets, and monolingual data. We detail the process and challenges of acquiring this data and present benchmark results for machine translation and news topic classification tasks. Our evaluation examines the impact of different data types—originally clean text, post-corrected OCR, and back-translated data—and the effects of fine-tuning from pre-trained models, including those focused on African languages.Our benchmarks demonstrate good performance in news topic classification and promising results in machine translation. We fine-tuned multilingual encoder-decoder models using real and synthetic data and evaluated them on our test set and the FLORES evaluation sets. The results highlight the importance of incorporating more data and potential for future improvements.All models, code, and datasets are available in the https://huggingface.co/LIACC repository under the CC BY 4.0 license.
Idioma: Inglês
Tipo (Avaliação Docente): Científica
Documentos
Nome do Ficheiro Descrição Tamanho
2024.emnlp-main.824 401.76 KB
Publicações Relacionadas

Dos mesmos autores

Expanding FLORES+ benchmark for more low-resource settings: Portuguese-Emakhuwa machine translation evaluation (2024)
Artigo em Livro de Atas de Conferência Internacional
Ali, Felermino; Cardoso, Henrique Lopes ; Sousa-Silva, Rui
Detecting loanwords in Emakhuwa: an extremely low-resource bantu language exhibiting significant borrowing from portuguese (2024)
Artigo em Livro de Atas de Conferência Internacional
Ali, Felermino; Cardoso, Henrique Lopes ; Sousa-Silva, Rui
Recomendar Página Voltar ao Topo
Copyright 1996-2025 © Faculdade de Medicina Dentária da Universidade do Porto  I Termos e Condições  I Acessibilidade  I Índice A-Z
Página gerada em: 2025-09-12 às 22:27:09 | Política de Privacidade | Política de Proteção de Dados Pessoais | Denúncias | Livro Amarelo Eletrónico