Saltar para:
Logótipo
Comuta visibilidade da coluna esquerda
Você está em: Início > Publicações > Visualização > Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family

Publicações

Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family

Título
Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family
Tipo
Artigo em Revista Científica Internacional
Ano
2024
Autores
Santos, R
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
Rodrigues, J
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
Gomes, L
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
Silva, J
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
Branco, A
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
Osório, TF
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
Leite, B
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
Indexação
Publicação em Scopus Scopus - 0 Citações
Outras Informações
ID Authenticus: P-010-HEP
Abstract (EN): To foster the neural encoding of Portuguese, this paper contributes foundation encoder models that represent an expansion of the still very scarce ecosystem of large language models specifically developed for this language that are fully open, in the sense that they are open source and openly distributed for free under an open license for any purpose, thus including research and commercial usages. Like most languages other than English, Portuguese is low-resourced in terms of these foundational language resources, there being the inaugural 900 million parameter Albertina and 335 million Bertimbau. Taking this couple of models as an inaugural set, we present the extension of the ecosystem of state-of-the-art open encoders for Portuguese with a larger, top performance-driven model with 1.5 billion parameters, and a smaller, efficiency-driven model with 100 million parameters. While achieving this primary goal, further results that are relevant for this ecosystem were obtained as well, namely new datasets for Portuguese based on the SuperGLUE benchmark, which we also distribute openly.
Idioma: Inglês
Tipo (Avaliação Docente): Científica
Nº de páginas: 9
Documentos
Nome do Ficheiro Descrição Tamanho
2403.01897[1] 292.66 KB
Recomendar Página Voltar ao Topo
Copyright 1996-2025 © Faculdade de Direito da Universidade do Porto  I Termos e Condições  I Acessibilidade  I Índice A-Z
Página gerada em: 2025-09-26 às 21:41:20 | Política de Privacidade | Política de Proteção de Dados Pessoais | Denúncias | Livro Amarelo Eletrónico