Saltar para:
Logótipo
Comuta visibilidade da coluna esquerda
Você está em: Início > Publicações > Visualização > OSPT: European Portuguese Paraphrastic Dataset with Machine Translation

Publicações

OSPT: European Portuguese Paraphrastic Dataset with Machine Translation

Título
OSPT: European Portuguese Paraphrastic Dataset with Machine Translation
Tipo
Artigo em Livro de Atas de Conferência Internacional
Ano
2023
Autores
Sousa, A
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
Ata de Conferência Internacional
Páginas: 454-466
22nd EPIA Conference on Artificial Intelligence (EPIA)
Azores, PORTUGAL, SEP 05-08, 2023
Indexação
Publicação em ISI Web of Knowledge ISI Web of Knowledge - 0 Citações
Publicação em Scopus Scopus - 0 Citações
Outras Informações
ID Authenticus: P-00Z-KWY
Abstract (EN): We describe OSPT, a new linguistic resource for European Portuguese that comprises more than 1.5 million Portuguese-Portuguese sentential paraphrase pairs. We generated the pairs automatically by using neural machine translation to translate the non-Portuguese side of a large parallel corpus. We hope this new corpus can be a valuable resource for paraphrase generation and provide a rich semantic knowledge source to improve downstream natural language understanding tasks. To show the quality and utility of such a dataset, we use it to train paraphrastic sentence embeddings and evaluate them in the ASSIN2 semantic textual similarity (STS) competition. We found that semantic embeddings trained on a small subset of OSPT can produce better semantic embeddings than the ones trained in the finely curated ASSIN2's training data. Additionally, we show OSPT can be used for paraphrase generation with the potential to produce good data augmentation systems that pseudo-translate from Brazilian Portuguese to European Portuguese.
Idioma: Inglês
Tipo (Avaliação Docente): Científica
Nº de páginas: 13
Documentos
Nome do Ficheiro Descrição Tamanho
978-3-031-49008-8_36 239.43 KB
Publicações Relacionadas

Dos mesmos autores

PTPARL-V: Portuguese Parliamentary Debates for Voting Behaviour Study (2024)
Artigo em Livro de Atas de Conferência Internacional
Sousa, A; Henrique Lopes Cardoso
Pseudo-Semantic Graphs for Generating Paraphrases (2024)
Artigo em Livro de Atas de Conferência Internacional
Sousa, A; Henrique Lopes Cardoso
Recomendar Página Voltar ao Topo
Copyright 1996-2025 © Faculdade de Direito da Universidade do Porto  I Termos e Condições  I Acessibilidade  I Índice A-Z
Página gerada em: 2025-09-07 às 22:33:25 | Política de Privacidade | Política de Proteção de Dados Pessoais | Denúncias