Saltar para:
Logótipo
Você está em: Início > Publicações > Visualização > Data Collection Pipeline for Low-Resource Languages: A Case Study on Constructing a Tetun Text Corpus

Data Collection Pipeline for Low-Resource Languages: A Case Study on Constructing a Tetun Text Corpus

Título
Data Collection Pipeline for Low-Resource Languages: A Case Study on Constructing a Tetun Text Corpus
Tipo
Artigo em Livro de Atas de Conferência Internacional
Ano
2024
Autores
Jesus, Gd
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Ver página do Authenticus Sem ORCID
Sérgio Nunes
(Autor)
FEUP
Ata de Conferência Internacional
Páginas: 4368-4380
Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
Torino, 2024
Indexação
Outras Informações
ID Authenticus: P-010-MB8
Abstract (EN): This paper proposes Labadain Crawler, a data collection pipeline tailored to automate and optimize the process of constructing textual corpora from the web, with a specific target to low-resource languages. The system is built on top of Nutch, an open-source web crawler and data extraction framework, and incorporates language processing components such as a tokenizer and a language identification model. The pipeline efficacy is demonstrated through successful testing with Tetun, one of Timor-Leste's official languages, resulting in the construction of a high-quality Tetun text corpus comprising 321.7k sentences extracted from over 22k web pages. The contributions of this paper include the development of a Tetun tokenizer, a Tetun language identification model, and a Tetun text corpus, marking an important milestone in Tetun text information retrieval.
Idioma: Inglês
Tipo (Avaliação Docente): Científica
Nº de páginas: 12
Documentos
Não foi encontrado nenhum documento associado à publicação.
Publicações Relacionadas

Dos mesmos autores

Network-based Approach for Stopwords Detection (2024)
Artigo em Livro de Atas de Conferência Internacional
António Ali, FDM; Jesus, Gd; Henrique Lopes Cardoso; Sérgio Nunes; Silva, RS
Exploring Large Language Models for Relevance Judgments in Tetun (2024)
Artigo em Livro de Atas de Conferência Internacional
Jesus, Gd; Sérgio Nunes
Cross-Lingual Information Retrieval in Tetun for Ad-Hoc Search (2025)
Artigo em Livro de Atas de Conferência Internacional
Araújo, A; Jesus, Gd; Sérgio Nunes
Recomendar Página Voltar ao Topo
Copyright 1996-2026 © Faculdade de Engenharia da Universidade do Porto  I Termos e Condições  I Acessibilidade  I Índice A-Z  I Livro de Visitas
Página gerada em: 2026-04-20 às 00:26:22 | Política de Utilização Aceitável | Política de Proteção de Dados Pessoais | Denúncias | Livro Amarelo Eletrónico