Saltar para:
Logótipo
Comuta visibilidade da coluna esquerda
Você está em: Início > Publicações > Visualização > Topic Model with Contextual Outlier Handling: a Study on Electronic Invoice Product Descriptions

Publicações

Topic Model with Contextual Outlier Handling: a Study on Electronic Invoice Product Descriptions

Título
Topic Model with Contextual Outlier Handling: a Study on Electronic Invoice Product Descriptions
Tipo
Artigo em Livro de Atas de Conferência Internacional
Ano
2023
Autores
Andrade, C
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
Rita Ribeiro
(Autor)
FCUP
João Gama
(Autor)
FEP
Ata de Conferência Internacional
Páginas: 365-377
22nd EPIA Conference on Artificial Intelligence (EPIA)
Azores, PORTUGAL, SEP 05-08, 2023
Outras Informações
ID Authenticus: P-00Z-KYD
Abstract (EN): E-commerce has become an essential aspect of modern life, providing consumers worldwide with convenience and accessibility. However, the high volume of short and noisy product descriptions in text streams of massive e-commerce platforms translates into an increased number of clusters, presenting challenges for standard model-based stream clustering algorithms. This is the case of a dataset extracted from the Brazilian NF-e Project containing electronic invoice product descriptions, including many product clusters. While LDA-based clustering methods have shown to be crucial, they have been mainly evaluated on datasets with few clusters. We propose the Topic Model with Contextual Outlier Handling (TMCOH) method to overcome this limitation. This method combines the Dirichlet Process, specific word representation, and contextual outlier detection techniques to recycle identified outliers aiming to integrate them into appropriate clusters later on. The experimental results for our case study demonstrate the effectiveness of TMCOH when compared to state-of-the-art methods and its potential for application to text clustering in large datasets.
Idioma: Inglês
Tipo (Avaliação Docente): Científica
Nº de páginas: 13
Documentos
Não foi encontrado nenhum documento associado à publicação.
Publicações Relacionadas

Dos mesmos autores

Community-Based Topic Modeling with Contextual Outlier Handling (2024)
Artigo em Livro de Atas de Conferência Internacional
Andrade, C; Rita Ribeiro; João Gama
Recomendar Página Voltar ao Topo
Copyright 1996-2025 © Faculdade de Direito da Universidade do Porto  I Termos e Condições  I Acessibilidade  I Índice A-Z
Página gerada em: 2025-11-21 às 09:59:46 | Política de Privacidade | Política de Proteção de Dados Pessoais | Denúncias | Livro Amarelo Eletrónico