Saltar para:
Logótipo
Comuta visibilidade da coluna esquerda
Você está em: Início > Publicações > Visualização > Semi-Automatic Creation of a Reference News Corpus for Fine-Grained Multi-Label Scenarios

Publicações

Semi-Automatic Creation of a Reference News Corpus for Fine-Grained Multi-Label Scenarios

Título
Semi-Automatic Creation of a Reference News Corpus for Fine-Grained Multi-Label Scenarios
Tipo
Artigo em Livro de Atas de Conferência Internacional
Ano
2011
Autores
sarmento, l
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
oliveira, e
(Autor)
FEUP
Ata de Conferência Internacional
Páginas: 749-754
6th Iberian Information Systems and Technologies Conference
Chaves, PORTUGAL, JUN 15-18, 2011
Indexação
Publicação em ISI Web of Knowledge ISI Web of Knowledge - 0 Citações
Publicação em Scopus Scopus - 0 Citações
Classificação Científica
FOS: Ciências exactas e naturais > Ciências da computação e da informação
Outras Informações
ID Authenticus: P-002-ZHS
Abstract (EN): In this paper we tackle the problem of creating a reference corpus for the classification of news items in fine-grained multi-label scenarios. These scenarios are particularly challenging for text classification techniques, and the availability of reference corpora is one important bottleneck for developing and testing new classification strategies. We propose a semiautomatic approach for creating a reference corpus that uses three auxiliary classification methods - one based on Support Vector Machines, one based on Nearest Neighbor Classifiers and another based on a dictionary-based classification heuristic - for suggesting to human annotators topic-related labels that can be used to describe different facets of a given news item being annotated. Using such approach, we semi-automatically produce a corpus of 1,600 news items with 865 different labels, having in average 3.63 labels per news item. We evaluate the contribution of each of the auxiliary classification methods to the annotation process and we conclude that: (i) none of the methods alone is capable of suggesting all relevant labels, (ii) a dictionary-based classification heuristic contributes significantly and (iii) the Nearest Neighbor classifier performs very efficiently in the most extreme multi-label part of the problem and is robust to the very unbalanced item-to-class distribution.
Idioma: Inglês
Tipo (Avaliação Docente): Científica
Contacto: jft@fe.up.pt; las@fe.up.pt; eco@fe.up.pt
Nº de páginas: 6
Documentos
Não foi encontrado nenhum documento associado à publicação.
Publicações Relacionadas

Dos mesmos autores

Comparing Verb Synonym Resources for Portuguese (2010)
Artigo em Livro de Atas de Conferência Internacional
teixeira, j; sarmento, l; oliveira, e
A Bootstrapping Approach for Training a NER with Conditional Random Fields (2011)
Artigo em Livro de Atas de Conferência Internacional
teixeira, j; sarmento, l; oliveira, e
Recomendar Página Voltar ao Topo
Copyright 1996-2025 © Faculdade de Direito da Universidade do Porto  I Termos e Condições  I Acessibilidade  I Índice A-Z
Página gerada em: 2025-07-23 às 13:27:05 | Política de Privacidade | Política de Proteção de Dados Pessoais | Denúncias