Você está em: Início > Publicações > Visualização > Semi-Automatic Creation of a Reference News Corpus for Fine-Grained Multi-Label Scenarios

Mapa das Instalações

Publicação

Pesquisa de Publicações

Publicações

Semi-Automatic Creation of a Reference News Corpus for Fine-Grained Multi-Label Scenarios

Título

Semi-Automatic Creation of a Reference News Corpus for Fine-Grained Multi-Label ScenariosExportar publicação no formato APA Exportar publicação no formato EXCEL Exportar publicação no formato RIS

Tipo

Artigo em Livro de Atas de Conferência Internacional

Data

2011

Título

Semi-Automatic Creation of a Reference News Corpus for Fine-Grained Multi-Label Scenarios

Tipo

Artigo em Livro de Atas de Conferência Internacional

Ano

2011

Autores

teixeira, j

(Autor)

FEUP

Ver página pessoal Enviar mensagem Pesquisar Publicações do Participante Ver página do Authenticus Sem ORCID

sarmento, l

(Autor)

Outra

A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID

oliveira, e

(Autor)

FEUP

Ver página pessoal Sem permissões para visualizar e-mail institucional Pesquisar Publicações do Participante Ver página do Authenticus Ver página ORCID

Ata de Conferência Internacional

Título: SISTEMAS E TECNOLOGIAS DE INFORMACAO, VOL I Pesquisar Publicações da Ata de Conferência

Páginas: 749-754

6th Iberian Information Systems and Technologies Conference

Chaves, PORTUGAL, JUN 15-18, 2011

Indexação

ISI Web of Knowledge - 0 Citações

Scopus - 0 Citações

Classificação Científica

FOS: Ciências exactas e naturais > Ciências da computação e da informação

Outras Informações

ID Authenticus: P-002-ZHS

Abstract (EN): In this paper we tackle the problem of creating a reference corpus for the classification of news items in fine-grained multi-label scenarios. These scenarios are particularly challenging for text classification techniques, and the availability of reference corpora is one important bottleneck for developing and testing new classification strategies. We propose a semiautomatic approach for creating a reference corpus that uses three auxiliary classification methods - one based on Support Vector Machines, one based on Nearest Neighbor Classifiers and another based on a dictionary-based classification heuristic - for suggesting to human annotators topic-related labels that can be used to describe different facets of a given news item being annotated. Using such approach, we semi-automatically produce a corpus of 1,600 news items with 865 different labels, having in average 3.63 labels per news item. We evaluate the contribution of each of the auxiliary classification methods to the annotation process and we conclude that: (i) none of the methods alone is capable of suggesting all relevant labels, (ii) a dictionary-based classification heuristic contributes significantly and (iii) the Nearest Neighbor classifier performs very efficiently in the most extreme multi-label part of the problem and is robust to the very unbalanced item-to-class distribution.

Idioma: Inglês

Tipo (Avaliação Docente): Científica

Contacto: jft@fe.up.pt; las@fe.up.pt; eco@fe.up.pt

Nº de páginas: 6

Documentos

Não foi encontrado nenhum documento associado à publicação.

Publicações Relacionadas

Dos mesmos autores

Comparing Verb Synonym Resources for Portuguese (2010)
Artigo em Livro de Atas de Conferência Internacional
teixeira, j; sarmento, l; oliveira, e

A Bootstrapping Approach for Training a NER with Conditional Random Fields (2011)
Artigo em Livro de Atas de Conferência Internacional
teixeira, j; sarmento, l; oliveira, e

Das mesmas áreas científicas

YWeb – Plataforma de Criação de Templates para Marketing Online (2017)
Tese
José Carlos Calhau Pinto

Visual Viper: a portable visualization library for streamlined scientific communications. (2023)
Tese
Mariana Beatriz Nunes Canelas Pais

Utility-based Predictive Analytics (2018)
Tese
Paula Alexandra de Oliveira Branco

Using clickstream data to analyze online purchase intentions (2015)
Tese
Ricardo Filipe Fernandes e Costa Magalhães Teixeira

Users Satisfaction Regarding Nursing Information and Documentation In Electronic Health Records: A Study At The Health Centers Group Tâmega II – Vale Do Sousa Sul (2023)
Tese
Carla Manuela Pinto Lourenço

Ver todas (1863)

Recomendar Página Voltar ao Topo

Copyright 1996-2025 © Faculdade de Direito da Universidade do Porto I Termos e Condições I Acessibilidade I Índice A-Z
Página gerada em: 2025-12-06 às 01:38:29 | Política de Privacidade | Política de Proteção de Dados Pessoais | Denúncias | Livro Amarelo Eletrónico