Saltar para:
Logótipo
Comuta visibilidade da coluna esquerda
Você está em: Início > Publicações > Visualização > A Hierarchically-Labeled Portuguese Hate Speech Dataset

A Hierarchically-Labeled Portuguese Hate Speech Dataset

Título
A Hierarchically-Labeled Portuguese Hate Speech Dataset
Tipo
Artigo em Livro de Atas de Conferência Internacional
Ano
2019
Autores
Paula Fortuna
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
Juan Soler-Company
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
Leo Wanner
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
Sérgio Nunes
(Autor)
FEUP
Ata de Conferência Internacional
Páginas: 94-104
3rd Workshop on Abusive Language Online
Florence, ITALY, AUG 01, 2019
Outras Informações
ID Authenticus: P-00S-AEM
Abstract (EN): Over the past years, the amount of online offensive speech has been growing steadily. To successfully cope with it, machine learning is applied. However, ML-based techniques require sufficiently large annotated datasets. In the last years, different datasets were published, mainly for English. In this paper, we present a new dataset for Portuguese, which has not been in focus so far. The dataset is composed of 5,668 tweets. For its annotation, we defined two different schemes used by annotators with different levels of expertise. First, non-experts annotated the tweets with binary labels ('hate' vs. 'no-hate'). Then, expert annotators classified the tweets following a fine-grained hierarchical multiple label scheme with 81 hate speech categories in total. The inter-annotator agreement varied from category to category, which reflects the insight that some types of hate speech are more subtle than others and that their detection depends on personal perception. The hierarchical annotation scheme is the main contribution of the presented work, as it facilitates the identification of different types of hate speech and their intersections. To demonstrate the usefulness of our dataset, we carried a baseline classification experiment with pre-trained word embeddings and LSTM on the binary classified data, with a state-of-the-art outcome.
Idioma: Inglês
Tipo (Avaliação Docente): Científica
Nº de páginas: 11
Documentos
Não foi encontrado nenhum documento associado à publicação.
Recomendar Página Voltar ao Topo
Copyright 1996-2025 © Centro de Desporto da Universidade do Porto I Termos e Condições I Acessibilidade I Índice A-Z
Página gerada em: 2025-10-17 às 04:07:20 | Política de Privacidade | Política de Proteção de Dados Pessoais | Denúncias | Livro Amarelo Eletrónico