Saltar para:
Logótipo
Você está em: Início > Publicações > Visualização > The impact of heterogeneous distance functions on missing data imputation and classification performance

The impact of heterogeneous distance functions on missing data imputation and classification performance

Título
The impact of heterogeneous distance functions on missing data imputation and classification performance
Tipo
Artigo em Revista Científica Internacional
Ano
2022
Autores
Santos, MS
(Autor)
Outra
Ver página pessoal Sem permissões para visualizar e-mail institucional Pesquisar Publicações do Participante Ver página do Authenticus Sem ORCID
Fernandez, A
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
Luengo, J
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
Santos, J
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Ver página do Authenticus Sem ORCID
Revista
Vol. 111
ISSN: 0952-1976
Editora: Elsevier
Outras Informações
ID Authenticus: P-00W-XDP
Abstract (EN): This work performs an in-depth study of the impact of distance functions on K-Nearest Neighbours imputation of heterogeneous datasets. Missing data is generated at several percentages, on a large benchmark of 150 datasets (50 continuous, 50 categorical and 50 heterogeneous datasets) and data imputation is performed using different distance functions (HEOM, HEOM-R, HVDM, HVDM-R, HVDM-S, MDE and SIMDIST) and k values (1, 3, 5 and 7). The impact of distance functions on kNN imputation is then evaluated in terms of classification performance, through the analysis of a classifier learned from the imputed data, and in terms of imputation quality, where the quality of the reconstruction of the original values is assessed. By analysing the properties of heterogeneous distance functions over continuous and categorical datasets individually, we then study their behaviour over heterogeneous data. We discuss whether datasets with different natures may benefit from different distance functions and to what extent the component of a distance function that deals with missing values influences such choice. Our experiments show that missing data has a significant impact on distance computation and the obtained results provide guidelines on how to choose appropriate distance functions depending on data characteristics (continuous, categorical or heterogeneous datasets) and the objective of the study (classification or imputation tasks).
Idioma: Inglês
Tipo (Avaliação Docente): Científica
Nº de páginas: 26
Documentos
Não foi encontrado nenhum documento associado à publicação.
Publicações Relacionadas

Da mesma revista

Using Recurrent Neural Networks to improve initial conditions for a solar wind forecasting model (2024)
Artigo em Revista Científica Internacional
Barros, FS; Graça, PA; Lima, JJG; Pinto, RF; André Restivo; Villa, M
NORMO: A new method for estimating the number of components in CP tensor decomposition (2020)
Artigo em Revista Científica Internacional
Fernandes, S; Fanaee T, H; João Gama
Exploring Design smells for smell-based defect prediction (2022)
Artigo em Revista Científica Internacional
Sotto Mayor, B; Elmishali, A; Kalech, M; Rui Abreu
Enhancing data stream predictions with reliability estimators and explanation (2014)
Artigo em Revista Científica Internacional
Zoran Bosnic; Jaka Demsar; Grega Kespret; Pedro Pereira Rodrigues; Joao Gama; Igor Kononenko

Ver todas (12)

Recomendar Página Voltar ao Topo
Copyright 1996-2026 © Faculdade de Farmácia da Universidade do Porto  I Termos e Condições  I Acessibilidade  I Índice A-Z
Página gerada em: 2026-02-12 às 13:13:44 | Política de Privacidade | Política de Proteção de Dados Pessoais | Denúncias | Livro Amarelo Eletrónico