Resumo (PT):
Num problema típico de classificação, o objectivo é criar uma regra de decisão que permita afectar um objecto, de origem desconhecida, a uma de c classes pré-definidas, a partir dos valores observados de um conjunto de p variáveis numa amostra de treino. Na impossibilidade de separação absoluta ou numa situação de dúvida (quando as funções de decisão assumem valores muito idênticos ou a quando da existência de observações atípicas-outliers) poderá ser preferívelnão classificar do que optar por classificar com uma probabilidade de erro elevada. Nesse caso introduz-se uma opção de rejeição, por indecisão ou por existência de observações atípicas pelo que de uma forma genérica teremos um classificador em c + 2 classes. Neste trabalho apresenta-se um método de classificação em c + 2 classes com especial realce no tratamento das observações atípicas. Propõe-se uma nova regra de rejeição de outliers, RRO, baseada em análise de clusters e utilização de distâncias tipo Mahalanobis com estimadores clássicos e robustos que demonstrou ter bom comportamento em simulações de dados normais e não normais, com e sem outliers. Como método de clustering utilizaram-se o k-means, pam (partitioning around methods) e mclust (model based clustering) e para estimadores do vector de médias e de matriz de covariâncias o RMCD25 (Reweight Mininum Covariance Determinant com um ponto de rotura aproximado de 25%), os estimadores clássicos e o estimador OGK de Maronna e Zamar. O método apresentado é ilustrado com dois exemplos práticos.
Abstract (EN):
The aim of a supervised classification problem is to build a decision rule according to which a new object is assigned to one of a set of c predefined classes on the basis of an observed p-dimensional feature vector (tranning sample). In the absence of absolute separation or when there is some uncertainty it may be better not to classify. In that case we can introduce a rejection option either in cases of dobt or of atypical observations (outliers). This work presents a method for classifying a new object into one of c + 2 Classes. Special emphasis is given to the treatment of atypical observations: we propose a new outlier rejection rule, based on clustering analysis and mahalanobis type distance with classical and robust estimators, wich performed well in a simulation study with normal and non-normal data, with and without outliers. We consideredthree clustering methods: k-means, pam and mclust; and three pairs of location-scatter estimators: classical, Reweighted Minimum Covariance Determinant with an approximate 25% breakdown point (RMCD25) and Orthogonalised Gnanadesikan-Kettenring (OGK) of Maronna and Zamar. The method is illustrated with two applications.
Language:
Portuguese
Type (Professor's evaluation):
Scientific
No. of pages:
9
License type: