Resumo (PT):
Neste trabalho, propomos uma estrutura para definir e descobrir regras de associação ótimas envolvendo um atributo numérico A no conseqüente. O consequente tem a forma de condições de intervalo (A, A ⩾ X ou A ∈ I onde I é um intervalo ou um conjunto de intervalos de forma [x_l, x_u)). A otimização é com relação à leverage, uma conhecida medida de interesse das regras de associação As regras geradas são chamadas de regras de leverage máximas (MLR) e são gerados a partir de regras de distribuição. O princípio para encontrar o MLR está relacionada com o teste de Kolmogorov-Smirnov. Propomos diferentes métodos para a geração de MLR, tendo em conta optimalidade da leverage e legibilidade. Nós demonstramos teoricamente a otimalidade dos principais métodos exatos, e medimos a perda de influência dos métodos aproximados. Mostramos empiricamente que o processo de descoberta é escalável.
Abstract (EN):
In this paper we propose a framework for defining and discovering optimal association rules involving a numerical attribute A in the consequent. The consequent has the form of interval conditions (A < x, A >= x or A is an element of I where I is an interval or a set of intervals of the form [x(l), x(u))). The optimality is with respect to leverage, one well known association rule interest measure. The generated rules are called Maximal Leverage Rules (MLR) and are generated from Distribution Rules. The principle for finding the MLR is related to the Kolmogorov-Smirnov goodness of fit statistical test. We propose different methods for MLR generation, taking into account leverage optimallity and readability. We theoretically demonstrate the optimality of the main exact methods, and measure the leverage loss of approximate methods. We show empirically that the discovery process is scalable.
Language:
English
Type (Professor's evaluation):
Scientific
No. of pages:
23