Data Stream Mining
Áreas Científicas |
Classificação |
Área Científica |
OFICIAL |
Engenharia Informática |
OFICIAL |
Ciência de Computadores |
Ocorrência: 2024/2025 - 2S
Ciclos de Estudo/Cursos
Sigla |
Nº de Estudantes |
Plano de Estudos |
Anos Curriculares |
Créditos UCN |
Créditos ECTS |
Horas de Contacto |
Horas Totais |
M.IA |
0 |
Plano de estudos oficial |
1 |
- |
6 |
42 |
162 |
Língua de trabalho
Inglês
Objetivos
No final do semestre os alunos deverão ser capazes de formular problemas de decisão a partir de fluxos de dados.
Serem capazes de aplicar métodos/algoritmos a um novo problema de análise de fluxos de dados.
Serem capazes de avaliar os resultados e compreender o funcionamento dos métodos estudados.
Resultados de aprendizagem e competências
Conhecimento como formular um problema de extracção de conhecimento a partir de fluxos de dados.
Capacidade de aplicar métodos/algoritmos a novos problemas de análise de fluxos dados.
Avaliar os resultados e compreender o funcionamento dos métodos estudados.
Modo de trabalho
Presencial
Pré-requisitos (conhecimentos prévios) e co-requisitos (conhecimentos simultâneos)
Conhecimentos básicos de extração de conhecimentos
Programa
S1- Fluxos de dados: definições e métodos.
Formulação do problema e técnicas.
Aproximação e randomização.
Problemas ilustrativos e algoritmos.
S2 - Ferramentas para processamento de fluxo de dados:
MOA, SAMOA, River, CapyMOA.
S3 - Clustering de fluxos de dados: métodos básicos de streaming para clustering.
Algoritmos de clustering de última geração.
Clustering de séries temporais.
S4 - Deteção de mudança: definição de problema. Métodos básicos para lidar com dados em evolução.
Métodos de detecção: Algoritmos CUSUM, SPC, ADWIN
S5- Aprendizagem de árvores de decisão a partir de fluxos de dados.
Árvores de decisão incrementais. Árvores de decisão e detecção de alterações.
S6 - Modelos de ensemble: online bagging e boosting. Algoritmos de maioria ponderada dinâmica.
S7- Avaliação de algoritmos de aprendizagem de fluxo de dados.
Métricas de avaliação. Abordagens sequenciais preditivas.
S8 - Aplicações:
sistemas de recomendação, fluxos de cliques e social media.
S9- Detecção de novidade.
Classificação de uma classe, detecção de novidade e reconhecimento de conjunto aberto.
Métodos baseados em clusters para detecção de novidades.
S10- Data mining ubíqua.
Clustering distribuído: duas visualizações.
Dados de cluster distribuídos
Fontes de dados de cluster distribuídas.
S11 - Redes Evolutivas.
Acompanhamento de comunidades em desenvolvimento em redes sociais de larga escala.
S12 - Padrões frequentes: definição de problema.
Algoritmos aproximados para contar a frequência dos itens.
Algoritmos aproximados para contar a frequência dos conjuntos de itens.
Bibliografia Obrigatória
Gama João;
Knowledge discovery from data streams. ISBN: 978-1-4398-2611-9
Albert Bifet, Ricard Gavalda; Machine Learning for Data Streams, MIT Press, 2017
Métodos de ensino e atividades de aprendizagem
Aulas teórico-praticas
Software
https://riverml.xyz/latest/
https://capymoa.org/
Palavras Chave
Ciências Físicas > Ciência de computadores > Cibernética > Inteligência artificial
Tipo de avaliação
Avaliação distribuída sem exame final
Componentes de Avaliação
Designação |
Peso (%) |
Apresentação/discussão de um trabalho científico |
40,00 |
Participação presencial |
20,00 |
Trabalho escrito |
40,00 |
Total: |
100,00 |
Componentes de Ocupação
Designação |
Tempo (Horas) |
Apresentação/discussão de um trabalho científico |
2,00 |
Frequência das aulas |
42,00 |
Trabalho de investigação |
78,00 |
Elaboração de projeto |
40,00 |
Total: |
162,00 |
Obtenção de frequência
Obtenção de aprovação nos dois trabalhos.
Fórmula de cálculo da classificação final
Os trabalhos deverão ser realizados em grupos de 2 alunos.
Trab1 - nota 1º trabalho
Trab2 - nota 2º trabalho
Final - Nota final.
Se Trab1 > 9.5 e Trab2 > 9.5 então
Final = 0.5 * Trab1 + 0.5 * Trab2