Tópicos Avançados em Ciência de Dados
Áreas Científicas |
Classificação |
Área Científica |
OFICIAL |
Ciência de Computadores |
Ocorrência: 2021/2022 - 2S
Ciclos de Estudo/Cursos
Língua de trabalho
Português e inglês
Objetivos
Identificação e aplicação de técnicas de data mining para a extração de conhecimento a partir de diversas fontes de dados (transações, web, texto, etc.).
Resultados de aprendizagem e competências
O estudante é capaz de:
- reconhecer diferentes problemas resolúveis através da utilização das técnicas de data mining abordadas e especificadas nos conteúdos;
- identificar e especificar tarefas de data mining idênticas às abordadas;
- obter e pré-processar dados para os algoritmos e as tarefas abordados;
- compreender e utilizar algoritmos de data mining;
- obter, interpretar, avaliar e utilizar modelos de data mining;
- implementar alguns dos algoritmos e propor alterações para os melhorar.
Modo de trabalho
Presencial
Pré-requisitos (conhecimentos prévios) e co-requisitos (conhecimentos simultâneos)
O aluno deverá estar familiarizado com os conceitos básicos de data mining e ter conhecimento linguagens de programação utilizadas em tarefas de data mining, tais como a linguagem R ou Python.
Programa
1. Association Pattern Mining
• itemsets frequentes e regras de associação
• algoritmo Apriori
• sumarização de itemsets e seleção de regras
• algoritmo FP-Growth.
2. Sequential Pattern Mining
• algoritmo GSP
• algoritmo PrefixSpan
3. Web Mining:
• sistemas de recomendação
• link analysis
• information retrieval
4. Text Mining:
• clustering de documentos
• classificação de documentos
5. Outlier Mining:
• desafios
• técnicas não supervisionadas
• técnicas semi-supervisionadas
• técnicas supervisionadas
Bibliografia Obrigatória
Liu Bing 1963-;
Web data mining. ISBN: 978-3-642-19459-7
Hand David 1950-;
Principles of data mining. ISBN: 978-0-262-08290-7
Bibliografia Complementar
Charu C. Aggarwal; Data Mining - The Texbook, Springer, 2015. ISBN: 978-3-319-14141-1
Métodos de ensino e atividades de aprendizagem
Aulas de caráter teórico-prático onde serão expostos os temas contemplados no programa e fornecidos alguns exemplos práticos de aplicação.
Software
R
RStudio
Tipo de avaliação
Avaliação distribuída com exame final
Componentes de Avaliação
Designação |
Peso (%) |
Trabalho prático ou de projeto |
40,00 |
Exame |
60,00 |
Total: |
100,00 |
Componentes de Ocupação
Designação |
Tempo (Horas) |
Elaboração de projeto |
35,00 |
Estudo autónomo |
84,00 |
Apresentação/discussão de um trabalho científico |
1,00 |
Frequência das aulas |
42,00 |
Total: |
162,00 |
Obtenção de frequência
O trabalho prático é
obrigatório com uma nota mínima de 30%.Fórmula de cálculo da classificação final
A avaliação da disciplina é distribuída, composta por um exame final e um trabalho prático.
O cálculo da classificação final é feito pela média pesada das notas práticas e teóricas através da fórmula:
NF = 0.60 * NE + 0.40 * NTP
em que,
NE é a nota obtida no exame e
NTP é a nota do trabalho prático.
Não obterão aprovação, os alunos que não obtiverem um mínimo de 30% em cada componente, isto é, 6 valores em 20.
O exame de recurso, será cotado para 70% (14 valores em 20) da nota final.
Provas e trabalhos especiais
O trabalho prático será anunciado a meio do semestre e deverá ser entregue e apresentado no final do mesmo.
Melhoria de classificação
A avaliação do trabalho prático não é passível de melhoria.
O estudante pode melhorar a nota teórica submetendo-se ao exame de recurso.
Observações
Todo o material (slides, livros recomendados, etc.) é disponibilizado na língua Inglesa.