Tópicos Avançados em Ciência de Dados
| Áreas Científicas |
| Classificação |
Área Científica |
| OFICIAL |
Ciência de Computadores |
Ocorrência: 2025/2026 - 2S 
Ciclos de Estudo/Cursos
Docência - Responsabilidades
Língua de trabalho
Português e inglês
Obs.: All course material are provided in English
Objetivos
Identificação e aplicação de técnicas de ciência de dados para a extração de conhecimento a partir de diversas fontes de dados com um foco em NLP e Information Retrieval. Veremos como lidar e explorar com texto (processamento de linguagem natural), dados de interação (sistemas de recomendação e regras de associação), sequências (sequence mining) e redes num contexto de web e redes sociais (link analysis). Também abordaremos outlier detection e aplicações neste contexto.
Resultados de aprendizagem e competências
No fim do curso o estudante deverá ser capaz de:
- reconhecer diferentes problemas resolúveis através da utilização das técnicas dabordadas;
- identificar e especificar tarefas dênticas às abordadas;
- obter e pré-processar dados para os algoritmos e as tarefas abordados;
- compreender e utilizar os algoritmos;
- obter, interpretar, avaliar e utilizar modelos;
- implementar alguns dos algoritmos e propor alterações para os melhorar.
Modo de trabalho
Presencial
Pré-requisitos (conhecimentos prévios) e co-requisitos (conhecimentos simultâneos)
O estudante deverá estar familiarizado com os conceitos básicos de ciência de dados e aprendizagem computacional e ter conhecimento linguagens de programação utilizadas em tarefas de data mining, tais como a linguagem Python.
Programa
1. Processamento de Linguagem Natural:
• representação de texto
• pré-processamento
• tarefas de NLP
• abordagens clássicas e de deep learning
• aplicações de NLP
2. Web:
• information retrieval
• sistemas de recomendação: filtragem colaborativa, fatorização de matrizes e abordagens deep learning
• análise de ligações
3. Extração de padrões frequentes
• itemsets frequentes e regras de associação
• algoritmos Apriori e FP-Growth.
• sumarização de itemsets e seleção de regras
• abordagens deep learning
4. Descoberta de valores raros:
• desafios
• técnicas não supervisionadas
• técnicas semi-supervisionadas
• aplicações em NLP, IR e web
Bibliografia Obrigatória
Daniel Jurafsky & James H. Martin; Speech and Language Processing, Prentice Hall / Pearson, 2025 (https://web.stanford.edu/~jurafsky/slp3/ (3ª edição))
Emrul Hasan, Mizanur Rahman, Chen Ding, Jimmy Xiangji Huang, and Shaina Raza; Review-based Recommender Systems: A Survey of Approaches, Challenges and Future Perspectives, ACM, 2025 (https://doi.org/10.1145/3742421)
Petru Kallay, Tudor Dan Mihoc ; Comparative Analysis of Frequent Pattern Mining Algorithms, 2025 (https://link.springer.com/article/10.1007/s44427-025-00008-1)
Métodos de ensino e atividades de aprendizagem
Aulas de caráter teórico-prático onde serão expostos os temas contemplados no programa e fornecidos alguns exemplos práticos de aplicação. Resolução de exercícios na parte prática e realização de um trabalho de grupo com apresentação final e discussão dos resultados.
Software
R
RStudio
Python
Jupyter lab
Tipo de avaliação
Avaliação distribuída com exame final
Componentes de Avaliação
| Designação |
Peso (%) |
| Trabalho prático ou de projeto |
40,00 |
| Exame |
50,00 |
| Teste |
10,00 |
| Total: |
100,00 |
Componentes de Ocupação
| Designação |
Tempo (Horas) |
| Elaboração de projeto |
35,00 |
| Estudo autónomo |
84,00 |
| Apresentação/discussão de um trabalho científico |
1,00 |
| Frequência das aulas |
42,00 |
| Total: |
162,00 |
Obtenção de frequência
O trabalho prático é obrigatório em todas as entregas previstas.
Pelo menos 70% de presenças nas aulas teóricas e práticas laboratoriais.
Fórmula de cálculo da classificação final
A avaliação da disciplina é distribuída, composta por um teste, um exame final e um trabalho prático.
O cálculo da classificação combinada é feito pela média pesada das notas práticas e teóricas através da fórmula:
NComb = 0.50 * NE + 0,1*NT + 0.40 * NTP
em que,
NE é a nota obtida no exame e
NTP é a nota do trabalho prático.
A nota final NF é limitada até 30% acima da nota individual (teste mais exame)
NF = min(1,3*NInd,NComb)
Caso a nota do exame seja superior à do teste ou o estudante não tenha feito o teste por razões justificadas, o exame terá um peso de 60% e o teste não é considerado.
Não obterão aprovação, os alunos que não obtiverem um mínimo de 30% em cada componente (exceto o teste).
O exame de recurso, será cotado para 60% (12 valores em 20) da nota final ou em nota combinada com o teste nas mesmas proporções da época normal
Provas e trabalhos especiais
O trabalho prático será anunciado a meio do semestre e deverá ser entregue e apresentado no final do mesmo.
Avaliação especial (TE, DA, ...)
O estudante pode melhorar somente a nota teórica submetendo-se ao exame de recurso.
Não se aplica a obrigatoriedade de presenças mínimas nas aulas.
Melhoria de classificação
A avaliação do trabalho prático não é passível de melhoria.
O estudante pode melhorar a nota teórica submetendo-se ao exame de recurso.
Observações
Todo o material (slides, livros recomendados, enunciados, etc.) é disponibilizado na língua Inglesa.