Introdução ao processamento de dados com Python e Spark
Áreas Científicas |
Classificação |
Área Científica |
CNAEF |
Informática |
Ocorrência: 2023/2024 - SP (de 17-05-2024 a 08-06-2024) ![Requerida a integração com o Moodle Ícone do Moodle](/fcup/pt/imagens/MoodleIcon)
Ciclos de Estudo/Cursos
Docência - Responsabilidades
Língua de trabalho
Português
Objetivos
A unidade de formação está concebida para pessoas com conhecimentos básicos de programação em Python que pretendam desenvolver competências de análise de grandes volumes de dados.
Resultados de aprendizagem e competências
No final da unidade de formação, os formandos deverão ter adquirido conhecimentos de programação em Apache Spark, devendo ser capazes de implementar algoritmos de análise de dados, nomeadamente:
- Conhecer o modelo de programação MapReduce e construir programas básicos utilizando transformações e ações;
- Conhecer os modelos RDD e dataframe;
- Processar dados estruturados com SparkSQL;
- Leitura e escrita de ficheiros de dados.
Modo de trabalho
Presencial
Programa
- Introdução ao modelo de programação MapReduce;
- O modelo de armazenamento HDFS e a representação RDD;
- Ações e transformações;
- Processamento com pares Key-Value;
- Definição de funções Lambda;
- Compreender o fluxo de processamento com DAGs;
- Configuração do nível de paralelismo;
- Introdução ao SparkSQL;
- Leitura e escrita de ficheiros estruturados;
- Trabalhar com dados em falta e errados;
- Operações estruturadas.
Bibliografia Obrigatória
Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee; Learning Spark -- Lightning-Fast Big Data Analysis, O'Reilly, 2020. ISBN: 978-1492050049
Métodos de ensino e atividades de aprendizagem
A unidade de formação funciona em regime presencial e compreende 21 horas de contacto Teórico-Práticas. As sessões Teórico-Práticas serão apoiadas pela projeção de conteúdos e pela disponibilização de apontamentos dedicados.
Durante as aulas de apresentação, e por recurso a exemplos, serão desenvolvidos pequenos programas em PySpark de forma interactiva. As aulas teórico-práticas decorrerão em laboratório com computadores, e estimularão a resolução pelos formandos de pequenas fichas com problemas variados, com apoio do formador.
Tipo de avaliação
Avaliação distribuída com exame final
Componentes de Avaliação
Designação |
Peso (%) |
Exame |
80,00 |
Trabalho laboratorial |
20,00 |
Total: |
100,00 |
Componentes de Ocupação
Designação |
Tempo (Horas) |
Estudo autónomo |
60,00 |
Frequência das aulas |
21,00 |
Total: |
81,00 |
Obtenção de frequência
Sem requisitos
Fórmula de cálculo da classificação final
NCP - Nota da Componente Prática
NE - Nota do Exame
Nota Final = 0.2 x NCP + 0.8 x NE (entre 0 e 20)