Saltar para:
Logótipo
Você está em: Início > EC_UFC031
Mapa das Instalações
FC6 - Departamento de Ciência de Computadores FC5 - Edifício Central FC4 - Departamento de Biologia FC3 - Departamento de Física e Astronomia e Departamento GAOT FC2 - Departamento de Química e Bioquímica FC1 - Departamento de Matemática

Introdução ao processamento de dados com Python e Spark

Código: EC_UFC031     Sigla: EC_UFC031

Áreas Científicas
Classificação Área Científica
CNAEF Informática

Ocorrência: 2023/2024 - SP (de 17-05-2024 a 08-06-2024) Ícone do Moodle

Ativa? Sim
Página Web: https://www.dcc.fc.up.pt/~miguel-areias/teaching/2324/ps-ed1/index.html
Unidade Responsável: Departamento de Ciência de Computadores
Curso/CE Responsável: Introdução ao processamento de dados com Python e Spark

Ciclos de Estudo/Cursos

Sigla Nº de Estudantes Plano de Estudos Anos Curriculares Créditos UCN Créditos ECTS Horas de Contacto Horas Totais
UFC:Spar 24 PE_Introdução ao processamento de dados com Python e Spark 1 - 3 21 81

Docência - Responsabilidades

Docente Responsabilidade
Miguel João Gonçalves Areias Regente

Docência - Horas

Teorico-Prática: 1,50
Tipo Docente Turmas Horas
Teorico-Prática Totais 1 1,50
Miguel João Gonçalves Areias 1,50
Vítor Daniel Peixoto de Sousa 1,50

Língua de trabalho

Português

Objetivos

A unidade de formação está concebida para pessoas com conhecimentos básicos de programação em Python que pretendam desenvolver competências de análise de grandes volumes de dados.

Resultados de aprendizagem e competências



No final da unidade de formação, os formandos deverão ter adquirido conhecimentos de programação em Apache Spark, devendo ser capazes de implementar algoritmos de análise de dados, nomeadamente:

- Conhecer o modelo de programação MapReduce e construir programas básicos utilizando transformações e ações;
- Conhecer os modelos RDD e dataframe;
- Processar dados estruturados com SparkSQL;
- Leitura e escrita de ficheiros de dados.

Modo de trabalho

Presencial

Programa

- Introdução ao modelo de programação MapReduce;
- O modelo de armazenamento HDFS e a representação RDD;
- Ações e transformações;
- Processamento com pares Key-Value;
- Definição de funções Lambda;
- Compreender o fluxo de processamento com DAGs;
- Configuração do nível de paralelismo;
- Introdução ao SparkSQL;
- Leitura e escrita de ficheiros estruturados;
- Trabalhar com dados em falta e errados;
- Operações estruturadas.

Bibliografia Obrigatória

Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee; Learning Spark -- Lightning-Fast Big Data Analysis, O'Reilly, 2020. ISBN: 978-1492050049

Métodos de ensino e atividades de aprendizagem

A unidade de formação funciona em regime presencial e compreende 21 horas de contacto Teórico-Práticas. As sessões Teórico-Práticas serão apoiadas pela projeção de conteúdos e pela disponibilização de apontamentos dedicados.

Durante as aulas de apresentação, e por recurso a exemplos, serão desenvolvidos pequenos programas em PySpark de forma interactiva. As aulas teórico-práticas decorrerão em laboratório com computadores, e estimularão a resolução pelos formandos de pequenas fichas com problemas variados, com apoio do formador.

Tipo de avaliação

Avaliação distribuída com exame final

Componentes de Avaliação

Designação Peso (%)
Exame 80,00
Trabalho laboratorial 20,00
Total: 100,00

Componentes de Ocupação

Designação Tempo (Horas)
Estudo autónomo 60,00
Frequência das aulas 21,00
Total: 81,00

Obtenção de frequência

Sem requisitos

Fórmula de cálculo da classificação final

NCP - Nota da Componente Prática

NE - Nota do Exame

Nota Final = 0.2 x NCP + 0.8 x NE (entre 0 e 20)
Recomendar Página Voltar ao Topo
Copyright 1996-2024 © Faculdade de Ciências da Universidade do Porto  I Termos e Condições  I Acessibilidade  I Índice A-Z  I Livro de Visitas
Página gerada em: 2024-07-16 às 21:41:01 | Política de Utilização Aceitável | Política de Proteção de Dados Pessoais | Denúncias