Introdução ao processamento de dados com Python e Spark

Código:

EC_UFC031

Sigla:

EC_UFC031

Áreas Científicas
Classificação	Área Científica
CNAEF	Informática

Ocorrência: 2023/2024 - SP (de 17-05-2024 a 08-06-2024)

Ativa?	Sim
Página Web:	https://www.dcc.fc.up.pt/~miguel-areias/teaching/2324/ps-ed1/index.html
Unidade Responsável:	Departamento de Ciência de Computadores
Curso/CE Responsável:	Introdução ao processamento de dados com Python e Spark

Ciclos de Estudo/Cursos

Sigla	Nº de Estudantes	Plano de Estudos	Anos Curriculares	Créditos UCN	Créditos ECTS	Horas de Contacto	Horas Totais
UFC:Spar	24	PE_Introdução ao processamento de dados com Python e Spark	1	-	3	21	81

Docência - Responsabilidades

Docente	Responsabilidade
Miguel João Gonçalves Areias	Regente

Docência - Horas

Teorico-Prática:

1,50

Tipo	Docente	Turmas	Horas
Teorico-Prática	Totais	1	1,50
	Miguel João Gonçalves Areias		1,50
	Vítor Daniel Peixoto de Sousa		1,50

Língua de trabalho

Português

Objetivos

A unidade de formação está concebida para pessoas com conhecimentos básicos de programação em Python que pretendam desenvolver competências de análise de grandes volumes de dados.

Resultados de aprendizagem e competências

No final da unidade de formação, os formandos deverão ter adquirido conhecimentos de programação em Apache Spark, devendo ser capazes de implementar algoritmos de análise de dados, nomeadamente:

- Conhecer o modelo de programação MapReduce e construir programas básicos utilizando transformações e ações;
- Conhecer os modelos RDD e dataframe;
- Processar dados estruturados com SparkSQL;
- Leitura e escrita de ficheiros de dados.

Modo de trabalho

Presencial

Programa

- Introdução ao modelo de programação MapReduce;
- O modelo de armazenamento HDFS e a representação RDD;
- Ações e transformações;
- Processamento com pares Key-Value;
- Definição de funções Lambda;
- Compreender o fluxo de processamento com DAGs;
- Configuração do nível de paralelismo;
- Introdução ao SparkSQL;
- Leitura e escrita de ficheiros estruturados;
- Trabalhar com dados em falta e errados;
- Operações estruturadas.

Bibliografia Obrigatória

Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee; Learning Spark -- Lightning-Fast Big Data Analysis, O'Reilly, 2020. ISBN: 978-1492050049

Métodos de ensino e atividades de aprendizagem

A unidade de formação funciona em regime presencial e compreende 21 horas de contacto Teórico-Práticas. As sessões Teórico-Práticas serão apoiadas pela projeção de conteúdos e pela disponibilização de apontamentos dedicados.

Durante as aulas de apresentação, e por recurso a exemplos, serão desenvolvidos pequenos programas em PySpark de forma interactiva. As aulas teórico-práticas decorrerão em laboratório com computadores, e estimularão a resolução pelos formandos de pequenas fichas com problemas variados, com apoio do formador.

Tipo de avaliação

Avaliação distribuída com exame final

Componentes de Avaliação

Designação	Peso (%)
Exame	80,00
Trabalho laboratorial	20,00
Total:	100,00

Componentes de Ocupação

Designação	Tempo (Horas)
Estudo autónomo	60,00
Frequência das aulas	21,00
Total:	81,00

Obtenção de frequência

Sem requisitos

Fórmula de cálculo da classificação final

NCP - Nota da Componente Prática

NE - Nota do Exame

Nota Final = 0.2 x NCP + 0.8 x NE (entre 0 e 20)

Recomendar Página Voltar ao Topo

Copyright 1996-2024 © Faculdade de Ciências da Universidade do Porto I Termos e Condições I Acessibilidade I Índice A-Z I Livro de Visitas
Página gerada em: 2024-07-16 às 21:41:01 | Política de Utilização Aceitável | Política de Proteção de Dados Pessoais | Denúncias