Programação Dinâmica e Aprendizagem para Decisão e Controlo

Código:

M.EEC026

Sigla:

PDADD

Áreas Científicas
Classificação	Área Científica
OFICIAL	Automação e Controlo

Ocorrência: 2021/2022 - 1S

Ativa?	Sim
Unidade Responsável:	Departamento de Engenharia Eletrotécnica e de Computadores
Curso/CE Responsável:	Mestrado em Engenharia Eletrotécnica e de Computadores

Ciclos de Estudo/Cursos

Sigla	Nº de Estudantes	Plano de Estudos	Anos Curriculares	Créditos UCN	Créditos ECTS	Horas de Contacto	Horas Totais
M.EEC	14	Plano de Estudos Oficial	2	-	6	39

Língua de trabalho

Português e inglês

Objetivos

Esta UC visa transpor as bases adquiridas em controlo, otimização, sistemas dinâmicos (diferenciais ou com eventos discretos), determinísticos ou estocásticos para a vertente operacional por forma a lidar com a complexidade computacional inerente a processos de optimização e de exploração.

Resultados de aprendizagem e competências

Aquisição por parte dos estudantes de conhecimentos fundamentais para a conceção e desenvolvimento de sistemas de apoio à gestão e controlo de sistemas dinâmicos tendo como a
programação dinâmica como elemento central bem como as diversas abordagens aproximantes, designadas genericamente de "reinforcement learning" que promovem diferentes compromissos entre exploração e optimização.
São parte dos sub-objetivos, por um lado, estabelecer a ligação com matérias curriculares oferecidas anteriormente – essencialmente, sistemas dinâmicos, controlo, otimização, sistemas com variáveis aleatórios, e cadeias de Markov – e, por outro lado, como fazer a ligação com redes neuronais como
forma eficiente de operacionalizar do ponto de vista computacional os métodos apresentados.

Modo de trabalho

Presencial

Pré-requisitos (conhecimentos prévios) e co-requisitos (conhecimentos simultâneos)

Álgebra Linear, Análise Matemática, Teoria do Sinal, Teoria do Controlo

Programa

1. Introdução.
Clarificação – através de exemplos – como é que os conteúdos desta UC permitem operacionalizar conhecimentos de
UCs anteriores, nomeadamente, Controlo e Otimização e Sistemas com Eventos Discretos.
2. Revisão e complemento de conhecimentos sobre Cadeias de Markov Controladas.
Definição como autómatos estocásticos temporizados. Matriz de Probabilidades de Transição. Regimes transitórios e
permanentes. Aplicações ao controlo e otimização de Filas de Espera. Processos de Decisão de Markov.
3. Programação Dinâmica
Conceitos básicos gerais nos contextos discreto e em tempo continuum: função valor (“cost-to-go”) e princípio de
otimalidade. Métodos de resolução da equação de Hamilton-Jacobi-Bellman. Algoritmos básicos de programação
dinâmica para problemas discretos. Exemplo do caso do problema Linear Quadrático. Relação com o Princípio do
Máximo para este caso. Tipos de problemas de programação dinâmica: Caminho mais curto estocástico, e custo
descontado.
4. Arquiteturas de redes neuronais e métodos de treino.
Arquiteturas para aproximação da função valor através de redes neuronais multinível. Métodos de treino de redes
neuronais.
5. Algoritmos estocásticos iterativos.
Modelo básico. Convergência baseada em função potencial suave. Convergência via propriedades de contração e
monotonia. A abordagem da equação diferencial ordinária.
6. Métodos de simulação. Avaliação de políticas por simulação Monte Carlo. Método das diferenças temporais. Iteração
de políticas otimistas. Iteração do valor por simulação. Aprendizagem Q.

Bibliografia Obrigatória

Bertsekas, D. P., & Tsitsikis, J. N.; Neuro-Dynamic Programming, Athena Scientific, 1996
Bertsekas, D. P.; Dynamic Programming and Optimal Control (3rd ed)., Athena Scientific, 2005
Cassandras, C.G., Lafortune, S.; Introduction to Discrete Event Systems (2nd ed), Springer, 2008

Métodos de ensino e atividades de aprendizagem

Aulas teóricas: exposição da matéria e resolução de exemplos de exercícios
Aulas teórico práticas: Resolução de exercícios representativos. Apoio ao estudantes na resolução de problemas propostos na aula, esclarecimento de dúvidas e realização de exercícios práticos, bem como acompanhamento de trabalhos apoiados na utilização do OCTAVE/MATLAB.

Software

Octave, MATLAB
Matlab

Palavras Chave

Ciências Físicas > Matemática > Matemática aplicada
Ciências Tecnológicas > Engenharia > Engenharia electrotécnica
Ciências Tecnológicas > Engenharia > Engenharia de sistemas > Teoria de sistemas
Ciências Tecnológicas > Engenharia > Engenharia de controlo > Automação

Tipo de avaliação

Avaliação distribuída com exame final

Componentes de Avaliação

Designação	Peso (%)
Exame	70,00
Trabalho prático ou de projeto	30,00
Total:	100,00

Componentes de Ocupação

Designação	Tempo (Horas)
Elaboração de projeto	20,00
Estudo autónomo	103,00
Frequência das aulas	39,00
Total:	162,00

Obtenção de frequência

A frequência é obtida através da participação remota em pelo menos 75% das aulas PL e pela participação no mini-projecto. A medida da participação da Aula PL remotamente é efectuada através da entrega de um exercício dessa aula resolvido até ao fim de semana seguinte.
Em cada aula PL serão sorteados 2 estudantes para fazerem separadamente uma apresentação do exercício em questão durante 5 minutos para cada um.

Fórmula de cálculo da classificação final

A avaliação final tem duas componentes:
EF - Valorização do Exame Final na escala de 0 a 20 valores com um peso de 70%
CC - Valorização da Componente Contínua na escala de 0 a 20 valores com um peso de 30%

Classificação Final = 0.7 EF + 0.3 CC

A Componente Contínua é medida pelo desempenho no projecto de grupo e pelo grau de participação da Aula PL remotamente é efectuada através da entrega de um exercício dessa aula resolvido até ao fim de semana seguinte.
Em cada aula PL serão sorteados 2 estudantes para fazerem separadamente uma apresentação do exercício em questão durante 5 minutos para cada um.
A participação remota nas aulas contribui para a avaliação final até 2 valores (10%).
O desempenho no projeto será valorizado até 6 valores (30%).
A soma da avaliação do projeto e da Componente Contínua não pode ultrapassar os 6 valores

O exame de recurso tem dois objectivos:
1. No caso de não aprovação, o exame de recurso pode incluir ou
não a parte contínua, escolhendo-se a alternativa que mais beneficia o estudante.
2. No caso de aprovação, o exame de recurso serve para melhoria.

Provas e trabalhos especiais

Mini projecto de sistema de controlo apoiado pelo software OCTAVE/MATLAB.

Trabalho de estágio/projeto

Não aplicável

Melhoria de classificação

Existem duas opções:
1. Realização do exame de recurso valorizado até 20 valores
2. Realização do exame de recurso valorizado até 14 valores, no caso de ser mais vantajoso para o estudante contabilizar a valorização da componente contínua.

Recomendar Página Voltar ao Topo

Copyright 1996-2025 © Faculdade de Engenharia da Universidade do Porto I Termos e Condições I Acessibilidade I Índice A-Z I Livro de Visitas
Página gerada em: 2025-06-22 às 11:33:14 | Política de Utilização Aceitável | Política de Proteção de Dados Pessoais | Denúncias