Código: | M4114 | Sigla: | M4114 | Nível: | 400 |
Áreas Científicas | |
---|---|
Classificação | Área Científica |
OFICIAL | Matemática |
Ativa? | Sim |
Unidade Responsável: | Departamento de Matemática |
Curso/CE Responsável: | Mestrado em Ciência de Dados (Data Science) |
Sigla | Nº de Estudantes | Plano de Estudos | Anos Curriculares | Créditos UCN | Créditos ECTS | Horas de Contacto | Horas Totais |
---|---|---|---|---|---|---|---|
M:DS | 25 | Plano Oficial a partir de 2018_M:DS | 1 | - | 6 | 42 | 162 |
Formar os estudantes em métodos de análise multivariada de dados, de forma a permitir extrair a informação essencial
de um conjunto potencialmente volumoso de dados, com foco em métodos de classificação supervisionada e não supervisionada.
1. Comprensão dos fundamentos teóricos das metodologias lecionadas.
2. Capacidade de extrair a informação essencial de um conjunto de dados reais, usando as metodologias lecionadas
E em particular:
- Reconhecer diferentes problemas de classificação não supervisionada e classificação supervisionada e de os
resolver empregando os métodos abordados e com recurso ao software R ;
- Preparar, resolver e apresentar projetos computacionais de data mining, onde os vários modelos apresentados são discutidos, avaliados
e comparados perante casos concretos.
- Resolver exercícios computacionais e não computacionais sobre as metodologias abordadas
São necessários conhecimentos prévios sobre variáveis aleatórias e distribuições de probabilidade, estatísticas amostrais, intervalos de confiança e testes de hipóteses. Estes são os conteúdos usuais de uma unidade curricular de introdução às Probabilidades e Estatística do ensino superior.
Breve resumo de vetores aleatórios. Distribuição normal multivariada.
Métodos de reamostragem para a estimação da taxa de erro. Seleção de Modelos Lineares e Regularização (Regressão Ridge e Lasso); compromisso viés-variância. Triagem de variáveis para preditores de ultra elevada dimensão.
Análise Classificatória: métodos de partição, métodos hierárquicos; modelos de misturas e modelo probabilístico. Teoria da decisão estatística; regras de Bayes de erro mínimo e de custo mínimo.
Análise discriminante linear e quadrática. Regressão logística. Estimação não paramétrica de funções densidade de probabilidade: método do núcleo e dos K vizinhos mais próximos. Análise Factorial : Análise em Componentes Principais,
Análise Factorial das Correspondências simples e Múltiplas-. Escalonamento Multidimensional.
Aulas de tipo teórico-prático com diferentes exemplos de aplicação das técnicas e modelos estatísticos apresentados em laboratório computacional.O software usado é o software SPSS ou a linguagem gratuita de programação com ambiente de software R (dependendo do mestrado em causa).
Designação | Peso (%) |
---|---|
Teste | 60,00 |
Trabalho escrito | 40,00 |
Total: | 100,00 |
Designação | Tempo (Horas) |
---|---|
Estudo autónomo | 120,00 |
Frequência das aulas | 42,00 |
Total: | 162,00 |
1. Há exame na época normal e na época de recurso.
2. Melhoria de nota: os alunos que se apresentem no exame de recurso para melhoria de nota têm de realizar ambas as partes. O trabalho não pode ser melhorado.
A disciplina divide-se em duas partes; Parte I correspondente a cerca de 2/3 das aulas e Parte II a 1/3. Cada parte é constituída por um trabalho e por um exame. Para cada aluno as notas dos trabalhos e exames são dadas por:
Nota_dos_trabalhos : max (2/3*Tr1 +1/3*Tr2, 1/2*Tr1+1/2*Tr2)
Nota_dos_exames: max (2/3*Exame1 +1/3*Exame2, 1/2*Exame1+1/2*Exame2)
Nota final= 0.6*Nota_dos_exames+0.4*Nota_dos_trabalhos. A mesma fórmula se aplica às duas partes do exame de Recurso.
A aprovação está condicionada à Nota_dos_Exames ser igual ou
superior a 7.0 valores (na escala de 0 a 20). Os trabalhos práticos consistem na análise de uma base de dados
reais, utilizando os métodos lecionados na disciplina, por
recurso a software. Deverá ser realizado por grupos de 2 alunos.
Melhoria de nota: os alunos que se apresentem no exame de recurso para melhoria de nota têm de realizar ambas as partes. O trabalho não pode ser melhorado. A fórmula de avaliação é a mesma (ver acima).