Código: | M4114 | Sigla: | M4114 | Nível: | 400 |
Áreas Científicas | |
---|---|
Classificação | Área Científica |
OFICIAL | Matemática |
Ativa? | Sim |
Unidade Responsável: | Departamento de Matemática |
Curso/CE Responsável: | Mestrado em Ciência de Dados (Data Science) |
Sigla | Nº de Estudantes | Plano de Estudos | Anos Curriculares | Créditos UCN | Créditos ECTS | Horas de Contacto | Horas Totais |
---|---|---|---|---|---|---|---|
M:DS | 20 | Plano Oficial a partir de 2018_M:DS | 1 | - | 6 | 42 | 162 |
Formar os estudantes em métodos de análise multivariada de dados, de forma a permitir extrair a informação essencial
de um conjunto potencialmente volumoso de dados, com foco em métodos de classificação supervisionada e não supervisionada.
1. Comprensão dos fundamentos teóricos das metodologias lecionadas.
2. Capacidade de extrair a informação essencial de um conjunto de dados reais, usando as metodologias lecionadas
E em particular:
- Reconhecer diferentes problemas de classificação não supervisionada e classificação supervisionada e de os
resolver empregando os métodos abordados e com recurso ao software R ;
- Preparar, resolver e apresentar projetos computacionais de data mining, onde os vários modelos apresentados são discutidos, avaliados
e comparados perante casos concretos.
- Resolver exercícios computacionais e não computacionais sobre as metodologias abordadas
São necessários conhecimentos prévios sobre variáveis aleatórias e distribuições de probabilidade, estatísticas amostrais, intervalos de confiança e testes de hipóteses. Estes são os conteúdos usuais de uma unidade curricular de introdução às Probabilidades e Estatística do ensino superior.
Breve resumo de vetores aleatórios. Distribuição normal multivariada.
Métodos de reamostragem para a estimação da taxa de erro. Seleção de Modelos Lineares e Regularização (Regressão Ridge e Lasso); compromisso viés-variância. Triagem de variáveis para preditores de ultra elevada dimensão.
Análise Classificatória: métodos de partição, métodos hierárquicos; modelos de misturas e modelo probabilístico. Teoria da decisão estatística; regras de Bayes de erro mínimo e de custo mínimo.
Análise discriminante linear e quadrática. Regressão logística. Estimação não paramétrica de funções densidade de probabilidade: método do núcleo e dos K vizinhos mais próximos. Análise Factorial : Análise em Componentes Principais,
Análise Factorial das Correspondências simples e Múltiplas-. Escalonamento Multidimensional.
Aulas de tipo teórico-prático com diferentes exemplos de aplicação das técnicas e modelos estatísticos apresentados em laboratório computacional.O software usado é o software SPSS ou a linguagem gratuita de programação com ambiente de software R (dependendo do mestrado em causa).
Designação | Peso (%) |
---|---|
Teste | 60,00 |
Trabalho escrito | 40,00 |
Total: | 100,00 |
Designação | Tempo (Horas) |
---|---|
Estudo autónomo | 120,00 |
Frequência das aulas | 42,00 |
Total: | 162,00 |
1. Não há exame na época normal. Há exame na época de recurso.
2. Exame de recurso: os alunos que não passaram por testes e trabalho e se apresentem a exame (época de recurso), podem realizar uma ou ambas as partes. Para cada parte, ficam com o melhor dos resultados obtidos por teste e exame. O trabalho não pode ser melhorado.
3. Melhoria de nota: os alunos que se apresentem no exame de recurso para melhoria de nota têm de realizar ambas as partes. O trabalho não pode ser melhorado.
A disciplina divide-se em duas partes. Cada parte é constituída por um trabalho e por um teste/exame. Para cada aluno as notas dos trabalhos e testes são dadas por:
Nota_dos_trabalhos : max (2/3*Tr1 +1/3*Tr2, 1/2*Tr1+1/2*Tr2)
Nota_dos_testes: max (2/3*Teste1 +1/3*Teste2, 1/2*Teste1+1/2*Teste2)
Nota final= 0.6*Nota_dos_testes+0.4*Nota_dos_trabalhos. A mesma fórmula se aplica às duas partes do exame.
A aprovação está condicionada à Nota_dos_Testes (ou ambas as partes do exame), calculada pela fórmula acima, ser igual ou superior a 7.0 valores (na escala de 0 a 20). Os trabalho práticos consistem na análise de uma base de dados reais, utilizando os métodos lecionados na disciplina,
por recurso a software. Deverá ser realizado por grupos de 2 alunos.
Melhoria de nota: os alunos que se apresentem no exame de recurso para melhoria de nota têm de realizar ambas as partes. O trabalho não pode ser melhorado. A fórmula de avaliação é a mesma (ver acima).