Processamento de Linguagem e Extração de Informação
Áreas Científicas |
Classificação |
Área Científica |
OFICIAL |
Sistemas Inteligentes |
Ocorrência: 2024/2025 - 1S 
Ciclos de Estudo/Cursos
Docência - Responsabilidades
Língua de trabalho
Português - Suitable for English-speaking students
Objetivos
O objetivo principal desta unidade curricular é dotar os estudantes de conhecimentos sobre técnicas de processamento de linguagem natural e de extração de informação a partir de texto, articulando a apresentação dos fundamentos teóricos com aplicações práticas.
Resultados de aprendizagem e competências
Ao completar a unidade curricular os estudantes deverão ser capazes de:
- Explicar os conceitos e técnicas fundamentais para o processamento de linguagem natural e extração de informação a partir de texto;
- Demonstrar conhecimento da literatura científica relevante e capacidade de interpretação e apresentação de trabalhos de investigação na área;
- Desenhar e implementar sistemas para proccessamento de linguagem natural e que efetuem a análise e extração automática de informação expressa em linguagem natural.
Modo de trabalho
Presencial
Programa
- Introdução ao processamento de linguagem natural: definições, tarefas e aplicações.
- Processamento básico de texto: expressões regulares, tokenização, normalização, lematização, stemming, segmentação.
- Modelos de linguagem: n-grams.
- Classificação de texto: bag-of-words, TF-IDF, n-grams, Naive Bayes, engenharia de features; classificadores generativos e discriminativos.
- Modelos sequenciais: hidden Markov models, conditional random fields; marcação de classe gramatical e reconhecimento de entidades mencionadas.
- Representações vectoriais de palavras: semântica lexical, embeddings de palavras.
- Redes neuronais em processamento de linguagem natural: modelos neuronais de linguagem, redes neuronais recorrentes, redes encoder-decoder, attention, redes transformer.
- Grandes modelos de linguagem.
- Investigação atual em processamento de linguagem natural e extração de informação.
Bibliografia Obrigatória
Daniel Jurafsky;
Speech and language processing. ISBN: 0-13-095069-6 (https://web.stanford.edu/~jurafsky/slp3/)
Bibliografia Complementar
Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze;
Introduction to information retrieval. ISBN: 978-0-521-86571-5 (Conteúdo integral disponível em http://nlp.stanford.edu/IR-book/)
Steven Bird, Ewan Klein, Edward Loper;
Natural Language Processing with Python, O'Reilly Media, 2009. ISBN: 978-0-596-51649-9 (Conteúdo integral disponível em http://www.nltk.org/book/)
Yoav Goldberg;
Neural network methods for natural language processing. ISBN: 978-1-62705-298-6
Jacob Eisenstein;
Introduction to natural language processing. ISBN: 978-0-262-04284-0
Métodos de ensino e atividades de aprendizagem
A unidade curricular funciona segundo um regime híbrido, que inclui uma componente teórica expositiva e uma componente de projeto. A componente teórica consistirá na exposição dos conceitos base sobre processamento de linguagem e extração de informação e na apresentação de literatura recente sobre a temática.
A componente de projeto permitirá aos estudantes aplicar esses conceitos em casos de estudo práticos. Os estudantes irão efetuar pesquisa, desenvolvimento e avaliação de uma solução de processamento de linguagem e extração de informação. No trabalho de investigação e desenvolvimento, os estudantes serão acompanhados em regime de tutoria.
As aulas serão utilizadas para abordar os tópicos da unidade curricular, que serão acompanhados de exercícios fornecidos com base em Jupyter notebooks (Python). O objetivo é apresentar as ferramentas que serão utilizadas nos trabalhos práticos o mais cedo possível. Ao mesmo tempo, serão fornecidas sugestões para literatura relacionada, como oportunidades de leitura adicional. Os estudantes serão convidados a fazer breves apresentações sobre as tendências recentes de investigação em PLN. Parte das aulas serão também utilizadas para acompanhamento tutorial individualizado dos trabalhos práticos.
Cada estudante define e realiza um projecto prático ao longo do semestre, que resultará na escrita de um artigo científico. Os temas dos projetos são propostos pelos estudantes e validados pelo docente.
Os estudantes realizarão também apresentações sobre tópicos recentes em processamento de linguagem natural.
Palavras Chave
Ciências Tecnológicas > Engenharia > Engenharia de computadores
Tipo de avaliação
Avaliação distribuída sem exame final
Componentes de Avaliação
Designação |
Peso (%) |
Trabalho escrito |
25,00 |
Apresentação/discussão de um trabalho científico |
50,00 |
Trabalho prático ou de projeto |
25,00 |
Total: |
100,00 |
Componentes de Ocupação
Designação |
Tempo (Horas) |
Estudo autónomo |
40,00 |
Frequência das aulas |
26,00 |
Apresentação/discussão de um trabalho científico |
1,00 |
Trabalho de investigação |
20,00 |
Trabalho escrito |
25,00 |
Trabalho laboratorial |
50,00 |
Total: |
162,00 |
Obtenção de frequência
A avaliação é feita com base em quatro componentes:
1) Apresentação oral relacionada com uma direção de investigação recente: 30%
2) Trabalho prático: 25%
3) Artigo científico documentando o trabalho prático desenvolvido: 25%
4) Apresentação final do trabalho prático desenvolvido: 20%
A todas as componentes de avaliação aplica-se uma nota mínima de 7 valores em 20.
Fórmula de cálculo da classificação final
A classificação final (CF) será calculada da seguinte forma:
CF = 30% * AO + 25% * TP + 25% * AC + 20% * AF
Componentes de avaliação:
- AO: Apresentação oral relacionada com uma direção de investigação recente
- TP: Trabalho prático
- AC: Artigo científico documentando o trabalho prático desenvolvido
- AF: Apresentação final do trabalho prático desenvolvido
Avaliação especial (TE, DA, ...)
Os alunos sujeitos a regime de avaliação especial estão dispensados da componente presencial, excepto no momento das apresentações. Nestes casos, devem ser agendadas reuniões períodicas com o docente para acompanhamento dos trabalhos. A avaliação será realizada tendo em conta os parâmetros gerais definidos anteriormente.
Melhoria de classificação
Na edição seguinte da Unidade Curricular.