Processamento de Linguagem e Extração de Informação
Áreas Científicas |
Classificação |
Área Científica |
OFICIAL |
Sistemas Inteligentes |
Ocorrência: 2010/2011 - 1S
Ciclos de Estudo/Cursos
Sigla |
Nº de Estudantes |
Plano de Estudos |
Anos Curriculares |
Créditos UCN |
Créditos ECTS |
Horas de Contacto |
Horas Totais |
PRODEI |
6 |
Plano de estudos Oficial |
1 |
- |
7,5 |
70 |
200 |
Língua de trabalho
Português - Suitable for English-speaking students
Objetivos
Grande parte da informação que circula no mundo, e que se está armazenada em diferentes repositórios, encontra-se expressa em Linguagem Natural (e.g. artigos científicos, legislação, notícias, Twitters). Há também enormes quantidades de dados que são constantemente armazenados em formato semi-estruturado, e que resultam do registo automático de certo tipo de eventos (e.g. registo de compras). A este manancial de dados, deve juntar-se o facto de que cada vez mais a produção e disseminação de informação (e de conhecimento) ser feita em redes que interligam utilizadores e objectos multimédia, e que estas redes acabam elas próprias por se tornar em repositórios e fontes de mais informação.
O que é que podemos fazer com toda esta informação? Que valor podemos gerar a partir dela?
O objectivo da cadeira é dotar com os conceitos bases que lhe permitam processar este manancial de informação que cresce de dia para dia. O aluno irá ter contacto com técnicas, ferramentas e recursos fundamentais de Processamento de Linguagem Natural e de Extracção de Informação. No final da cadeira o aluno deverá ser capaz de desenhar e implementar sistemas que efectuem a análise e extracção automática de informação expressa em linguagem natural ou em formato semi-estruturado, existentes em repositórios e redes de objectos multimédia. Serão também abordados métodos automáticos de classificação e técnicas de aprendizagem automática cuja utilização é indispensável no desenvolvimento de sistemas de processamento de linguagem e extracção de informação.
Programa
A cadeira funcionará segundo um regime híbrido. Ao longo da primeira parte do semestre, serão abordados expositivamente um conjunto de tópicos de alto nível. Depois, será fornecida uma lista de problemas associados a cada um dos tópicos discutidos, para que cada aluno escolha um problema. Durante o resto do semestre, o aluno deverá desenvolver as correspondentes soluções. Nesse trabalho de pesquisa e desenvolvimento, os alunos serão acompanhados em regime de tutoria.
O programa expositivo irá abordar os seguintes tópicos base:
* Operações básicas de Processamento de Linguagem, e correspondentes recursos de suporte. Problemas fundamentais de representação de conhecimento. O problema de ambiguidade.
* Aplicações de Processamento de Linguagem e de Extracção de Informação. Exemplo Práticos
* Técnicas de Classificação de Texto usando Aprendizagem Automática
* Extracção de Informação em Conteúdos de Média Industriais (e.g. Jornais), e Institucionais (e.g. Diário da República).
* Extracção de Informação em Conteúdos Gerados por Utilizador (Blogs, Twitters, etc)
* Extracção de Informação em Redes Sociais. Problemas associados aos esquemas de Tagging e às Folksonomias
* Análise de Logs, Detecção de Padrões e Geração Recomendações
Para além destes tópicos, os próprios alunos poderão sugerir outro tópico sobre o qual preferem desenvolver trabalho, desde que o tópico esteja genericamente relacionado com tarefas de processamento de linguagem ou de extracção de informação.
Bibliografia Obrigatória
Christopher D. Manning And Hinrich Schütze; Foundations of Statistical Natural Language Processing, MIT-Press, 1999. ISBN: 0-262-13360-1
Métodos de ensino e atividades de aprendizagem
Ensino Presencial com Aulas expositivas e acompanhamento individual dos trabalhos dos alunos pelo docente.
Palavras Chave
Ciências Tecnológicas > Engenharia > Engenharia de computadores
Tipo de avaliação
Avaliação distribuída sem exame final
Componentes de Avaliação
Descrição |
Tipo |
Tempo (Horas) |
Peso (%) |
Data Conclusão |
Participação presencial (estimativa) |
Participação presencial |
57,00 |
|
|
Avaliação a meio do semestre (Short Paper + Apresentação) |
Defesa pública de dissertação, de relatório de projeto ou estágio, ou de tese |
43,00 |
|
|
Avaliação final (Full Paper + Apresentação) |
Defesa pública de dissertação, de relatório de projeto ou estágio, ou de tese |
102,00 |
|
|
|
Total: |
- |
0,00 |
|
Obtenção de frequência
A cada aluno irá ser entregue uma série de problemas concretos de Processamento de Linguagem e/ou de Extracção de Informação, dos quais o aluno deverá eleger um. Nesta cadeira procura-se avaliar a forma como esse problema é resolvido, estando sob avaliação as seguintes capacidades:
1) A capacidade do aluno em investigar eventuais soluções já propostas para o referido problema;
2) A capacidade de propor uma solução viável, e eventualmente original, para o seu problema concreto, bem como a capacidade de implementar essa solução num ambiente realista;
3) A capacidade do aluno em desenvolver um esquema de avaliação da solução que propõe;
4) A capacidade do aluno propor melhorias à solução inicial, e eventualmente, implementá-las e avaliá-las;
5) A capacidade de comunicar com rigor a terceiros o trabalho que desenvolveu
A avaliação será por isso composta por dois momentos: um a meio do semestre (30% da nota final), e outro no final do semestre (70% da nota final).
A meio do semestre será avaliado:
1) Produção de um artigo/relatório do tipo “short-paper” (de preferência escrito em inglês) e que descreva as primeiras experiências na resolução do problema que elegeu (serão dadas indicações precisas acerca da estrutura e conteúdo do artigo). Valor global desta componente: 20%.
2) Micro-apresentação de 10 minutos sobre o trabalho realizado até ao momento. Valor global desta componente: 10%.
No final do semestre será avaliado:
1) Produção de um artigo do tipo “full-paper”, em inglês, contendo a descrição da solução final do problema, e dos resultados das experiências de avaliação da solução proposta (serão dadas indicações precisas acerca da estrutura e conteúdo do artigo). Valor desta componente: 45%
2) Apresentação pública (25 mina) e demonstração do trabalho no final do semestre: 25%
Em todas as componentes há uma nota mínima de 7 valores em 20. A obtenção de uma nota inferior a 7 em qualquer componente invalida a obtenção de frequência na cadeira.
Avaliação especial (TE, DA, ...)
Os alunos sujeitos a regime de avaliação especial estão dispensados da componente presencial, excepto no momento das apresentações. A avaliação será realizada tendo em conta os parâmetros gerais definidos anteriormente.
Melhoria de classificação
Apenas a componente final da avaliação (70%) poderá ser melhorada. Para a obtenção de melhoria de classificação o aluno deverá re-submeter um novo trabalho final (i.e. artigo full-paper) e realizar a correspondente apresentação