Resumo: |
O desenvolvimento da Inteligência Artificial (IA) e do Processamento de Linguagem Natural (NLP) depende de métodos preditivos poderosos capazes de
descobrir de modo eficiente funções complexas que associem dados observados a outputs. Os atuais métodos, apesar de eficazes, carecem de um maior
entendimento no estabelecimento de ligações significativas mais profundas entre os dados observados (os sinais) e as suas origens, significados e causas. O
caminho para preencher a lacuna entre os sinais e o significado é longo, mas passos promissores e práticos estão a ser conduzidos por investigadores das áreas
de IA e NLP.
Recursos gerais como Wikipedia, DBPedia, WordNet, ConceptNet e ontologias específicas de domínio, como UMLS (Unified Medical Language System) na
medicina, são hoje em dia frequentemente usados para enriquecer a camada semântica de NLP em aplicações importantes, como sumarização de registos de
saúde, recuperação de informação a partir de arquivos da web, sistemas de recomendação, rastreamento de histórias no jornalismo e media. A evolução na
extração de narrativas e a sua compreensão depende, contudo, do progresso de ferramentas de NLP que permitam a obtenção automática de uma visão geral
das narrativas.
Projetos como o Text2Story são um importante contributo neste domínio. Apesar dos recentes avanços, verifica-se, ainda, uma clara inexistência de corpora
anotados no domínio das narrativas. Tais limitações decorrem sobretudo do facto de a anotação densa ser dispendiosa e da falta de esquemas abrangentes de
anotação de narrativas. Apesar destas limitações, as atuais abordagens computacionais para Extração de Narrativas (incluindo as baseadas em ML) têm
contribuído com um fluxo de soluções, por vezes dispersas, na extração dos componentes narrativos mais relevantes: participantes, eventos, tempo, espaço e
respetivas ligações. O tema tem sido objeto de atenção por parte da comunidade científica. Workshops como o Text2Story@ECIR e o AI4Narrative |
Resumo O desenvolvimento da Inteligência Artificial (IA) e do Processamento de Linguagem Natural (NLP) depende de métodos preditivos poderosos capazes de
descobrir de modo eficiente funções complexas que associem dados observados a outputs. Os atuais métodos, apesar de eficazes, carecem de um maior
entendimento no estabelecimento de ligações significativas mais profundas entre os dados observados (os sinais) e as suas origens, significados e causas. O
caminho para preencher a lacuna entre os sinais e o significado é longo, mas passos promissores e práticos estão a ser conduzidos por investigadores das áreas
de IA e NLP.
Recursos gerais como Wikipedia, DBPedia, WordNet, ConceptNet e ontologias específicas de domínio, como UMLS (Unified Medical Language System) na
medicina, são hoje em dia frequentemente usados para enriquecer a camada semântica de NLP em aplicações importantes, como sumarização de registos de
saúde, recuperação de informação a partir de arquivos da web, sistemas de recomendação, rastreamento de histórias no jornalismo e media. A evolução na
extração de narrativas e a sua compreensão depende, contudo, do progresso de ferramentas de NLP que permitam a obtenção automática de uma visão geral
das narrativas.
Projetos como o Text2Story são um importante contributo neste domínio. Apesar dos recentes avanços, verifica-se, ainda, uma clara inexistência de corpora
anotados no domínio das narrativas. Tais limitações decorrem sobretudo do facto de a anotação densa ser dispendiosa e da falta de esquemas abrangentes de
anotação de narrativas. Apesar destas limitações, as atuais abordagens computacionais para Extração de Narrativas (incluindo as baseadas em ML) têm
contribuído com um fluxo de soluções, por vezes dispersas, na extração dos componentes narrativos mais relevantes: participantes, eventos, tempo, espaço e
respetivas ligações. O tema tem sido objeto de atenção por parte da comunidade científica. Workshops como o Text2Story@ECIR e o AI4Narratives@IJCAI2020,
organizados pela nossa equipa de investigação, ou o Narrative Understanding e o Financial Narrative Processing, atestam a vitalidade da área.
Muitos dos desafios enfrentados na extração de narrativas e na sua compreensão decorrem da relativa superficialidade semântica das ferramentas de NLP. Por
um lado, sem uma melhor compreensão da narrativa, torna-se difícil caracterizar corretamente os participantes ou identificar as sequências de eventos no
tempo e no espaço. Por outro, embora as estruturas de anotação atuais incorporem muitos rótulos semânticos que permitem que anotadores incluam
informações valiosas, essa anotação semântica é muito difícil de automatizar devido à falta de conhecimento prévio em ferramentas de extração de narrativas.
Nesse sentido, torna-se importante explorar metodologias automáticas para vincular componentes narrativos a bases de dados (e.g., wikipedia) e ontologias.
Adicionalmente, recursos ontológicos padronizados em domínios técnicos como a medicina (eg. UMLS), já existem e devem ser mais bem explorados.
Neste projeto, trabalharemos numa pipeline para compreensão de narrativas. Avançaremos no estado da arte introduzindo uma camada semântica que permita
inferir o significado das histórias.
O grande desafio deste projeto passa por alcançar uma melhor compreensão das narrativas. Isso envolve não apenas o desenvolvimento de métodos
automáticos adequados para extrair relações semânticas complexas entre todos os componentes narrativos e os diferentes níveis narrativos, mas também
enriquecer a sua representação formal com links para ontologias e bases de conhecimento. O objetivo final é modelar uma representação computacional de
uma narrativa na forma de uma ontologia narrativa.
Mais detalhadamente, os principais objetivos do projeto são os seguintes:
OBJ1: Estrutura de anotação semântica: desenvolver uma estrutura de anotação semântica com rótulos e ligações a fontes de conhecimento externas,
incorporar causalidade e representar histórias encaixadas.
OBJ2: Automatização da anotação semântica: automatizar a anotação semântica usando modelos de linguagem neural, redes neurais gráficas e abordagens
de resposta a perguntas.
OBJ3: Anotação Homem-Máquina: acelerar a anotação através da cooperação anotador-máquina por meio de aumento de texto, rotulagem fraca e
aprendizagem ativa.
OBJ4: Ligação a fontes externas: desenvolver modelos de ML para vincular automaticamente componentes narrativos a referências e categorias em bases de
dados externas e ontologias.
OBJ5: Modelagem Narrativa: construir uma ontologia narrativa a partir de múltiplas instâncias narrativas que possam ser usadas para melhorar a extração e
compreensão da narrativa.
Os resultados deste projeto serão apresentados nas seguintes demonstrações e aplicativos:
Extração de narrativa, compreensão e visualização de textos jornalísticos;
Resumo de textos clínicos para avaliação médica rápida e segura;
Interfaces de perguntas e respostas para navegação em vários documentos. |