Saltar para:
Logótipo
This page in english Ajuda Autenticar-se
FCUP
Você está em: Início > Notícias > Software com DNA FCUP ajuda a catalogar mais 100 milhões de artigos científicos
Autenticação




Mapa das Instalações
FC6 - Departamento de Ciência de Computadores FC5 - Edifício Central FC4 - Departamento de Biologia FC3 - Departamento de Física e Astronomia e Departamento GAOT FC2 - Departamento de Química e Bioquímica FC1 - Departamento de Matemática

Informações

Software com 'DNA' FCUP ajuda a catalogar mais 100 milhões de artigos científicos

Docente do DCC, Alípio Jorge, ajudou a criar o YAKE!


O software de extração de palavras-chave, YAKE!, criado pelo docente da Faculdade de Ciências da Universidade do Porto (FCUP), Alípio Jorge, foi utilizado no processo de criação do
General Index, um projeto que catalogou 107 milhões de artigos científicos, reunindo um catálogo de frases e palavras, com o objetivo de facilitar a pesquisa de informação. 

Esta nova base de dados está disponível, desde outubro, no Internet Archive, o maior arquivo digital de preservação de conteúdos do mundo, contando com um índice de mais de 19 mil milhões de keywords extraídas com recurso ao YAKE!.

De acordo com o que referem Alípio Jorge e Ricardo Campos, co-criadores deste projeto, na página BIP INESC TEC, “a adaptabilidade do YAKE! a diferentes cenários, a sua natureza plug-and-play, e a sua efetividade, quando comparado com diferentes soluções”, assim como “a sua rapidez de execução” são características que terão pesado na escolha desta tecnologia para a criação do General Index. “O facto de terem usado o YAKE! num processo destes é um exemplo claro da sua aplicabilidade em contextos de big data”, reforçam estes investigadores do INESC TEC. 

Com capacidade para se adaptar a diferentes domínios de atividade, idiomas e tamanhos de documento, sem necessidade de recorrer a fontes de dados externas, a um elevado volume de dados ou a processos de treino exigentes sob o ponto de vista computacional, o software é um sistema baseado num conjunto de medidas estatísticas, um conjunto de heurísticas, que resultam numa fórmula matemática capaz de determinar a relevância de uma palavra.

“O algoritmo e as razões que levam à determinação do que é ou não uma palavra relevante é facilmente operacionalizado no caso YAKE! por oposição a sistemas baseados em redes neuronais tipicamente mais pesados por necessitarem de uma grande quantidade de dados para treinar. Tal permite que o YAKE! seja diretamente aplicável a um grande conjunto de idiomas com pouco trabalho de engenharia de software. Por outro lado, o algoritmo é facilmente entendível o que potencia a explicabilidade dos resultados”, explicam Ricardo Campos e Alípio Jorge. Segundo os investigadores, esta tecnologia veio contribuir para a automatização do processo de extração de keywords, com especial relevância “numa altura em que o volume de dados cresce a uma velocidade vertiginosa.”

O YAKE! tem sido também utilizado por outras plataformas como o portfólio de soluções open-source da John Snow Labs, a biblioteca de processamento de linguagem natural e text mining atualmente mais usada na área de negócio, a Biblioteca Nacional da Finlândia, pelo Chartbeat Labs – textacy e no âmbito do projeto do INESC TEC Conta-me Histórias, incluído no Arquivo web português, arquivo.pt.

Além de uma demo online, a partir da qual os utilizadores podem extrair keywords através da introdução de um texto ou de um URL, está igualmente disponível um pacote de software open-source, que pode ser incorporado em projetos com necessidades distintas. “Esta é uma solução transversal a diferentes domínios de aplicação. Pode ser utilizado por exemplo por jornalistas, no processo de anotação de artigos noticiosos, ou integrado em pipelines diversas. São vários os exemplos de artigos científicos que referem e usam o YAKE! em diferentes casos de estudo, desde processos de sumarização a processos de text mining”, exemplificam os investigadores.

Para além de Ricardo Campos, que é também docente do Instituto Politécnico de Tomar, e de Alípio Jorge, do Departamento de Ciência de computadores da FCUP estão também envolvidos neste software, Arian Pasquali, investigador do INESC TEC, mestre em Ciência de Computadores pela FCUP,  Vítor Mangaravite (Universidade Federal de Minas Gerais), Célia Nunes (Universidade da Beira Interior) e Adam Jatowt (Universidade de Innsbruck).

yake






Divulgue os seus eventos e projetos | comunica@fc.up.pt 


Renata Silva. SICC. 02-02-2022
Recomendar Página Voltar ao Topo
Copyright 1996-2022 © Faculdade de Ciências da Universidade do Porto  I Termos e Condições  I Acessibilidade  I Índice A-Z  I Livro de Visitas
Última actualização: 2013-10-23 I  Página gerada em: 2022-06-30 às 11:55:29 | Política de Utilização Aceitável | Política de Proteção de Dados Pessoais | Denúncias