Go to:
Logótipo
Comuta visibilidade da coluna esquerda
Você está em: Start > Publications > View > Social Media Text Processing and Semantic Analysis for Smart Cities
Publication

Social Media Text Processing and Semantic Analysis for Smart Cities

Title
Social Media Text Processing and Semantic Analysis for Smart Cities
Type
Thesis
Year
2017-07-14
Authors
João Filipe Figueiredo Pereira
(Author)
FEUP
View Personal Page You do not have permissions to view the institutional email. Search for Participant Publications Without AUTHENTICUS Without ORCID
Scientific classification
FOS: Engineering and technology > Electrical engineering, Electronic engineering, Information engineering
Other information
Resumo (PT): Devido à ascensão das Redes Sociais, as pessoas obtêm e partilham informação quase que instantaneamente 24/7. Muitas áreas de investigação tentaram extrair informações importantes destes grandes volumes de conteúdo, gerado por utilizadores, e livremente disponíveis. As áreas de invetigação de sistemas inteligentes de transportes e de cidades inteligentes (smart cities) não são excepção. Contudo, extrair conhecimento acionável e significativo de conteúdo gerado por utilizadores exige um esforço complexo. Primeiro, cada serviço de social media possui as suas próprias especificidades e restrições para o método de recolha dos dados; em segundo lugar, o vol- ume de mensagens produzidas pode ser esmagador para o processamento automático e prospeção; e por último, não menos importante, os textos das redes sociais são, geralmente, curtos, informais, com muitas abreviações, jargões, gírias e expressões idiomáticas. Nesta dissertação, tentamos abordar alguns dos desafios acima mencionados com o objectivo de extrair conhecimento de mensagens das redes sociais que possam ser úteis no contexto de sistemas inteligentes de transportes e cidades inteligentes (smart cities). Nós idealizamos e desenvolvemos uma framework para a recolha de dados, processamento e prospeção de Tweets geo-localizados. Mais especificamente, a framework fornece funcionalidades para a recolha paralela de tweets geo-localizados de bounding-boxes (cidades ou regiões), incluindo filtragem de tweets não preenchidos, pré-processamento de texto para a língua portuguesa e inglesa, modelagem de tópicos e classificadores de texto específicos para transportes, bem como, agregação e visualização de dados. Realizamos estudos empíricos e implementamos exemplos ilustrativos para 5 cidades: Rio de Janeiro, São Paulo, Nova York, Londres e Melbourne, perfazendo um total de mais de X milhões de tweets em um período de 3 meses. O modelo de tópicos e os classificadores de texto foram avaliados com dados manualmente anotados e criados especificamente para este trabalho. Tanto os dados quanto o software criados serão disponibilizados publicamente para promover novos desenvolvimentos da comunidade de investigação.
Abstract (EN): With the rise of Social Media, people obtain and share information almost instantly on a 24/7 basis. Many research areas have tried to extract valuable insights from these large volumes of freely available user generated content. The research areas of intelligent transportation systems and smart cities are no exception. However, extracting meaningful and actionable knowledge from user generated content is a complex endeavour. First, each social media service as its own data collection specificities and constraints, second the volume of messages/posts produced can be overwhelming for automatic processing and mining, and last but not the least, social media texts are usually short, informal, with a lot of abbreviations, jargon, slang and idioms. In this thesis, we try to tackle some of the aforementioned challenges with the goal of extracting knowledge from social media streams that might be useful in the context of intelligent transportation systems and smart cities. We designed and developed a framework for collection, processing and mining of geo-located Tweets. More specifically, it provides functionalities for parallel collection of geo-located tweets from multiple pre-defined bounding boxes (cities or regions), including filtering of non-complying tweets, text pre-processing for Portuguese and English language, topic modelling, and transportation-specific text classifiers, as well as, aggregation and data visualisation. We performed empirical studies and implemented illustrative examples for five cities: Rio de Janeiro, São Paulo, New York City, London and Melbourne, comprising a total of more than X millions of tweets in a period of 3 months. The topic modelling and text classifiers were evaluated with manually labelled data specifically created for this work. Both software and gold standard data will be made publicly available to foster further developments from the research community.
Language: English
No. of pages: 99
Documents
File name Description Size
Social Media Text Processing and Semantic Analysis for Smart Cities Social Media Text Processing and Semantic Analysis for Smart Cities 13643.08 KB
Recommend this page Top
Copyright 1996-2026 © Reitoria da Universidade do Porto  I Terms and Conditions  I Acessibility  I Index A-Z
Page created on: 2026-05-02 05:30:54 | Privacy Policy | Personal Data Protection Policy | Whistleblowing