Resumo (PT):
O estudo apresentado realiza-se na interface entre a linguística e as ciências
da computação, tendo como objetivo fazer a análise computacional de artigos de opinião
na área da economia e finanças, seguindo o quadro teórico da análise de sentimento. Os
principais objetivos do trabalho são i) determinar a orientação do sentimento, positivo ou
negativo, e a intensidade dessa orientação através da anotação da polaridade do léxico, com
incidência nos nomes e adjetivos, nos segmentos em que ocorre a expressão da opinião, e
ii) verificar se um léxico específico para a área de economia e finanças tem vantagens na
atribuição automática de sentimento sobre um léxico geral. Para atingir esses objetivos, foi selecionado um corpus de 45 textos, analisado em duas fases por anotadores com formação
distinta. Primeiro, uma amostra de 10 textos foi obtida e anotada pelos investigadores da área
de linguística, coautores deste artigo, com o objetivo de desenvolver um modelo linguístico
para determinar a orientação e intensidade da polaridade de termos em artigos de opinião
e extrair termos de léxico relevantes para esta área de estudo. Em seguida, um conjunto de
35 textos foi anotado por estudantes universitários, seguindo o método utilizado na primeira
amostra. Com base na anotação linguística, a equipa das ciências da computação procurou
determinar até que ponto um léxico de sentimento geral para a língua portuguesa – SentiLex - é
suficiente para caracterizar o sentimento de uma frase de maneira satisfatória ou se o EconoLex,
um léxico específico de sentimento, seria mais eficaz. O léxico específico inclui termos e
expressões multipalavra relevantes para o domínio da economia e finanças e para a língua
portuguesa, e foi elaborado pelos autores deste estudo. Os dados foram analisados usando uma
metodologia mista, qualitativa e quantitativa. Os resultados obtidos permitem-nos considerar
os seguintes itens como contributos desta investigação: i) a elaboração do modelo de anotação
linguística adotado para a análise da orientação e da intensidade da polaridade do léxico, em
especial dos nomes e adjetivos; ii) o papel central, ainda que não exclusivo, dos adjetivos para
a determinação da polaridade do sentimento nos segmentos opinativos dos artigos do corpus;
iii) o desenvolvimento de um novo léxico de sentimento específico português para a área da
economia e finanças; iv) a melhoria do desempenho computacional do EconoLex⨁SentiLex
em relação ao SentiLex no que se refere ao desempenho na caracterização automática de
sentimento. Apesar destes resultados positivos, há algumas limitações que constituem os
elementos a desenvolver na continuidade deste trabalho interdisciplinar, nomeadamente a
análise linguística mais detalhada das classes gramaticais estudadas, a consideração de outros
elementos/estruturas linguísticas determinantes para a caracterização do sentimento em SN/
frase, o alargamento do corpus, o aumento do léxico específico do domínio e a afinação
dos métodos automáticos de identificação de termos de sentimento em textos de opinião e
determinação da sua intensidade.
Abstract (EN):
The present study, which is developed in the interface between linguistics and
computer science within the framework of sentiment analysis, aims at making a computational
analysis of opinion articles in the area of economics and finance. The main objectives of the
study are: i) to determine the semantic orientation of text segments that express opinion by
annotating the polarity (positive or negative) and the strength (scale from -3 to 3) of nouns
and adjectives, and ii) to verify if a specific lexicon for the area of economics and finance has
advantages in automatic annotation of sentiment over a general lexicon. To achieve these
objectives, a corpus of 45 texts was selected and analyzed in 2 phases, by annotators with
different training. First, a sample of 10 texts was annotated by linguists, co-authors of this
paper, with the objective of developing a linguistic annotation model to ascertain the polarity
and strength of words in opinion articles and extract the relevant words for this area of study.
Then, a set of 35 texts was annotated by university students, replicating the annotation model
developed during the first phase. Based on the linguistic annotation, the computer science team
tried to establish to what extent a general sentiment lexicon for Portuguese - SentiLex - was
sufficient to extract the sentiment of a sentence in a satisfactory manner or whether EconoLex,
a specific sentiment lexicon, would be more efficient. The specific lexicon includes terms and
multiword expressions that are relevant to the area of economics and finance and to Portuguese
language, and it was developed by the authors of this study. The data was analyzed according
to a blending methodology, qualitative and quantitative. The results of the analysis allow us
to consider the following items as contributes of this study: i) the development of a linguistic
annotation model for the analysis of the polarity and strength of the lexicon, especially of nouns
and adjectives; ii) the key role, though not exclusive, of the adjectives to determine the polarity
of opinion segments of the corpus articles; iii) the creation of a new specific sentiment lexicon
for Portuguese in the area of economics and finance; iv) the improvement of the computational
performance of EconoLex⨁SentiLex in relation to SentiLex regarding the performance in
automatic annotation of sentiment. In spite of these positive results, there are some limitations,
which we intend to overcome in the continuity of this interdisciplinary work, namely a more
detailed linguistic analysis of the word classes that we studied, the consideration of other
elements/ linguistic structures that are essential to ascertain the sentiment in NP/sentence, the
extension of the corpus, the expansion of the specific lexicon of the area of economics and
finance and the improvement of automatic methods for identifying evaluative words in texts of
opinion and for assigning them polarity and strength.
Idioma:
Português
Tipo (Avaliação Docente):
Científica
Notas:
Disponível em: https://ojs.letras.up.pt/index.php/EL/article/view/6131