Resumo (PT):
FR: La traduction automatique (TA) est un domaine en pleine effervescence
depuis l’invention de l’ordinateur. L’aventure a commencé par la traduction à base
de règles (TABR) dans les années 1940-1950. La traduction automatique statistique
(TAS) s’est imposée quelques décennies plus tard et la traduction automatique
neuronale (TAN) a vu le jour au XXIe siècle. Cette distinction n’est pas stricte
puisque la plupart des systèmes de TA sont aujourd’hui hybrides, mais l’ambiguïté
reste un piège bien connu, tant dans le cadre de la traduction humaine que de la
traduction automatique.
Le mot anglais courant issue soulève deux types d’ambiguïté : « ambiguïté
grammaticale » (nom ou verbe ?) et « ambiguïté homographique et polysémique »
lorsqu’un mot a plusieurs sens dans la langue source (Hutchins 2005 : 17). Cette
recherche se limite à trois sens du nom issue et à deux sens du verbe. Un échantillon
de phrases comportant au moins une occurrence du mot issue dans un de ces cinq
sens a été sélectionné dans le British National Corpus afin de comparer quatre
systèmes de traduction automatique anglais-français : SYSTRAN (TABR, accès
gratuit en ligne), Google Translate (TAS, accès gratuit en ligne), MT@EC (TAS,
accès limité) et le système de TAN de LISA (Université de Montréal). Les résultats
ont été comparés à un modèle de traduction humaine fondé sur des mémoires de
traduction afin d’évaluer les faiblesses et les atouts de chaque système de TA, de
comparer leurs performances et de proposer des possibilités d’amélioration grâce à
l’hybridation des systèmes.
Abstract (EN):
Machine Translation (MT) has been a lively field of research ever
since the invention of the computer. Rule-Based Machine Translation (RBMT) was
the first option back in the 1940s–1950s; Statistical Machine Translation (SMT)
appeared a few decades later and Neural Machine Translation (NMT) in the 21st
century. This distinction is not strict since most MT systems are now hybrid, but
natural language ambiguity is a well-known pitfall, be it in human or machine
translation.
Two types of ambiguity can arise when using the rather common English
word issue: “grammatical ambiguity” (noun or verb?), on the one hand, and
“homographic and polysemic ambiguity (one word form with different senses
in the source language)” (Hutchins 2005: 17), on the other hand. The scope of
this research is limited to three senses of the noun issue (1. An important topic or
problem for debate or discussion; 2. The action of supplying or distributing an item
for use, sale, or official; 3. (formal or law) Children of one’s own) and two senses
of the verb to issue (1. [WITH OBJECT] Supply or distribute (something) for use
or sale; 2. [NO OBJECT] (issue from) Come, go, or flow out from). A sample of
sentences containing at least one example of usage was selected from the British
National Corpus in order to test and compare four English-French MT systems:
SYSTRAN (free online RBMT), Google Translate (free online SMT), MT@EC
(restricted access SMT) and free online Neural Machine Translation by LISA
(University of Montreal). The outputs were compared to a human translation model
based on translation memories (parallel corpora) in order to evaluate weaknesses
and strengths of each system, compare the results and find out possible ways of
improving MT output through hybridisation.
Research results in cases like these are not just useful for theoretical
linguistics but can also be used to heighten awareness in human translators and
demonstrate that translators who are trained in computational linguistics can also
work together with experts in artificial intelligence and machine translation.
Idioma:
Francês
Tipo (Avaliação Docente):
Científica