Augmented Translation

Données synthétiques et traduction automatique : rien de plus artificiel (infographie)

Oui, les données peuvent également être créées en laboratoire. En traduction automatique, et en particulier quand nous parlons des systèmes de traduction automatique statistique et neuronale, les données disponibles sont parfois insuffisantes pour entraîner le moteur qu’on veut créer. C'est là que les données synthétiques entrent en jeu.


Qu'entend-on par « données synthétiques » ?

Par « données synthétiques », on entend toutes les données qui ont été créées artificiellement, c'est-à-dire par un système informatique, pour compenser le manque de données réelles ou authentiques. Dans le contexte de la traduction automatique, l'utilisation de données synthétiques peut s’avérer utile lorsqu’on veut créer un moteur de TA capable de traiter une langue rare (imaginez un dialecte) ou de traduire dans un domaine très spécifique (imaginez la NASA qui veut créer un moteur de traduction automatique pour le secteur des voyages dans l’espace).


Comment cela fonctionne-t-il ?

Voici une infographie qui explique le processus de création et d’utilisation des données synthétiques au sein d’un moteur de TA (cliquez sur l'infographie pour l'agrandir).



L'entraînement avec des données synthétiques fonctionne-t-il vraiment ?

Pour l'apprentissage automatique (parce que c'est d'apprentissage automatique dont il est question ici), la devise « plus nous utilisons de données, mieux c'est » n'est pas toujours vraie. Ce qui compte, c'est la qualité de ces données. Concrètement, nous parlons de documents alignés phrase par phrase, que toute personne utilisant un outil de TAO connaît par le nom de segments. Si les données sont « sales », c'est-à-dire qu'elles contiennent des erreurs d'alignement ou simplement des erreurs grammaticales, un moteur qui est entraîné en utilisant ces données prend de mauvaises habitudes et répète toujours les mêmes erreurs.

Du côté des développeurs, le célèbre Iconic est arrivé à la conclusion qu'il valait mieux utiliser ⅔ de données synthétiques et ⅓ de données non synthétiques. Si vous utilisez de grandes quantités de données synthétiques, la qualité de la traduction automatique diminue. Mais il y a un gros MAIS : pour évaluer cette qualité, ils utilisent un système informatique ! La machine traduit et la machine évalue les traductions qu’elle a faites par elle-même... Ont-ils oublié que ces contenus doivent être lus par nous, les humains ?


Du côté du commun des mortels, arrêtons de tourner autour du pot : si les données utilisées pour entraîner le moteur de traduction automatique sont de qualité et ont été créées « biologiquement » par un humain (nous, les traducteurs·trices), il est évident que le moteur de traduction automatique s'enrichit de nouveaux mots qu'il pourra proposer au bon moment. Après tout, un moteur de traduction automatique n'a pas de cerveau et ne pourra jamais apprendre l'utilisation de mots non présents dans ces données synthétiques qu'il lit et relit en boucle comme une machine à laver.

Location

Lyon, France

Contact / Collab

Follow

  • LinkedIn
  • YouTube
  • Twitter
  • Strava

© 2020, Enrico Antonio Mion – Mentions Légales