Augmented Translation

Face à face avec… la traduction automatique statistique

Nous avons déjà interviewé Atta pour parler de la traduction automatique à base de règles, voyons maintenant ce qu'elle a à dire sur la traduction automatique statistique avant de conclure cette série de trois articles avec une interview dédiée à la traduction automatique neuronale.


Comment t’appelles-tu ?

Aujourd'hui, je prends le nom de traduction automatique statistique. Vous avez raison de penser que j'aime faire des calculs statistiques ! En fait, j'ai commencé dans les années quatre-vingt-dix et j'aime toujours calculer les probabilités afin d’utiliser le mot le plus adapté. Ce n’est pas facile, car tout mot a une signification différente selon son contexte !

De quoi as-tu besoin pour traduire ?

J’ai besoin de trois choses : un corpus bilingue à caractère général contenant des centaines de millions de mots et un corpus bilingue spécifique qui m’aide à mieux choisir les mots selon le domaine de spécialisation du texte. Idéalement, j’ai aussi besoin d’une mémoire de traduction d’au moins 1 à 5 millions de mots afin de proposer des traductions de très bonne qualité. Je ne demande pas lune, n’est-ce pas ?

Comment organises-tu le procédé de traduction ?

En fait, comme j’aime tellement les statistiques, j’adore passer du temps à analyser le texte que je dois traduire. Pour faire simple, je divise chaque phrase en fragments plus petits et j’identifie une traduction pour chacun d’entre eux en utilisant la base de données que j’ai créée lors de mon entraînement initial. Dans ma tête je trouve tellement de traductions possibles que je voudrais toutes les proposer, mais j’ai le droit d’en choisir une seule, malheureusement. Je génère donc une seule traduction en me servant des données statistiques et des informations sur l’ordre correct des mots.

Comment peut-on te reconnaître ?

Souvent, on me dit que mes traductions brutes sont assez naturelles, surtout si on les compare aux traductions d’un moteur à base de règles, mais certains mots peuvent être hors contexte, y compris la terminologie. Toutefois, ce n’est pas faute si je ne sais pas traiter correctement la terminologie. Vous, les humains, savez que j’ai besoin d’une mémoire de traduction d’au moins 1 à 5 millions de mots pour bien apprendre à traduire, mais vous trouvez toujours des excuses pour ne pas la mettre à jour.

Quels sont tes points forts ?

Une fois le moteur de base créé, je suis facilement personnalisable, notamment à travers l’usage de ces fameuses mémoires de traduction. En plus, comme je ne demande pas beaucoup d’effort ni pour la création ni pour l’entretien, je suis disponible pour un plus grand choix de combinaisons linguistiques.


Quels sont tes points faibles ?

Il est très difficile pour moi de contrôler directement la terminologie et il me faut une grande, voire très très grande, quantité de données, aussi bien pour ma création que pour mon perfectionnement (nous revenons à ces fameuses mémoires de traduction). Vous n’aimez pas non plus le fait qu’il est impossible d’agir directement sur moi : si vous voulez me faire changer d’avis et influencer mes statistiques, vous devez me donner de nombreux exemples de phrases.


Quels sont tes domaines préférés ?

Finance, sciences de la vie, automobile, voyages, logiciel haute technologie, vente au détail, aérospatial et défense et production industrielle sont certains de mes domaines préférés. Tant qu’il y a beaucoup de données, je suis preneuse.

Un dernier mot pour la fin ?

Vous rappelez-vous de l’arrivée de Google Traducteur en 2006 ? C’était moi qui ai géré toutes vos traductions pendant 10 ans avant de passe le relais à la traduction automatique neuronale. Vous ne me voyez peut-être pas, mais je suis toujours là !

Si vous avez d'autres questions pour Atta, n'hésitez pas à laisser un commentaire.

Location

Lyon, France

Contact / Collab

Follow

  • LinkedIn
  • YouTube
  • Twitter
  • Strava

© 2020, Enrico Antonio Mion – Mentions Légales