Dans certains domaines de recherche, de grandes quantités d’enregistrements audio doivent être régulièrement transcrites. Par exemple en sociologie, lorsque les chercheurs mènent des entretiens ou en linguistique, lorsque les chercheurs veulent étudier l’utilisation de la langue.

Pour de nombreux scientifiques, il s’agit d’un travail préparatoire fastidieux avant de pouvoir commencer l’analyse proprement dite. Il n’est donc pas étonnant que de nombreux chercheurs confient cette tâche à un ordinateur. Un programme écoute l’enregistrement et reproduit ensuite un texte écrit. Les utilisateurs n’ont alors plus qu’à relire et à retravailler ce texte avant de pouvoir se lancer dans leur travail de recherche proprement dit.

De tels programmes existent déjà depuis un certain temps pour les langues les plus usitées (comme l’anglais, l’espagnol, le français ou l’allemand) mais rien n’existait jusqu’alors pour le luxembourgeois. « Cela ne vaut pas la peine d’investir pour les grandes entreprises comme Google », explique le professeur de linguistique Peter Gilles qui, avec deux doctorants en informatique, a créé son propre programme.

Celui-ci est doté de deux fonctionnalités importantes : il peut distinguer les différents locuteurs et les signaler dans la transcription. Il peut aussi ajouter des horodatages dans le texte afin que les chercheurs puissent retrouver plus rapidement les passages dans la vidéo.

« Un des étudiants a étudié le langage du monde du football luxembourgeois », explique aussi Peter Gilles. Au lieu de s’asseoir devant la télévision et de tout taper, il a juste demandé à la machine de transformer les vidéos en texte. Ensuite, il a suffit de tout relire. Et ça marche !

Pas encore parfait

Selon Peter Gilles, le programme fait encore quelques erreurs (10 sur 100 mots, ponctuation comprise). Une autre “faiblesse” du programme est qu’il transcrit les nombreuses variantes de la langue luxembourgeoise parlée toutes de la même manière. (Le programme transcrit “gemaach” et “gemeet” de la même manière). Si une personne utilise une variante moins courante d’un mot, l’IA transcrit soit une variante plus courante « soit il en résulte des bêtises », explique le professeur.

Un autre défi en luxembourgeois est l’utilisation de nombreux mots étrangers dans différents contextes. Au Parlement, par exemple, les députés utilisent souvent des mots français (parce que les textes de loi sont écrits en français).

Selon Peter Gilles, le programme peut très bien identifier les mots étrangers français ou anglais et les traduire correctement (l’IA connaît déjà ces langues). Le vocabulaire allemand occasionnel pose davantage de problèmes, en raison de la proche parenté entre l’allemand et le luxembourgeois.

Même si les chercheurs ont surtout pensé à eux-mêmes lorsqu’ils ont entraîné l’IA, le programme a également des applications en dehors de l’Université. Comme le raconte le professeur, il est actuellement testé par la Chambre des députés et RTL pour créer des sous-titres pour des vidéos. Le programme peut être testé sur Internet.

Le système doit maintenant être développé en continu et de nouvelles versions seront créées. Actuellement, on travaille à l’intégration d’un programme d’amélioration qui permet d’identifier les passages étranges dans le texte transcrit.

Un autre projet de l’Université s’intéresse également à la technologie inverse, rapporte le professeur Peter Gilles. Les chercheurs veulent créer une IA capable de lire couramment un texte en luxembourgeois.

 

Suivez aussi nos actualités sur Instagram