Kären Fort : « Imaginons des systèmes plus petits et plus ciblés »

Spécialiste du traitement automatique du langage, Kären Fort est professeure en informatique à l’Université de Lorraine au Loria (Laboratoire lorrain de recherche en informatique et ses applications). Depuis ses recherches sur le « travail du clic », elle alerte sur les enjeux éthiques liés à ces objets numériques. Des enjeux encore très insuffisamment pris en compte.
Pourquoi affirmer que la tendance à la caricature est inhérente au machine learning ? Comment cela se traduit-il?
Quand on parle de « machine learning », on évoque tout autant l’apprentissage neuronal que l’apprentissage classique par les statistiques. Dans les deux cas, ces modèles reposent sur la représentation la moins approximative possible du monde. Mais il faut faire des choix pour édifier ces modèles et ces choix, inhérents au machine learning, qui caricaturent les données, en les simplifiant par exemple. De nombreuses expériences l’ont démontré : s’il existe un déséquilibre dans les données sur lesquelles on fait travailler la machine, elle reproduira ce déséquilibre de façon encore amplifiée. Elle ne fait pas que reproduire, elle amplifie. Ce phénomène renforce cette tendance à la caricature.
L’une des questions posées par l’utilisation de ces modèles de langage, c’est la présence des langues parlées par un nombre restreint de locuteurs. Quel est alors l’enjeu éthique ?
Ces modèles de langage ont besoin d’énormément de données pour s’entraîner. Un corpus de 10 000 milliards de mots sont nécessaires pour les faire fonctionner. Une telle quantité n’est pas appréhendable par nos cerveaux humains. Il faut la convertir. 10 000 milliards de mots, cela représente 100 millions de fois le nombre de mots contenus dans Le Tour du monde en 80 jours, de Jules Verne. Pour le breton, par exemple, il n’existe pas suffisamment de données pour nourrir ces IA. Ces dernières vont donc présenter des résultats de requête inférieurs à ceux de langues plus pratiquées.
En soi, cela n’est pas vraiment un problème. Ce qui constitue un problème, en revanche, c’est le fait que ce ne soit pas dit, ni évalué. Le modèle de traduction automatique développé par Meta, par exemple, assure qu’il fonctionne sur cent langues, dont le breton. Mes collègues bretonnants l’ont testé et les résultats sont très faibles. Le problème, c’est donc la promesse qui n’est pas tenue. L’impossibilité d’évaluer ce qui se présente comme un tout ne permet pas de répondre aux enjeux éthiques. C’est sans doute le problème le plus grave, avec les impacts écologiques majeurs des modèles, la consommation d’énergie et d’eau pour les entraîner.
Comment expliquer que ces urgences ne soient pas prises en compte dans la sphère politique ?
Comme toute la crise écologique que nous connaissons. Chez nos gouvernants, on constate un problème de respect de la prise en compte de la parole scientifique. Nos collègues du Giec en savent quelque chose.
L’explication est que cette prise de conscience exige la remise en cause de notre modèle. Et nous manquons d’imagination… Il y a un certain nombre de raisons qui indiquent que la mode des LLM (large language models) passera, notamment parce que leur développement n’est pas tenable. Beaucoup d’entreprises n’ont pas les ressources nécessaires pour les faire fonctionner. Par ailleurs, il arrive que des montagnes accouchent de souris. ChatGPT a été développé comme agent conversationnel. Son but est donc de générer des réponses cohérentes en texte. Mais à sa mise sur le marché, les utilisateurs s’en sont servis comme d’un moteur de recherche. Le détournement de l’usage des technologies est un phénomène très connu en sociologie de l’innovation. Les modèles de langage sont déviés, comme d’autres outils technologiques. Ils sont donc très difficiles à évaluer !
Comment imaginer des intelligences artificielles plus éthiques ?
On pourrait réaliser des systèmes plus petits et ciblés. Bien sûr, les résultats ne sont pas comparables. Mais ces systèmes ne présentent pas non plus la même consommation d’énergie et d’eau pour les entraîner et les faire fonctionner… Ils peuvent donc être intéressants. Par exemple, un système qui reconnaît le nom de médicaments peut se montrer très utile. Et ces systèmes peuvent être excellents sans mobiliser des réseaux neuronaux. Cerise sur le gâteau, ils peuvent, eux, être évalués.
Les systèmes doivent être développés en fonction d’un besoin, à l’inverse des modèles de langage généralistes.
Quelles que soient les formes que prendront les IA dans notre futur, la présence de l’humain est un impératif. Au Japon, qui n’est pas un pays d’arriérés technologiques, des humains se tiennent aux côtés de toutes les machines. Au cas où la machine ne marcherait pas…
La ligne rouge éthique qu’il aurait fallu ne jamais franchir, c’est le développement des applications prédictives. Elle est malheureusement déjà franchie. La volonté de prévoir un futur est extrêmement dangereuse parce que les données sur lesquelles se fondent ces applications représentent le passé. Avec les applications prédictives, on vous assimile à une catégorie de données qui ne sont pas les vôtres. Pour ma part, je ne serai jamais à la place de chercheuse que j’occupe aujourd’hui si un logiciel d’orientation prédictif avait dû tracer mon avenir. Parce que mon parcours ne colle pas aux statistiques. L’orgueil de prétendre prédire le futur nous prive de notre libre arbitre.
Ça vous plaira aussi
- Tribune du club
Les IA génératives, ce nouveau monde à conquérir
- Interview partenaire
Patrick Loiseau : « Construire des algorithmes non discriminatoires »
- Interview partenaire
SQOOL TV, la chaîne qui décortique l’essor de l’IA dans l’éducation
- Portfolio
Qui a hacké Garoutzia ?
- Fiction
Opération Pilate