TechCocoon Logo

Explainer

La course pour construire une IA qui parle vraiment les langues de l’Afrique

La plupart des IA comprennent à peine les langues africaines. Un regard sur les laboratoires qui construisent des modèles en langues locales, sur les raisons pour lesquelles c’est si difficile et sur ce qui est en jeu pour le continent.

Un graphique en forme de bulle de dialogue contenant des mots dans plusieurs langues africaines
Des chercheurs africains construisent des modèles linguistiques pour des langues que l’IA grand public ignore en grande partie.Credit: Simon MAINA
ParFemi Olatunji
Publie20 juin 20264min de lecture

Posez une question en isiXhosa, en haoussa ou en luganda à un chatbot d’IA de premier plan, et les résultats s’effondrent très vite. Les systèmes qui semblent presque magiques en anglais sont, pour la plupart des langues de l’Afrique, quelque part entre maladroits et inutiles. Une communauté grandissante de chercheurs et de startups africains tente de changer cela, et cet effort compte parmi les projets techniques les plus importants du continent. Cette explication présente qui construit ces outils, pourquoi c’est difficile et ce qui est en jeu.

L’ampleur du fossé

L’Afrique compte plus de 2 000 langues vivantes. Les grands modèles de langage grand public n’en maîtrisent correctement qu’une infime fraction. Une enquête menée en 2025 sur le domaine a montré que seules quelques langues africaines, parmi lesquelles l’amharique, le swahili et l’afrikaans, sont prises en charge de manière fiable, tandis que l’immense majorité des langues africaines reste effectivement non prise en charge. Si ces systèmes fonctionnent si bien en anglais et si mal ailleurs, la raison est simple : ils apprennent à partir de données, et l’internet est massivement anglophone.

Qui construit

La réponse a pris la forme d’un écosystème né sur le continent plutôt que d’un seul projet vedette. L’initiative Masakhane, un collectif de recherche panafricain, a passé des années à élaborer des jeux de données open source, des bancs d’essai et des outils de traduction pour des dizaines de langues. Le laboratoire sud-africain Lelapa AI a publié InkubaLM, un modèle multilingue compact couvrant le swahili, le yoruba, l’isiXhosa, le haoussa et l’isiZulu, parlés par des centaines de millions de personnes, ainsi qu’un outil linguistique commercial, VulaVula. Jacaranda Health, à Nairobi, a développé UlizaLlama pour soutenir des conseils en santé maternelle dans plusieurs langues africaines. Et des chercheurs de Sunbird AI, en Ouganda, ont plaidé pour une approche centrée sur les régions, en construisant une couverture approfondie pays par pays plutôt qu’en cherchant une portée mondiale.

La stratégie que partagent ces groupes est révélatrice. Plutôt que de tenter de rivaliser avec les géants mondiaux, ils privilégient des modèles plus petits, efficaces et ouverts, adaptés à des langues et à des tâches spécifiques, et mutualisent les données et les bancs d’essai afin que chaque projet renforce les autres.

Pourquoi c’est si difficile

L’obstacle principal, ce sont les données. La plupart des langues africaines sont ce que les chercheurs appellent des langues à faibles ressources : il n’existe tout simplement pas assez de texte écrit pour entraîner un modèle comme les modèles en anglais sont entraînés sur une grande partie de l’internet. Beaucoup de langues sont principalement parlées, leur empreinte numérique est mince, et leur orthographe n’est pas toujours normalisée.

Cette rareté impose un travail difficile et minutieux : collecter et nettoyer des jeux de données, parfois enregistrer la parole à partir de zéro, ce qui prend du temps et coûte cher. Elle soulève aussi des questions éthiques que le domaine prend très au sérieux : à qui appartiennent les données linguistiques, si les communautés qui les fournissent consentent et sont rémunérées, et comment éviter une nouvelle forme d’extraction dans laquelle les langues africaines sont exploitées pour entraîner des modèles dont ces communautés ne tirent jamais profit.

Ce qui est en jeu

Les bénéfices ne sont pas abstraits. La langue est l’interface de presque tout le numérique, et une IA qui comprend les langues locales peut élargir l’accès de manière spectaculaire. Un agriculteur recevant des conseils agricoles par voix dans sa propre langue, une mère obtenant des informations de santé qu’elle peut réellement lire, un citoyen accédant aux services publics sans devoir d’abord maîtriser l’anglais ou le français, des outils pour les centres d’appel et l’éducation qui rencontrent les gens là où ils sont : ce sont là des applications concrètes qui motivent ce travail.

Il y a aussi une dimension de souveraineté. Si les systèmes d’IA qui servent de plus en plus d’intermédiaires pour l’information, le commerce et les services ne comprennent que quelques langues mondiales, des populations entières sont poussées à s’assimiler à une langue étrangère simplement pour participer, comme l’ont clairement soutenu les fondateurs de Lelapa. Construire une IA en langues locales consiste aussi, en partie, à veiller à ce que les voix africaines soient représentées dans la technologie, et pas seulement servies par elle.

Pourquoi cela compte

C’est le genre de travail qui apparaît rarement dans les grandes levées de fonds qui font les gros titres, mais qui détermine discrètement si l’ère de l’IA inclura la majorité des Africains ou les mettra de côté. C’est peu glamour, lourd en données et lent, et cela dépend davantage de la collaboration que d’une percée unique. Mais si les langues du continent doivent vivre pleinement dans le monde numérique plutôt que d’en disparaître, les laboratoires qui accomplissent ce travail patient et fondamental sont ceux qui posent les bases.

PartagerXLinkedIn
TechCocoon

African tech,
without the noise.

A sharp weekly briefing on the companies, capital, and policy shaping African technology — straight to your inbox.

  • Every Friday — the week's essential stories
  • Funding moves, deals & policy that matter
  • No noise, no spam — unsubscribe anytime