Présentation

Le Corpus Bambara de Référence est un corpus massif de textes annotés en langue bambara. Cette langue du groupe mandingue, famille linguistique Mandé, macro-famille Niger-Congo est parlée par 12 à 14 millions de locuteurs en République du Mali.

Lors de l’ouverture au public en avril 2012, le corpus comportait des textes dont le volume avoisinait 1.100.000 mots, dont environ 100.000 dans le sous-corpus désambiguïsé.
Ce chiffre progresse constamment et la qualité de l’étiquetage s’améliore au fur et à mesure.
Notre objectif est d’atteindre 7 à 10 millions de mots, dont environ 1 million dans le sous-corpus désambiguisé.

Composition du corpus

Le Corpus est composé de textes de genres différents, publiés (périodiques, belles-lettres, littérature orale, manuels, guides pratiques, littérature de l’alphabétisation fonctionnelle, publications religieuses etc.) et non-publiés (lettres des lecteurs des journaux; textes enregistrés et transcrits par les chercheurs etc.) dont les auteurs proviennent de zones dialectales différentes.

Cette diversité permet de penser que le Corpus, en se développant, représentera plus fidèlement le bambara standard dans sa diversité.

Mise à jour du 12/04/2013

Contenu du corpus

Le sous-corpus désambiguïsé a été complété par 4 textes (entretiens sur le SIDA), son volume a atteint 151 149 mots. Certaines erreurs de désambiguïsation ont été corrigées.

Le volume du sous-corpus non désambiguïsé a atteint 1347094 mots. Il a été complété par les textes suivants :

  • Dukure, Mamadu. Fatòya ni jigiya. Dakar, 1988
  • Sous l’orage. Adapté du livre de Seydou Badian Kouyaté. Pièce de théâtre jouée en bambara par des élèves du Lycée Askia Mohamed.
  • Kibaru No. 439, 461, 462, 464, 466, 467.

Le volume total du Corpus a atteint 1 498 243 mots.

Page d’accueil

L’interface de la page d’accueil a été rénovée.

Anciennes mises à jour

Veuillez cliquer ici pour accéder à l’historique des mises à jour.