UCT veröffentlicht MzansiLM für 11 südafrikanische Sprachen
4. Mai 2026
Die University of Cape Town berichtete am 4. Mai 2026 über MzansiText und MzansiLM. Das 125M-Parameter-Modell deckt alle 11 offiziellen schriftlichen Sprachen Südafrikas ab.
UCT macht 2026 ein kleines Sprachmodell für Südafrikas 11 Amtssprachen sichtbar
Die University of Cape Town berichtete am 4. Mai 2026 über MzansiText und MzansiLM. Das Forschungsprojekt führt einen kuratierten mehrsprachigen Korpus und ein von Grund auf trainiertes 125M-Parameter-Sprachmodell für alle 11 offiziellen schriftlichen Sprachen Südafrikas zusammen.
Warum Low-Resource-Sprachen andere Modelle brauchen
Die arXiv-Veröffentlichung erklärt, dass neun der 11 Sprachen als low-resource gelten. Große globale Modelle antworten in Sprachen wie isiNdebele oder Sepedi oft schwach, weil deutlich weniger Trainingsdaten verfügbar sind als für Englisch oder große europäische Sprachen.
Was MzansiLM technisch leistet
Hugging Face beschreibt MzansiLM als decoder-only LlamaForCausalLM mit 125.008.384 Parametern, 30 Schichten, 2.048 Kontextlänge und eigenem BPE-Tokenizer mit 65.536 Vokabeln. Das Paper nennt 20,65 BLEU für isiXhosa-Daten-zu-Text und 78,5 Prozent Macro-F1 bei isiXhosa-News-Klassifikation.
Was die Grenzen sind
Die Autoren sagen offen, dass Few-Shot-Reasoning bei dieser Modellgröße nahe am Zufall bleibt. MzansiLM ist also vor allem ein reproduzierbarer Forschungsbaseline, kein universeller ChatGPT-Ersatz für Südafrika.
Warum das wichtig ist
Das Thema ist wichtig, weil KI-Nutzen stark von Sprache abhängt. Wenn Werkzeuge nur in Englisch gut funktionieren, bleiben Bürger, Verwaltungen und Unternehmen in vielen Regionen ausgeschlossen. Kleine offene Modelle und Datensätze schaffen eine Grundlage für lokale Anwendungen, Auditierbarkeit und spätere Verbesserungen.
Praktisches Beispiel
Eine südafrikanische Bank könnte 2026 mit MzansiText Kundenservice-Texte in isiXhosa, Sesotho und Sepedi klassifizieren. Ein Pilot mit 50.000 anonymisierten Nachrichten würde zunächst messen, wo MzansiLM besser ist als ein generisches großes Modell und wo Menschen weiter prüfen müssen.
💡 Im Klartext
Viele KI-Programme können Englisch viel besser als kleinere Sprachen. MzansiLM ist ein kleines Modell, das extra für südafrikanische Sprachen gebaut wurde. Es ist wie ein Übungsbuch, mit dem Forschende bessere lokale KI bauen können.
Wichtigste Erkenntnisse
- →UCT berichtete am 4. Mai 2026 über MzansiLM und MzansiText.
- →MzansiLM hat 125.008.384 Parameter.
- →Das Modell deckt alle 11 offiziellen schriftlichen Sprachen Südafrikas ab.
- →Das Paper nennt 20,65 BLEU für isiXhosa-Daten-zu-Text.
- →Few-Shot-Reasoning bleibt laut Autoren bei dieser Modellgröße schwach.