UCT MzansiLM für 11 Sprachen

UCT macht 2026 ein kleines Sprachmodell für Südafrikas 11 Amtssprachen sichtbar

Die University of Cape Town berichtete am 4. Mai 2026 über MzansiText und MzansiLM. Das Forschungsprojekt führt einen kuratierten mehrsprachigen Korpus und ein von Grund auf trainiertes 125M-Parameter-Sprachmodell für alle 11 offiziellen schriftlichen Sprachen Südafrikas zusammen.

Warum Low-Resource-Sprachen andere Modelle brauchen

Die arXiv-Veröffentlichung erklärt, dass neun der 11 Sprachen als low-resource gelten. Große globale Modelle antworten in Sprachen wie isiNdebele oder Sepedi oft schwach, weil deutlich weniger Trainingsdaten verfügbar sind als für Englisch oder große europäische Sprachen.

Was MzansiLM technisch leistet

Hugging Face beschreibt MzansiLM als decoder-only LlamaForCausalLM mit 125.008.384 Parametern, 30 Schichten, 2.048 Kontextlänge und eigenem BPE-Tokenizer mit 65.536 Vokabeln. Das Paper nennt 20,65 BLEU für isiXhosa-Daten-zu-Text und 78,5 Prozent Macro-F1 bei isiXhosa-News-Klassifikation.

Was die Grenzen sind

Die Autoren sagen offen, dass Few-Shot-Reasoning bei dieser Modellgröße nahe am Zufall bleibt. MzansiLM ist also vor allem ein reproduzierbarer Forschungsbaseline, kein universeller ChatGPT-Ersatz für Südafrika.

Warum das wichtig ist

Das Thema ist wichtig, weil KI-Nutzen stark von Sprache abhängt. Wenn Werkzeuge nur in Englisch gut funktionieren, bleiben Bürger, Verwaltungen und Unternehmen in vielen Regionen ausgeschlossen. Kleine offene Modelle und Datensätze schaffen eine Grundlage für lokale Anwendungen, Auditierbarkeit und spätere Verbesserungen.

Praktisches Beispiel

Eine südafrikanische Bank könnte 2026 mit MzansiText Kundenservice-Texte in isiXhosa, Sesotho und Sepedi klassifizieren. Ein Pilot mit 50.000 anonymisierten Nachrichten würde zunächst messen, wo MzansiLM besser ist als ein generisches großes Modell und wo Menschen weiter prüfen müssen.

UCT veröffentlicht MzansiLM für 11 südafrikanische Sprachen

UCT macht 2026 ein kleines Sprachmodell für Südafrikas 11 Amtssprachen sichtbar

Warum Low-Resource-Sprachen andere Modelle brauchen

Was MzansiLM technisch leistet

Was die Grenzen sind

Warum das wichtig ist

Praktisches Beispiel

💡 Im Klartext

Wichtigste Erkenntnisse

Quellen & Kontext