Hvorfor dansk har brug for sine egne sprogmodeller¶

Dansk er et af verdens rigeste sprog — men i en tidsalder med store sprogmodeller risikerer det at blive et digitalt andenrangssprog. Vi har udgivet et positionspapir, der argumenterer for, hvorfor det er vigtigt, og hvad vi gør ved det.

Paperet kortlægger de centrale udfordringer for dansk AI-infrastruktur og sætter dem i et bredere europæisk perspektiv om digital suverænitet og sproglig mangfoldighed.

Argumentet¶

Sprogmodeller er ved at blive kritisk infrastruktur — men langt de fleste ressourcer bruges på engelsk. Selvom flersprogede modeller eksisterer, fanger de sjældent de sproglige og kulturelle nuancer i mindre sprog som dansk. Det er særligt tydeligt i praktiske anvendelser, hvor kulturel kontekst er vigtig — som sundhedsvæsen, offentlig forvaltning og uddannelse.

De fire søjler i DFM¶

Danish Foundation Models-projektet imødegår dette med fire primære mål:

Udvikling af state-of-the-art modeller — skabelse og vedligeholdelse af avancerede sprogmodeller til danske tekst- og taleapplikationer
Grundig validering — streng testning på tværs af et repræsentativt sæt af opgaver
Dokumentation af høj kvalitet — transparente model cards og datasheets for alle modeller
Open source-samarbejde — alle modeller og træningsprocesser er frit tilgængelige

Fremtidig retning¶

DFM-projektet planlægger at udvikle open source-sprogmodeller til NLP, NLU og ASR-systemer på dansk. Kommende benchmarks vil inkludere data fra diverse domæner som sundhed og jura, hvilket sikrer en bred evaluering af fremtidige modeller.

Læs paperet på arXiv

Tabel 1 fra paperet — Tabel 1 — Oversigt over danske sprogmodeller

Tabel 2 fra paperet — Tabel 2 — Evalueringsresultater