Gå til indholdet

Munin 1.0-udgivelsesnote

I dag udgiver Danish Foundation Models Munin 1.0-familien af sprogmodeller, som er post-trænet oven på nogle af de stærkeste åbne modeller i deres klasse. Modellerne er trænet på en kombination af eksisterende åbne og nyudviklede datasæt.

Modeller og resultater

Munin 1.0-familien er post-trænet på modeller med åbne vægte fra Swiss AI, Mistral og Qwen. Alle basismodellerne er oprindeligt udgivet under Apache 2.0-licensen, og vores modeller har samme licens.

Udvikler Basismodel Munin-model Land Åbenhed
Swiss AI swiss-ai/Apertus-8B-2509 munin-apertus-8b Europa/Schweiz Fuldt åben
Mistral mistralai/Ministral-3-8B-Base-2512 munin-ministral3-8B Europa/Frankrig Åbne vægte
Qwen 3.5 9B Qwen/Qwen3.5-9B-Base munin-qwen3.5-9B Kina Åbne vægte

Munin 1.0 er en tekstbaseret post-træningsudgivelse, så sammenligningerne nedenfor fokuserer på tekstbenchmarks. Nogle af de oprindelige instruktionsmodeller har billede-til-tekst eller andre multimodale evner, men de evner understøttes ikke af de modeller, der udgives her.

Vi evaluerer Munin-modellerne mod de instruktions-tunede modeller udgivet af de oprindelige modeludviklere. Da Munin er trænet fra de samme basismodeller, er det en direkte sammenligning af to uafhængige post-træningsindsatser: den oprindelige udviklers post-træning og vores danskfokuserede Munin-træning.

De aggregerede resultater nedenfor er uvægtede gennemsnit på tværs af evalueringer i hver opgavegruppe. Scores er procenter, og standardfejl er procentpoint. Blå markerer den bedste Original/Munin-score inden for hver modelfamilie, eller begge hvis de er lige gode inden for usikkerheden. Fed skrift markerer scores, der ikke er signifikant under den bedste score i rækken. Se de fulde benchmarkresultater for de enkelte evalueringer bag hvert aggregat.

Aggregerede opgavescores
Suite Opgave Metrik Apertus 8B Ministral 8B Qwen 9B
Original Munin Original Munin Original Munin
DanskCommon-sense ReasoningMCC33,1 ± 0,929,4 ± 1,352,4 ± 1,250,2 ± 1,364,6 ± 0,762,2 ± 0,9
DanskGrammatical Error Detectionmicro-F118,0 ± 1,317,4 ± 1,121,7 ± 2,017,7 ± 0,720,4 ± 1,220,7 ± 1,1
DanskInstruction-followingAccuracy69,0 ± 1,151,4 ± 1,466,7 ± 1,374,4 ± 0,981,6 ± 0,877,9 ± 0,9
DanskKnowledgeMCC58,9 ± 0,762,3 ± 0,773,6 ± 0,568,5 ± 0,676,0 ± 0,577,6 ± 0,5
DanskLinguistic AcceptabilityMCC33,0 ± 1,229,3 ± 2,443,4 ± 1,918,9 ± 3,149,2 ± 1,752,2 ± 1,3
DanskMultiple-choice Reading ComprehensionMCC67,1 ± 1,066,0 ± 2,085,9 ± 1,484,4 ± 1,187,2 ± 1,287,3 ± 1,3
DanskNamed Entity Recognitionmicro-F149,3 ± 1,447,6 ± 1,361,1 ± 1,051,4 ± 1,869,1 ± 1,269,6 ± 1,2
DanskNatural Language InferenceMCC48,8 ± 2,352,1 ± 2,625,8 ± 1,658,2 ± 2,253,8 ± 1,965,6 ± 2,0
DanskReading ComprehensionF170,8 ± 0,569,4 ± 0,669,7 ± 0,771,2 ± 0,870,8 ± 0,672,0 ± 0,7
DanskSentiment ClassificationMCC57,9 ± 1,054,3 ± 1,160,4 ± 1,059,6 ± 1,464,9 ± 0,964,7 ± 1,0
DanskSummarizationchrF++37,6 ± 0,236,9 ± 0,235,1 ± 0,337,0 ± 0,236,5 ± 0,336,7 ± 0,4
DanskWord-in-ContextMCC11,8 ± 2,28,7 ± 3,529,9 ± 1,723,3 ± 3,244,6 ± 2,140,1 ± 3,5
EngelskCommon-sense ReasoningAccuracy58,7 ± 0,523,2 ± 0,473,1 ± 0,459,6 ± 0,590,0 ± 0,385,7 ± 0,3
EngelskInstruction-followingAccuracy73,3 ± 1,954,7 ± 2,070,4 ± 1,869,8 ± 1,989,6 ± 1,578,6 ± 1,8
EngelskKnowledgeAccuracy50,3 ± 0,541,9 ± 0,581,7 ± 0,373,0 ± 0,379,2 ± 0,282,4 ± 0,2
EngelskLong-contextAccuracy34,6 ± 2,135,8 ± 2,151,4 ± 2,249,4 ± 2,267,2 ± 2,154,6 ± 2,2
EngelskMathAccuracy68,1 ± 1,356,7 ± 1,492,2 ± 0,782,3 ± 1,194,8 ± 0,692,2 ± 0,7
EngelskTruthfulnessAccuracy16,8 ± 1,315,7 ± 1,364,7 ± 1,763,3 ± 1,778,1 ± 1,474,2 ± 1,5
AgentiskCodepass@146,8 ± 2,539,2 ± 2,475,0 ± 2,149,2 ± 2,383,0 ± 1,877,2 ± 2,1
AgentiskTool CallingAccuracy52,4 ± 0,843,1 ± 0,875,0 ± 0,749,2 ± 0,879,4 ± 0,675,8 ± 0,7
Hvad indgår i hvert aggregat?

De danske opgavegrupper følger EuroEvals danske opgavetaksonomi. Links peger på artikler, hvor de findes, ellers på offentlige datasæt, upstream-repositorier eller de EuroEval-scripts, der bruges til at konstruere benchmarkdatasættet. For flere entries, der ender på -da, går linket til artiklen for det oprindelige benchmark, fordi den evaluerede ressource er en dansk oversat eller på anden måde lokaliseret variant. Nogle danske varianter, herunder ifeval-da, er tilpasninger snarere end simple direkte oversættelser.

Suite Aggregeret opgave Benchmarks
Dansk Common-sense Reasoning goldenswag-da, hellaswag-da, winogrande-da
Dansk Grammatical Error Detection gerlangmod-da
Dansk Instruction-following ifeval-da
Dansk Knowledge arc-da, dameta, danish-citizen-tests, danske-talemaader, mmlu-da
Dansk Linguistic Acceptability dala, scala-da
Dansk Multiple-choice Reading Comprehension belebele-da
Dansk Named Entity Recognition dane, dansk
Dansk Natural Language Inference danish-entailment, danish-lexical-inference
Dansk Reading Comprehension multi-wiki-qa-da, scandiqa-da
Dansk Sentiment Classification angry-tweets, danish-sentiment-in-context
Dansk Summarization nordjylland-news
Dansk Word-in-Context danwic
Engelsk Knowledge ARC-C, ARC-E, MMLU, MMLU-Pro
Engelsk Other task groups HellaSwag, IFEval, RULER 32k, GSM8K, TruthfulQA
Agentisk Code and Tool Calling HumanEval, MBPP p@1, BFCL

Hovedresultatet er, at Munin er stærkt konkurrencedygtig på de danske evalueringer, og at vores post-trænede modeller i flere opgavegrupper matcher eller forbedrer de oprindelige instruktionsmodeller. De stærkeste resultater er på dansk Knowledge, Reading Comprehension, Summarization og Natural Language Inference, hvor nogle Munin-modeller ligger foran selv med usikkerheden taget i betragtning. Dermed kan det ses at post-træningen flytter modellerne mod stærkere dansk performance, samtidig med at de bevarer en brugbar generel kapabilitetsprofil.

Resultaterne på engelsk og agentiske opgaver er mere blandede. De oprindelige instruktionsmodeller er generelt stærkere på kode, værktøjskald og flere engelske benchmarks, hvilket afspejler, at Munin 1.0 nu primært fokuserer på danske tekstkapabiliteter. De forskelle er vigtige, fordi de peger direkte på næste fase af arbejdet: at bevare de danske forbedringer, samtidig med at der investeres mere målrettet i reasoning, multilingvalitet og agentiske kapabiliteter.

Vi kørte også en fokuseret dansk turnering i kreativ skrivning på tværs af 360 bedømte kampe, vurderet af Qwen3.5-397B-A17B. Vi valgte denne dommer på grund af dens stærke dansksproglige evner.

Turneringen er ikke et bredt benchmark for modelkvalitet, men den er nyttig, fordi kreativ skrivning er en dansk opgave med højt signal: Den tester sproglig flydendehed, register, kohærens, og om modellen kan producere tekst, der føles naturlig frem for blot korrekt. Munin Qwen 9B skiller sig tydeligt ud fra resten af feltet med en 96-9 rekord, mens Munin Apertus 8B placerer sig som nummer to, og Munin Ministral 8B også slår sin oprindelige modpart.

Rangering i dansk kreativ skriveturnering; V-T er samlet vundet-tabt
Placering Model V-T
1 Munin Qwen 9B 96-9
2 Munin Apertus 8B 56-45
3 Original Qwen 9B 43-53
4 Munin Ministral 8B 43-54
5 Original Apertus 8B 30-65
6 Original Ministral 8B 26-68

Bidragydere

Rasmus Larsen ledte træningen, udførte eksperimenter, byggede syntetiske datasæt og benchmarks, og skrev udkastet til udgivelsesannonceringen.

Oliver Kinch byggede syntetiske datasæt og benchmarks.

Vladimir Salnikov og Jacob Nielsen bidrog til datasæt.

Dan Saattrup Smart udviklede benchmarks og ledte integrationen i EuroEval.

Torben Blach bidrog med projektledelse og koordinering.

Anerkendelser

Arbejdet blev støttet af Danish Foundation Models-projektet, finansieret af den danske regering. Arbejdet blev delvist støttet af DeiC National HPC (grant agreement DeiC-SDU-N5-2025162).