Munin 1.0-udgivelsesnote¶

Forfattere: Rasmus Larsen, Torben Blach – Alexandra Instituttet A/S

I dag udgiver Danish Foundation Models Munin 1.0-familien af sprogmodeller, som er post-trænet oven på nogle af de stærkeste åbne modeller i deres klasse. Modellerne er trænet på en kombination af eksisterende åbne og nyudviklede datasæt.

Modeller og resultater¶

Munin 1.0-familien er post-trænet på modeller med åbne vægte fra Swiss AI, Mistral og Qwen. Alle basismodellerne er oprindeligt udgivet under Apache 2.0-licensen, og vores modeller har samme licens.

Udvikler	Basismodel	Munin-model	Land	Åbenhed
Swiss AI	`swiss-ai/Apertus-8B-2509`	`munin-apertus-8b`	Europa/Schweiz	Fuldt åben
Mistral	`mistralai/Ministral-3-8B-Base-2512`	`munin-ministral3-8B`	Europa/Frankrig	Åbne vægte
Qwen 3.5 9B	`Qwen/Qwen3.5-9B-Base`	`munin-qwen3.5-9B`	Kina	Åbne vægte

Munin 1.0 er en tekstbaseret post-træningsudgivelse, så sammenligningerne nedenfor fokuserer på tekstbenchmarks. Nogle af de oprindelige instruktionsmodeller har billede-til-tekst eller andre multimodale evner, men de evner understøttes ikke af de modeller, der udgives her.

Vi evaluerer Munin-modellerne mod de instruktions-tunede modeller udgivet af de oprindelige modeludviklere. Da Munin er trænet fra de samme basismodeller, er det en direkte sammenligning af to uafhængige post-træningsindsatser: den oprindelige udviklers post-træning og vores danskfokuserede Munin-træning.

De aggregerede resultater nedenfor er uvægtede gennemsnit på tværs af evalueringer i hver opgavegruppe. Scores er procenter, og standardfejl er procentpoint. Blå markerer den bedste Original/Munin-score inden for hver modelfamilie, eller begge hvis de er lige gode inden for usikkerheden. Fed skrift markerer scores, der ikke er signifikant under den bedste score i rækken. Se de fulde benchmarkresultater for de enkelte evalueringer bag hvert aggregat.

Aggregerede opgavescores
Suite	Opgave	Metrik	Apertus 8B		Ministral 8B		Qwen 9B
Suite	Opgave	Metrik	Original	Munin	Original	Munin	Original	Munin
Dansk	Common-sense Reasoning	MCC	33,1 ± 0,9	29,4 ± 1,3	52,4 ± 1,2	50,2 ± 1,3	64,6 ± 0,7	62,2 ± 0,9
Dansk	Grammatical Error Detection	micro-F1	18,0 ± 1,3	17,4 ± 1,1	21,7 ± 2,0	17,7 ± 0,7	20,4 ± 1,2	20,7 ± 1,1
Dansk	Instruction-following	Accuracy	69,0 ± 1,1	51,4 ± 1,4	66,7 ± 1,3	74,4 ± 0,9	81,6 ± 0,8	77,9 ± 0,9
Dansk	Knowledge	MCC	58,9 ± 0,7	62,3 ± 0,7	73,6 ± 0,5	68,5 ± 0,6	76,0 ± 0,5	77,6 ± 0,5
Dansk	Linguistic Acceptability	MCC	33,0 ± 1,2	29,3 ± 2,4	43,4 ± 1,9	18,9 ± 3,1	49,2 ± 1,7	52,2 ± 1,3
Dansk	Multiple-choice Reading Comprehension	MCC	67,1 ± 1,0	66,0 ± 2,0	85,9 ± 1,4	84,4 ± 1,1	87,2 ± 1,2	87,3 ± 1,3
Dansk	Named Entity Recognition	micro-F1	49,3 ± 1,4	47,6 ± 1,3	61,1 ± 1,0	51,4 ± 1,8	69,1 ± 1,2	69,6 ± 1,2
Dansk	Natural Language Inference	MCC	48,8 ± 2,3	52,1 ± 2,6	25,8 ± 1,6	58,2 ± 2,2	53,8 ± 1,9	65,6 ± 2,0
Dansk	Reading Comprehension	F1	70,8 ± 0,5	69,4 ± 0,6	69,7 ± 0,7	71,2 ± 0,8	70,8 ± 0,6	72,0 ± 0,7
Dansk	Sentiment Classification	MCC	57,9 ± 1,0	54,3 ± 1,1	60,4 ± 1,0	59,6 ± 1,4	64,9 ± 0,9	64,7 ± 1,0
Dansk	Summarization	chrF++	37,6 ± 0,2	36,9 ± 0,2	35,1 ± 0,3	37,0 ± 0,2	36,5 ± 0,3	36,7 ± 0,4
Dansk	Word-in-Context	MCC	11,8 ± 2,2	8,7 ± 3,5	29,9 ± 1,7	23,3 ± 3,2	44,6 ± 2,1	40,1 ± 3,5
Engelsk	Common-sense Reasoning	Accuracy	58,7 ± 0,5	23,2 ± 0,4	73,1 ± 0,4	59,6 ± 0,5	90,0 ± 0,3	85,7 ± 0,3
Engelsk	Instruction-following	Accuracy	73,3 ± 1,9	54,7 ± 2,0	70,4 ± 1,8	69,8 ± 1,9	89,6 ± 1,5	78,6 ± 1,8
Engelsk	Knowledge	Accuracy	50,3 ± 0,5	41,9 ± 0,5	81,7 ± 0,3	73,0 ± 0,3	79,2 ± 0,2	82,4 ± 0,2
Engelsk	Long-context	Accuracy	34,6 ± 2,1	35,8 ± 2,1	51,4 ± 2,2	49,4 ± 2,2	67,2 ± 2,1	54,6 ± 2,2
Engelsk	Math	Accuracy	68,1 ± 1,3	56,7 ± 1,4	92,2 ± 0,7	82,3 ± 1,1	94,8 ± 0,6	92,2 ± 0,7
Engelsk	Truthfulness	Accuracy	16,8 ± 1,3	15,7 ± 1,3	64,7 ± 1,7	63,3 ± 1,7	78,1 ± 1,4	74,2 ± 1,5
Agentisk	Code	pass@1	46,8 ± 2,5	39,2 ± 2,4	75,0 ± 2,1	49,2 ± 2,3	83,0 ± 1,8	77,2 ± 2,1
Agentisk	Tool Calling	Accuracy	52,4 ± 0,8	43,1 ± 0,8	75,0 ± 0,7	49,2 ± 0,8	79,4 ± 0,6	75,8 ± 0,7

Hvad indgår i hvert aggregat?

De danske opgavegrupper følger EuroEvals danske opgavetaksonomi. Links peger på artikler, hvor de findes, ellers på offentlige datasæt, upstream-repositorier eller de EuroEval-scripts, der bruges til at konstruere benchmarkdatasættet. For flere entries, der ender på -da, går linket til artiklen for det oprindelige benchmark, fordi den evaluerede ressource er en dansk oversat eller på anden måde lokaliseret variant. Nogle danske varianter, herunder ifeval-da, er tilpasninger snarere end simple direkte oversættelser.

Suite	Aggregeret opgave	Benchmarks
Dansk	Common-sense Reasoning	`goldenswag-da`, `hellaswag-da`, `winogrande-da`
Dansk	Grammatical Error Detection	`gerlangmod-da`
Dansk	Instruction-following	`ifeval-da`
Dansk	Knowledge	`arc-da`, `dameta`, `danish-citizen-tests`, `danske-talemaader`, `mmlu-da`
Dansk	Linguistic Acceptability	`dala`, `scala-da`
Dansk	Multiple-choice Reading Comprehension	`belebele-da`
Dansk	Named Entity Recognition	`dane`, `dansk`
Dansk	Natural Language Inference	`danish-entailment`, `danish-lexical-inference`
Dansk	Reading Comprehension	`multi-wiki-qa-da`, `scandiqa-da`
Dansk	Sentiment Classification	`angry-tweets`, `danish-sentiment-in-context`
Dansk	Summarization	`nordjylland-news`
Dansk	Word-in-Context	`danwic`
Engelsk	Knowledge	`ARC-C`, `ARC-E`, `MMLU`, `MMLU-Pro`
Engelsk	Other task groups	`HellaSwag`, `IFEval`, `RULER 32k`, `GSM8K`, `TruthfulQA`
Agentisk	Code and Tool Calling	`HumanEval`, `MBPP p@1`, `BFCL`

Hovedresultatet er, at Munin er stærkt konkurrencedygtig på de danske evalueringer, og at vores post-trænede modeller i flere opgavegrupper matcher eller forbedrer de oprindelige instruktionsmodeller. De stærkeste resultater er på dansk Knowledge, Reading Comprehension, Summarization og Natural Language Inference, hvor nogle Munin-modeller ligger foran selv med usikkerheden taget i betragtning. Dermed kan det ses at post-træningen flytter modellerne mod stærkere dansk performance, samtidig med at de bevarer en brugbar generel kapabilitetsprofil.

Resultaterne på engelsk og agentiske opgaver er mere blandede. De oprindelige instruktionsmodeller er generelt stærkere på kode, værktøjskald og flere engelske benchmarks, hvilket afspejler, at Munin 1.0 nu primært fokuserer på danske tekstkapabiliteter. De forskelle er vigtige, fordi de peger direkte på næste fase af arbejdet: at bevare de danske forbedringer, samtidig med at der investeres mere målrettet i reasoning, multilingvalitet og agentiske kapabiliteter.

Vi kørte også en fokuseret dansk turnering i kreativ skrivning på tværs af 360 bedømte kampe, vurderet af Qwen3.5-397B-A17B. Vi valgte denne dommer på grund af dens stærke dansksproglige evner.

Turneringen er ikke et bredt benchmark for modelkvalitet, men den er nyttig, fordi kreativ skrivning er en dansk opgave med højt signal: Den tester sproglig flydendehed, register, kohærens, og om modellen kan producere tekst, der føles naturlig frem for blot korrekt. Munin Qwen 9B skiller sig tydeligt ud fra resten af feltet med en 96-9 rekord, mens Munin Apertus 8B placerer sig som nummer to, og Munin Ministral 8B også slår sin oprindelige modpart.

Rangering i dansk kreativ skriveturnering; V-T er samlet vundet-tabt
Placering	Model	V-T
1	Munin Qwen 9B	96-9
2	Munin Apertus 8B	56-45
3	Original Qwen 9B	43-53
4	Munin Ministral 8B	43-54
5	Original Apertus 8B	30-65
6	Original Ministral 8B	26-68

Bidragydere¶

Rasmus Larsen ledte træningen, udførte eksperimenter, byggede syntetiske datasæt og benchmarks, og skrev udkastet til udgivelsesannonceringen.

Oliver Kinch byggede syntetiske datasæt og benchmarks.

Vladimir Salnikov og Jacob Nielsen bidrog til datasæt.

Dan Saattrup Smart udviklede benchmarks og ledte integrationen i EuroEval.

Torben Blach bidrog med projektledelse og koordinering.

Anerkendelser¶

Arbejdet blev støttet af Danish Foundation Models-projektet, finansieret af den danske regering. Arbejdet blev delvist støttet af DeiC National HPC (grant agreement DeiC-SDU-N5-2025162).