Gå til indholdet

Nyheder

Danmarks strategiske indsats for kunstig intelligens

Digitaliseringsministeriet har offentliggjort en national strategi for kunstig intelligens — Strategisk indsats for kunstig intelligens — der beskriver Danmarks ambitioner og prioriteter for AI-udvikling og -adoption. Strategien identificerer fire centrale indsatsområder, og Danish Foundation Models spiller en central rolle i det tredje.

Behovet for danske sprogmodeller: At bygge bro over den sproglige AI-kløft

De seneste år har maskinlæringsfeltet gennemgået en transformativ forandring, primært drevet af fremkomsten af foundation models. Disse modeller, forhåndstrænede på enorme datamængder, kan finjusteres til en lang række opgaver og er dermed uvurderlige på tværs af mange domæner. At engelsk dominerer udviklingen af disse modeller udgør dog store udfordringer for mindre sprogsamfund.

Datahåndtering

For at kunne træne sprogmodeller (Large Language Models, LLM) skal der store mængder af data til. Fra vi modtager rådata til at de kan bruges til at træne sprogmodeller på, gennemgår de en transformationsprocess.

Følgende er en overordnet beskrivelse af denne processen. Vi udvikler og forbedre løbende processen, for at sikre at vi bruger state-pf-the-art metoder og praksis.

Datakilder

De data som sprogmodeller trænes på er afgørende for hvad de kan bruges til. I Danish Foundation Models (DFM) er tilgangen at vi skal have sikkerhed for at vi må benytte de data vi træner på fra data ejere, samt at vi har fokus på værdiskabende use-cases. Dette gør vi blandt andet gennem samarbejdet med Dansk Sprogmodel Konsortium.

Udgivelse af Munin 7B Alpha — en dansk sprogmodel

Vi er glade for at kunne annoncere udgivelsen af den første model fra Danish Foundation Models-projektet, kaldet Munin 7B Alpha. Modellen markerer begyndelsen af vores forskning i danske store sprogmodeller (LLM'er) og anvender kontinuerlig forhåndstræning baseret på den allerede forhåndstrænede Mistral-7b-v0.1. Den er trænet på datasættet Danish Gigaword, som har været afgørende for træningen af en lang række danske BERT-modeller.

Hvorfor dansk har brug for sine egne sprogmodeller

Dansk er et af verdens rigeste sprog — men i en tidsalder med store sprogmodeller risikerer det at blive et digitalt andenrangssprog. Vi har udgivet et positionspapir, der argumenterer for, hvorfor det er vigtigt, og hvad vi gør ved det.