Dette indlæg blev optaget på Faglig Fredag den 27. oktober 2023.

Abstract

ChatGPT har taget os med storm – også i Danmark. Folk bruger botten både på dansk og på engelsk – og den virker og kan bruges til mange forskelligartede formål. Men flere har også lagt mærke til at botten digter frit fra leveren om ting hvor den ikke har så meget viden – og det gælder særligt om dansk sprog og danske forhold. Dette er problematisk, og det gør at vi frygter en sproglig og kulturel ensretning af dimensioner hvis vi ikke hurtigt får udviklet store sprogmodeller der bygger på danske og nordiske tekster. Faktisk taler flere stemmer nu om at se store sprogmodeller som kritisk infrastruktur for et sprogsamfund. Det er også dagsordenen i European Language Equality, som er et EU-initiativ som arbejder for fuld digital og teknologisk ligeværdighed mellem de europæiske sprog.

I mit oplæg vil jeg tale om nogle af faldgruberne i store sprogmodeller som i hovedsagen er trænet på engelsk og med hovedvægt på web-scrapet materiale. Jeg vil vise hvordan det umiddelbart kan føles som om det teknologiske gab mellem engelsk og dansk er blevet mindre, nu hvor vi har fået danske chatbotter der virker for dansk. Men faktisk er gabet blevet større. Jeg vil også fortælle om vores nyeste arbejde med at forsøge at benchmarke sprogmodeller ud fra store semantiske datasæt som mere generelt undersøger hvordan og hvor godt sprogmodellerne egentlig ræsonnerer, også i relation til fx overført og metaforisk sprog – som vi faktisk bruger langt oftere end vi måske tror.

Bolette Sandford Pedersen

Bolette Sandford Pedersen

Professor i datalingvistik og sprogteknologi

Bolette er professor i datalingvistik og sprogteknologi og har igennem en årrække ledet Center for Sprogteknologi på Københavns Universitet. Hun arbejder især med udvikling af danske sprogressourcer til sprogteknologi og sprogcentreret kunstig intelligens (AI) og har fokus på de semantiske, kognitive og kulturelle aspekter af den nye teknologi. Hun arbejder bl.a. med sprogpolitik dels nationalt hvor hun sidder i Digitaliseringsstyrelsens Sprogteknologiudvalg, dels på europæisk plan hvor hun repræsenterer Danmark i European Language Equality, som arbejder for fuld digital og teknologisk ligeværdighed mellem de europæiske sprog. I øjeblikket arbejder hun med at udvikle danske benchmarkdatasæt som bruges til at evaluere hvor gode store sprogmodeller er til at ræsonnere.