AI-labben leverer
Tekst: Aud Gjersdal
– Spørsmålet er ikke lenger om vi kan, vil og skal bruke AI, men hvordan, sier Svein Arne Brygfjeld, som leder Nasjonalbibliotekets (NB) AI-lab. Under KORG-dagene ga han en oppdatering på hvordan enheten nå utforsker mulighetene AI gir.
NB har to store oppgaver. Å ta vare på publisert informasjon for all ettertid. Og å gi tilgang til innholdet i samlingene sine.
– Et mål med å arbeide med AI må være å gjøre innholdet i vårt digitale bibliotek tilgjengelig og mer relevant for brukeren, sier Brygfjeld.
Kampen om å være best
ChatGPT, utviklet av OpenAI, og lansert i november 2022, er en gamechanger. Brygfjeld påpeker at den tjenesten er veldig generell i sin natur og kan gjøre veldig mye. Den er ikke laget for et spesielt formål, eid av produsenten, og langt fra transparent.
– Vi vet lite om hvordan den er skrudd i hop. Vi vet lite om hva slags data som brukes for å trene modellene for å lage tjenesten, sier han. Men den leverer god kvalitet.
Han viser et sammendrag av Knut Hamsuns På gjengrodde stier som ChatGPT har laget. NB er fortsatt langt fra å få til noe tilsvarende.
– Det er en utfordring, for brukerne der ute går etter de gode tjenestene. Dersom disse er hos ChatGPT, så kommer de ikke til NB. Vi må bli like gode som dem, sier han, og understreker at NB sin AI-lab er noe annet enn de kommersielle aktørene. Den kan bidra til samfunnet på en annen og bedre måte enn mange andre. Labben tilbyr kunnskap og kompetanse, data, og kan støtte områder som vanligvis ikke får mye oppmerksomhet og støtte. Til slutt, og kanskje viktigst: Lager modeller.
Nasjonalbibliotekets modellfabrikk
– Vi trener modeller, lager dem gode, og deler dem ut gratis så andre kan bruke dem. Noen er trent uten et formål, mens andre er spesialisert, for eksempel til å finne elementer i en tekst, sier han.
NB har store mengder av data, som digitale bøker, tidsskrifter, og aviser. – Vi kan forme dataene om til å bli gode treningsdata, sier han, og forteller at labben selv benytter seg av denne omfattende samlingen for å lage modeller. Det gjør den ved hjelp av maskinlæring.
«Maskinlæring (ML) er prosessen med å bruke matematiske datamodeller til å hjelpe en datamaskin med å lære uten direkte instruksjon. Det regnes som et delsett av kunstig intelligens (AI).
Maskinlæring bruker algoritmer for å identifisere mønstre i data, og disse mønstrene blir deretter brukt til å lage en datamodell som kan gjøre forutsigelser.
Med økt data og erfaring blir resultatene fra maskinlæring mer nøyaktige, omtrent slik mennesker forbedrer seg ved øvelse.»
Kilde: Microsoft Azure
– Vi tar algoritmer og programvare som store organisasjoner som Facebook og Google lager, og trener dem på våre data, sier han. NB-BERT base, en generell språkmodell for norsk språk, er et viktig resultat av dette.
– Det er den best ytende modellen på norsk, og har vært det inntil ganske nylig. Det er enestående. Det er ikke fordi vi er så flinke, men fordi vi har en så god samling av data.
Bruken av modellene
– Vi har i hovedsak laget modeller for håndtering av tekst (tekstmodeller) og for tale-til-tekst. Typiske bruksområder for tekstmodeller a la de vi har lansert, er å gjøre ulike typer analyser av tekst. Det kan for eksempel være klassifisering eller vurdering av grad av hat-innhold. Vi veit ikke om alle som bruker tekstmodellene, men vi ser at de lastes mye ned. På den andre siden er vi kontaktet av ulike deler av det offentlige som håndterer store mengder tekst, privat næringsliv med spesielle behov relatert til bruk av innhold, og start-ups som vil bruke våre modeller i ny programvare.
Tale-til-tekst er aktuelt i alle mulige sammenhenger der man ønsker en tekstlig framstilling av tale. Det kan f. eks være teksting av video, tjenester for å søke i samlinger tale (f. eks radioarkiv) eller dokumentasjon av møter/forhandlinger. Brukerne av slik teknologi er f. eks mediehus (aviser, kringkasting), tjenester for hørselshemmede og organisasjoner som skal dokumentere forhandlinger i møter.
I tillegg vil jeg også peke på at modeller vi har trent i NB brukes i undervisning og forskning på kunstig intelligens, spesielt i universitet.” utdyper Brygfjeld i en e-post til Bibliotekaren.
Når en person som ikke hører skal prate med noen, kan vedkommende umiddelbart få talen i skriftlig tekst på telefonen. Brukeren skal også kunne velge hvilket språk talen transkriberes til, enten det er norsk, tysk eller italiensk.
– Det tror vi at vi skal klare å levere gratis til dere alle om litt
Svein Arne Brygfjeld, Nasjonalbiblioteket
AI-baserte gratistjenester
– Modeller kan også gis spesialoppgaver, fortsetter han foredraget med, og det gjøres ved å trene dem med tilrettelagte data.
– En typisk anvendelse er å finne tekster der organisasjoner er omtalt i samlingene våre. For å få presisjon ønsker vi en annotering av teksten. Da trener vi en språkmodell til å gjøre akkurat det, sier han, og viser en artikkel fra Klassekampen der organisasjonsnavn, personnavn og stedsnavn er tagget. Brukeren kan mate teksten inn i tjenesten, og så kommer den annotert ut igjen, forklarer han, og understreker at det ikke bare er skriftlige publikasjoner de arbeider med.
Labben arbeider også med andre medier, for eksempel lyd. De har utviklet en tale til tekst-modell for å se om den klarer å transkribere et radioopptak til skrift. I mars 2022 er ikke teksten som modellen lager veldig god.
– Så kommer OpenAI med en helt alternativ måte å gjøre ting på, som vi naturligvis hoppet på med en gang. Nå har vi en tekst som er bortimot perfekt, sier han.
Men labben stopper ikke med det. Modellen skal kunne brukes på telefonen. Når en person som ikke hører skal prate med noen, kan vedkommende umiddelbart få talen i skriftlig tekst på telefonen. Brukeren skal også kunne velge hvilket språk talen transkriberes til, enten det er norsk, tysk eller italiensk.
– Det tror vi at vi skal klare å levere gratis til dere alle om litt, sier Brygfjeld.