Teknologisk revolusjon når bibliotekene
Av Aud Gjersdal
Språkmodeller kan transkribere tekst, oversette mellom språk, og lage sammendrag. Dette er bare begynnelsen. Nå står vi overfor en revolusjon. Per Egil Kummervold, forsker ved AI-labben, presenterte en av deres nyeste modeller – NB-Whisper – på årets Kunnskapsorganisasjonsdager som Institutt for Arkiv-, bibliotek- og informasjonsfag ved OsloMet arrangerer: Modellen kan transkribere norsk tale til tekst. Dette er bare begynnelsen på et ras av nye muligheter som vil berøre bibliotekarers arbeidsmetoder. Bibliotekaren tok en prat med ham.
Lærer ved å lese
– En språkmodell er et dataprogram som forstår språk, forklarer Kummervold. Vi tenker ofte på dataprogrammer som algoritmer på formen “hvis – så”. Som i: “Hvis døren er åpen, lås den.” Språkmodeller er annerledes. De lærer ved å lese og uten at noen programmerer dem.
– Vi prøver å gjøre om tekst til et langt tall som utgjør en vektor. Det er et matematisk uttrykk for meningen i setningen, sier han. Nasjonalbiblioteket (NB) bruker enorme mengder rene tekstfiler som treningsgrunnlag, mens NB-Whisper ble trent på lydopptak med tilhørende tekst.
– Måten vi har lært dem på, er å la dem prøve å forutsi neste ord. Når de gjør det, lærer de indirekte språk, sier han. Modellen leverer en sannsynlighetsfordeling over hva som er neste ord. Deretter sammenliknes forutsigelsen med hvilket ord som faktisk kom, og modellen justeres ut fra det.
– Modellen lærer mer generelle egenskaper ved språket. Den lærer at etter punktum kommer stor bokstav. Den lærer også hvordan samfunnet er satt sammen, hvem som styrer det og hvordan fysiske objekter er, for det er nyttige egenskaper for å forutsi neste ord, sier han, og påpeker at modellen lærer av data på godt og vondt. Det er viktig å fore dem med de riktige tekstene.
– Trener en modellen på mange Jon Fosse bøker, så vil den bli god på nynorsk og språklige bilder, men den vil ikke bli særlig god på å sette komma.
Semantisk søk er underveis
– Det vil komme mer effektive måter å behandle tekst på. Om fem år er det vi holder på med nå, virkelig steinalder. Jeg tror ikke alle har skjønt det. Det var en revolusjon da vi gikk fra katalogkort til nøkkelordsøking.
Semantisk søk, der en kan spesifisere ønsket informasjon mye mer i et søk, vil komme, og endre bibliotekarers hverdag, sier han. For å relatere dette til praksis, kan vi tenke oss at denne teknologien vil bli integrert i allerede eksisterende system. Alternativt vil en måtte kjøpe inn nye. Fagmiljøene i bibliotekene bør følge utviklingen, og tenke over hvordan denne nye teknologien kan få praktiske anvendelser på arbeidsplassen.
– En bibliotekar i dag er veldig vant med å bruke nøkkelord i søk. Det er blitt en vane, og vi er ganske flinke til å finne gode nøkkelord. Men det fungerer ikke alltid. Hvis du vil søke gjennom alle bøkene til Henrik Ibsen og finne figurer som er kritiske til samfunnsstrukturen, da kommer du ingen vei med nøkkelord, sier han, og forteller at semantisk søk gjør dette mulig ved å bruke en matematisk representasjon av mening i form av egenskapsvektorer. Dette innebærer å representere data der hvert tall gjenspeiler en målbar egenskap ved objektet.
For å utdype dette med et eksempel kan en lage en vektor som måler egenskaper som størrelser, vekt, smak og skjønnhet på en skala fra 1 til 10, og representere dem i en vektor, som består av en ordnet rekke med tall.
Egenskap | Hest | Kalkun |
Størrelse | 8 | 2 |
Vekt | 7 | 1 |
Smak | 2 | 9 |
Skjønnhet | 10 | 2 |
– Vi kan si at det som er matematisk nært i vektorrommet, er det som er meningsmessig nært hverandre.
Prate mer med bøkene
Teknologien kan også utnyttes til mer avanserte oppgaver, som oppsummering og oversettelse. Allerede i dag vil de store språkmodellene kunne lage spesialtilpassede oppsummeringer som fokuserer på det du er interessert i. På engelsk fungerer dette svært godt, og vi ser at det allerede begynner å bli ganske bra på norsk.
– Sånn vil du i fremtiden kunne putte inn Store norske leksikon eller Henrik Ibsens verk, der du kan spørre og prate med boka.
– I fremtidige systemer vil en for eksempel kunne gi språkmodellen i oppgave å oppsummere de ulike kvinneskikkelsene i Ibsen, sier han, og utdyper: Språkmodellen deler opp oppgaven. Først finner den ut at den må ut og søke etter informasjon, den søker, henter inn det den får, leser det og lager et sammendrag eller bruker det som input for å svare på et spørsmål.
Nasjonalbiblioteket langt fremme
– Norge må ta ansvar. Vi kan ikke overlate kulturarven til store internasjonale selskap, og bare la dem ta det som er kommersielt lønnsomt. For å lage gode modeller, krever man høy kvalitet på teksten som man putter inn. Dette har vi som kan norsk et ansvar for at blir riktig, sier han. I 2006 startet NB en systematisk digitalisering av sine samlinger.
– På grunn av dette og at offentlige dokumenter er åpent tilgjengelige, har vi nok tekst til å trene store språkmodeller, selv om vi er et lite språk, poengterer Kummervold.
– Det den har lært, er det den har lest. Det er viktig å trene dem også på norsk tekst. Begreper er gjerne litt kulturbestemte, og vi vil gjerne at de forstår begrepene likt som brukerne. Vi har tilgang til mer norsk tekst her i Norge enn de store amerikanske firmaene har, sier han.
– AI-labben sin rolle er å sørge for at modellene er gode på norsk. Alle typer norsk som vi har pratet i alle tider. De må kunne forstå gammelnorsk og norrønt, sier han. Å lage modellene krever spesialkompetanse, tilgang til veldig mye tekst og spesialisert program- og maskinvare.
– Modellene blir gitt ut som åpen kildekode slik at hvem som helst kan ta dem i bruk. Da kan for eksempel kommersielle aktører laste dem ned og plugge dem i sine løsninger. Det er de som pakker modellen inn, leverer grensesnitt og prater med sluttbrukeren. Det er veldig demokratiserende, sier han. Universitetet i Oslo har for eksempel laget et rammeverk for å tilby en tjeneste basert på NB-Whisper.
Bruk den nye teknologien!
Teknologien vil bli integrert i andre produkter, som bibliotek- og søkesystemer, Office-pakken og ulike e-postprogrammer.
– Da må folk lære seg det. Man må forstå litt hvordan de fungerer, hva de er gode til og hva de ikke er gode til. Jeg tror at hvis man bruker dem littegrann, så vil man få en mye større forståelse. Jeg tror ikke det er disse nåværende chattetjenestene bibliotekarene kommer til å bruke i fremtiden, men om en bruker dem, så vil en få en større forståelse for den endringen i teknologien som kommer i fremtiden.
– Jeg vil oppfordre alle til å leke med de verktøyene som finnes der ute. Det er ikke maskiner som erstatter mennesker. Faren er at mennesker som ikke bruker maskiner, blir erstattet av mennesker som bruker maskiner.
Les mer:
https://www.uio.no/tjenester/it/aktuelt/om-it/2024/autotekst-enda-bedre.html
https://www.uio.no/tjenester/it/aktuelt/om-it/2024/autotekst-enda-bedre.html