Cyborgs’ene kommer!

Key takeaways fra LFF’s vinterkursus om billedgenkendelse, maskinlæring i arkiver, på biblioteker og museer

Signe Trolle Gronemann, Københavns Stadsarkiv

Maskinerne er ikke klogere, end vi gør dem til. Og nøglen er samarbejde mellem mennesker og maskiner. Overvej på forhånd, om den type metadata som maskiner kan generere, er brugbar for dig og dine brugere. Og vid at det nok er nødvendigt, at du selv træner din ’maskine’, og at den skal bruge meget træningsdata. Hvis det bliver et ’den er fin med mig’ til begge, kan billedgenkendelse rumme store potentialer for dig. Husk dog at holde styr på hvilke metadata, der er maskingenereret og hvilke der ikke er – og overvej om dine brugere ikke også skal vide det.

NLN_3875 (2) Sådan lyder en ultrakort opsummering af hovedpointerne fra en spændende dag i selskab med folk, der på godt og mindre godt har gjort sig erfaring med billedgenkendelse.

De etiske komplikationer tager vi op til et andet seminar, startede forkvinde for LFF Mette Kia Krabbe Meyer med at understrege. For etikken omkring brug af fx ansigtsgenkendelse er noget som også ABM-institutioner må forholde sig til. Men denne dag, i Historiens Hus i Odenses smukke rammer, ville vi gerne fokusere på mulighederne for kulturarv, der er fri af GDPR. Vi ønskede at sætte konkrete eksempler på de teknikker, services og værktøjer, vi ofte hører omtalt, men som kun ganske få kulturinstitutioner stadig har konkrete erfaringer med.

Garbage in – garbage out

NLN_3920 Lektor Kim Steenstrup Pedersen fra Datalogisk Institut, KU åbnede dagen med at introducere os for, hvad kunstig intelligens, maskinlæring og billedgenkendelse også kaldet computer vision overhovedet er for nogle størrelser.

Simplificeret fortalt handler det om at lære en computer – eller mere præcist en machine learning model – at analysere store mængder data, fx tekst, tal eller billeder. Det kan man gøre på (i hvert fald) to måder:

Supervised learning: Når man har et mål for hvad modellen skal lære og en slags facitliste – også kaldet et træningssæt, som man træner modellen i. Herefter tester man, om modellen har lært det rigtige ved at introducere den for nye data – kaldet testdata. Hvis ikke resultatet er tilfredsstillende, kan man skrue lidt på nogle parametre, indtil modellen kan håndtere testdata korrekt.
Unsupervised learning: Når man ikke kender målet eller har facitlisten på forhånd, men mere slipper modellen løs på data og ser, hvad den kommer frem til (fx skjulte strukturer i data eller lign.).

I begge metoder afhænger resultatet alene af, hvor gode data, man stiller med. Garbage in, Garbage out, som Kim sagde.

Computervision kan bruges til mange forskellige ting. Som ABM institutioner er det evnen til at genkende elementer i billeder, give billeder tags eller labels og finde enslignende billeder, der er mest nærliggende.

Man kan benytte sig af forskellige private online services som fx Google Vision til at genkende elementer i ens billedsamling og give billederne tags. Et af flere problemer med de store internationale leverandører af computer vision er, at deres modeller er trænet på nordamerikanske billeder, der ikke ligner dem, vi har i vores samlinger. Derfor bliver resultatet ofte derefter og modellen vil ikke kunne finde fx et bindingsværkshus. Samtidig skal man være opmærksom på, at de nordamerikanske træningsdata kan have forskellige kulturelle bias, som du ikke kender på forhånd og som du risikerer reproducerer i din metadata.

Der kan derfor være fordele i at træne sin egen model. Udfordringen er bl.a. at det kræver store træningssæt, før modellen er klog nok. Og her taler vi potentielt om hundredetusinder af eksempler på hver af de elementer, vi ønsker modellen skal kunne genkende eller tagge korrekt. Mængden af træningsdata afhænger af, hvor ens de elementer man ønsker at modellen skal kunne skelne imellem, er. Jo sværere det er at skelne, des mere skal der trænes.

Uden kontekst

NLN_3944 Arran Rees, forsker fra Universitetet i Leeds, eksemplificerede styrkerne og svaghederne ved de store internationale udbydere af computervision. Arran havde kørt 52 billeder igennem henholdsvis Clarifai, AWS Rekognition og Google Vision, for at se forskellen i de labels, der blev sat på de samme billeder.

De 52 fotos var indsamlet gennem det nordiske forskningsprojekt Collecting Social Photography (http://collectingsocialphoto.nordiskamuseet.se/) og var alle blevet uploadet af fotograferne til forskellige sociale medier. Det blev tydeligt, at systemerne er trænet på forskellige data og derfor var disponeret til at få øje på forskellige ting.

Natur var de generelt gode til, tøj gik også fint. Overraskende åbenlyse elementer i billeder som flag og emojis blev overset og flere ting helt misforstået. Fælles for dem alle var, at de havde meget svært ved at afkode situationen på billedet – billedets kontekst.

– At et billede var en selfie, blev fx ikke genkendt.

– Enkelte elementer i billeder blev forsøgt tolket ind i en kontekst men meget simplificeret. Blomster havde fx noget med romantik at gøre, men andre betydninger af blomster blev helt overset.

– Flere labels var ikke kun misvisende, men også problematiske som tagget ’vicious’ på billedet af en ung kvinde med en alternativ tøjstil.

Arran konkluderede at computervision fra disse store internationale udbydere er et godt supplement til ens egne registreringer, hvis det bruges med refleksion. Men at det ikke kan stå alene.

Overhal efterslæbet

NLN_3980 Jacob Wang fra Nationalmuseet fortalte, at han ser maskinlæring som Nationalmuseets eneste måde at komme museets registreringsefterslæb til livs. Men at det er på den lidt længere bane, at vi vil se maskinlæring hive pointene hjem. Lige nu er det investering i og eksperimentering med de nye teknologier, der er brug for.

I tre projekter har Nationalmuseet brugt computervision; fra billedbeskæring, til generering af emneord via Google Vision til det nyeste projekt, hvor de har trænet en maskine til at opdele billeder i forskellige kategorier, bl.a. fotos, arkivmateriale, genstande og malerier.

Jacob delte desuden sine tanker om, hvordan vi bedst forbereder os til en at høste frugterne af computervision:

Bliv ved med at digitalisere
Hold styr på dine data, dine versioner og din dataintegritet
Hav systemer hvor input / output er let.
Hav et tæt samarbejde med udviklerne – nutidens og fremtidens supermænd, som Jacob kaldte dem – der allerede har maskinlæring som en hel tilgængelig metode blandt mange til at løse konkrete problemer.

Sæt mennesker og maskiner sammen

NLN_3954 Frontend Udvikler Zahra Mousavi og seniorforsker Mette Kia Krabbe Meyer fra Det Kgl. Bibliotek, fortalte om KB’s konkrete projekter med maskinlæring.

KB har lavet forskellige eksperimenter, særligt med billedgenkendelse på samlinger uden meget metadata. Og eksperimenterne havde givet positive erfaringer og en lyst til at fortsætte. Særligt arbejdede KB med at identificere billeder, der minder om hinanden – fx dubletter. Et andet fokus for KB er at understøtte en let måde at give modellen feedback, således at samarbejdet mellem maskine og mennesker forenkles og på den måde – på sigt – åbne op for egentlig crowdsourcing af feedback.

Efter kaffen blev det tid til to private aktører, der begge arbejder med kulturarvsmateriale.

Farver, striber og associationer

NLN_3938 Anton Stonor fra firmaet Strømlin fortalte hvordan virksomheden for SMK har arbejdet med at øge adgangen til og søgbarheden i SMKs samlinger ved hjælp af forskellige typer maskinlæring.

Det betyder, at man nu kan søge efter kunstværker i bestemte farver og finde malerier, der ligner hinanden. Sidst, men ikke mindst, har Strømlin analyseret værktitler for at finde ord, der kan indgår i begrebstræer for på den måde at give brugerne et bredere søgeresultat, der ikke kun bygger på synonymer, men mere og mere på associationer og begrebssammenhænge.

Ned i tempo – op i farve

NLN_3977 Firmaet Vintage Cloud arbejder med at digitalisere Europas filmarv, hvor kun ganske få procent endnu kan findes digitalt. Peter Englesson fortalte, hvordan maskinlæring og computervision er helt centralt for digitalt at restaurere filmene, metadataopmærke dem og forbedre brugeroplevelsen.

Vintage Cloud arbejder med at føre filmoplevelse tilbage både til optagetidspunktet, men også til det filmen faktisk viser. Når filmene restaureres, bruges maskinlæring i de filtre som lægges over digitaliseringen, så de fremstår uden ridser, klart og skarpt, hvilket Peter viste nogle imponerende eksempler på.

I de gamle stumfilm, hvor personerne bevæger sig hurtigt pga. datidens optageudstyr, sættes filmen ned i hastighed også med hjælp af maskinlæring. Vintage Cloud eksperimenterer også med farvelægning af sort/hvide film. Sidst men ikke mindst bruges computervision til at analysere de enkelte stills i filmene for på den måde at skabe metadata.

Kommer cyborgs’ene?

Ja, robotterne klarer ikke arbejdet med at metatagge vores samlinger, hvis vi mennesker ikke klæder dem godt på. Og cyborgen – blandingen af menneske og maskine, som Jacob Wang introducerede på dagen – er sikkert et godt billede på dette.

NLN_4003 Dagen sluttede med en spændende paneldebat, hvor der blev kredset om, hvordan vi i kulturarvssektoren kan arbejde sammen om og med maskinlæring. Det lå i luften, at samarbejde vil være til alles fordel, og at vi kan lade os inspirere af de naturhistoriske museer, der samarbejder på internationalt plan.

Samtidig blev det også understreget, at ABM-institutionerne (tilsammen) står godt rustet til at udnytte maskinlæringens potentialer med deres store samlinger og strukturerede eksisterende metadata, der potentielt udgør gode træningssæt.

Som et mere decentralt og måske mindre krævende initiativ, blev der også opfordret til, at hvis man træner sin egen model, kan man dele den under en åben licens fx på fx Github, der er en samarbejdsplatform for it-udviklere. Her kan man beskrive, hvordan modellen skal benyttes og hvilke data den er trænet på, så andre institutioner kan vurdere om den er egnet til deres samling.

Tak til alle oplægsholdere og deltagere for jeres bidrag til at gøre dagen lærerig og inspirerende!

Alle fotos: Niels Løgager Nielsen