collecties online doorzoekbaar maken
Dankzij de steun van SIDN fonds kreeg social enterprise Aincient de kans om een oplossing te ontwikkelen: cleo.aincient.org. Cleo is een online platform dat Oudegyptische collecties doorzoekbaar maakt om onderzoek te versnellen met behulp van AI. Ruim 45.000 Oudegyptische objecten uit meerdere internationale collecties zijn nu doorzoekbaar op tekst, afbeelding en locatie in het Nederlands en Engels.
Het vinden van vergelijkbare objecten dankzij AI
Eén van de meest innovatieve aspecten van Cleo is de mogelijkheid om te zoeken naar vergelijkbare Oudegyptische afbeeldingen. Het was nodig om zelf een algoritme te trainen omdat zoeken op afbeelding bij bijvoorbeeld Google, Microsoft en TinyEye helaas niet werkt voor nichemarkten zoals de Egyptologie. De reden hiervoor is dat Oudegyptische objecten niet worden gebruikt om de algoritmen te trainen.
Wij zijn als volgt aan de slag gegaan. Er zijn 23 verschillende typen of groepen gemaakt (één groep bestaat bijvoorbeeld uit munten) met een minimumaantal objecten per groep van 400. Voor het beste resultaat moeten de objecten binnen een groep zoveel mogelijk hetzelfde zijn en tegelijkertijd van de andere groepen verschillen. Een gedetailleerde technische beschrijving en onze lessons learned zijn te vinden op onze website. Deze kunnen gebruikt worden om beeldherkenning voor andere vakgebieden te ontwikkelen.
Hoe werkt het voor de gebruiker? Zoeken op afbeelding kan op twee manieren in Cleo. De eerste optie is het uploaden van een foto als start van een zoekopdracht. Het algoritme geeft dan aan welk type object waarschijnlijk op de foto staat. Het is een lijstje van vijf typen met voor elk type een zekerheidspercentage. Op de afbeelding zie je een shabti, een beeldje dat werd meegegeven in het graf. Het algoritme heeft het in dit voorbeeld dus goed herkend. Dit classificatieproces is uitsluitend gebaseerd op de foto. De gebruiker krijgt naast de classificatie ook objecten getoond uit Cleo die er vergelijkbaar uitzien. Deze functie kun je bijvoorbeeld gebruiken om meer te weten te komen over een object dat je in een museum ziet of tijdens een opgraving ontdekt.
Gebruikers hebben daarnaast ook de mogelijkheid om de resultaten van een tekst zoekopdracht te verbreden dankzij beeldherkenning. Zij kunnen vergelijkbare objecten zoeken door twee of meer objecten te selecteren en op "AI search" te klikken. In dit geval zijn de resultaten gebaseerd op zowel de metagegevens van de objecten als alle foto's. Deze functie is handig wanneer je binnen de objecten in Cleo meer relevante resultaten wilt vinden. Mogelijk levert zoeken op tekst alleen niet alles wat je zoekt omdat de beschrijvingen vaak incompleet zijn.
Full text search dankzij een optimale automatische vertaling
Een ander innovatief aspect zijn de automatische vertalingen. De vertalingen zijn nodig omdat de verschillende collecties niet één taal hanteren. Zo is de collectie van het Rijksmuseum van Oudheden alleen in het Nederlands beschreven en die van het Metropolitan Museum of Art alleen in het Engels.
Wij hebben een nieuw en eenvoudig proces gecreëerd voor de vertalingen, waardoor de kwaliteit van de automatische vertalingen aanzienlijk is verbeterd. Het bestaat uit:
Het vertalen van de Egyptologische woorden en concepten met behulp van een Egyptologische thesaurus (een soort begrippenlijst, wij gebruiken Thot thesauri), en
Het vertalen van de volledige teksten met behulp van de Google Translate API.
Dit proces kan eenvoudig toegepast worden door andere vakgebieden en vanuit verschillende kanten is hier interesse voor.
Co-creatie resulteert in enthousiaste gebruikers
Cleo is ontwikkeld in co-creatie met de onderzoekers en studenten zelf, velen van de vakgroep Egyptologie aan de Universiteit Leiden, en in samenwerking met Google en het Rijksmuseum van Oudheden. We hebben de eindgebruiker om input gevraagd tijdens alle stadia van de ontwikkeling van Cleo en blijven dit doen. Van het valideren van de eerste ideeën tot het testen van de definitieve versie van Cleo voor de lancering. Deze benadering heeft bijgedragen aan de positieve ontvangst van Cleo onder Egyptologen en mensen met een passie voor het oude Egypte. “Wat een heerlijke tool is dit; ik heb al enkele ontdekkingen gedaan die ik nooit eerder had opgemerkt” aldus een professor in de Egyptologie.
Toekomstplannen
Het doel is om meer collecties en andersoortige bronnen toe te voegen, Cleo beschikbaar te maken in verschillende talen en om het zoeken op afbeelding te verfijnen. Deze verfijning bestaat uit:
Het ontwikkelen van zoeken op een detail van een afbeelding, bijvoorbeeld de pose van een god op een grafsteen. Op dit ogenblik is alleen zoeken op de totale afbeelding mogelijk en gebruikers geven aan zoeken op detail graag te willen
Innovatie op het gebied van de usability van beeldherkenning en het algoritme zelf: als gebruiker kunnen aangeven op welk aspect je naar gelijkenis zoekt, bijvoorbeeld vergelijkbare objecten, scherven van eenzelfde pot of een bepaalde scène op verschillende soorten materialen
De beeldherkenning en classificatie overall verder verbeteren door a. meer collecties toe te voegen en daardoor op veel meer plaatjes dan de huidige 33.000 te kunnen trainen en b. de metadata te verbeteren met crowd sourcing t.b.v. de training van het algoritme en c. integratie met de open source code van het Hieroglyphic Initiative van Ubisoft en Google voor hiërogliefherkenning
Daarnaast is er vanuit verschillende kanten interesse om dit platform te hergebruiken voor andere culturen, bijvoorbeeld voor Griekse-, Romeinse- en Indonesische objecten.
Ontdek het zelf
Nieuwsgierig? Maak je eigen Cleo account aan en start met ontdekken. Of kom naar de presentatie over Cleo en AI op het Digitaal Erfgoed Nederland congres op 5 maart in de Doelen in Rotterdam. Heb je interesse in het hergebruiken van de code? De code van de eerste versie van Cleo is open source beschikbaar op Github onder de Apache License, Version 2.0.
Heb je vragen of feedback? Neem dan contact met ons op via cleo@aincient.org. We horen graag je mening!