Chrono Scraper: een zoekfunctie voor de Wayback Machine
Tool om de Wayback Machine doorzoekbaar te maken
Chrono Scraper is een zoekfunctie in Wayback Machine, een archief dat belangrijk bronmateriaal levert voor journalisten en wetenschappers.
De “Wayback Machine” van het Internet Archive biedt al sinds 2001 toegang tot verdwenen of oudere versies van websites die vandaag niet meer online staan. Het bevat zo’n 100 petabyte aan data, variërend van kleine blogs tot grotere websites van overheden en bedrijven, uit de hele wereld.
De Wayback Machine levert relevant bronmateriaal dat anders niet meer zou bestaan: van het onderzoek naar de MH17-ramp, tot de ontdekking dat Amerikaanse overheidswebsites het begrip “klimaatverandering” verwijderden kort na de aanstelling van Donald Trump. Journalisten, wetenschappers en andere onderzoekers maken er regelmatig gebruik van.
Een belangrijke element ontbreekt helaas: de zoekfunctie. Websites in de Wayback Machine zijn handmatig door te bladeren, maar niet te doorzoeken op basis van trefwoorden. Vanwege de enorme omvang van dit archief zal deze zoekfunctie er ook niet snel komen.
In dit project wordt een tool ontwikkeld om deze zoekfunctie te creëren. Niet voor het gehele archief, maar voor specifieke websites die je zelf kunt opgeven. Het beoogde resultaat is dat gebruikers vanuit hun browser gemakkelijk een aantal bewaarde websites uit de Wayback Machine kunnen “indexeren”, waarna deze doorzoekbaar zijn. In dit project zal een prototype van de Chrono Scraper worden gebouwd en getest onder potentiële gebruikers.
Dit is een pioniersproject. SIDN fonds ondersteunt projecten in de idee-fase, zodat het idee door een sterk team verder uitgewerkt kan worden naar een eerste versie, pilot of experimenteel ontwerp.