Terug naar overzicht

DYLAN: Data Analysis Leveraging AutomatisatioN

Realisatie van open software die algoritmes en complexe datasets visualiseert, statistisch beschrijft en de gebruiker waarschuwt voor fouten.

dylan 880

'Spellingscontrole voor data'

Binnen steeds meer vakgebieden wordt met data gewerkt. Datasets bieden ons inzichten, maar hier gaan wel uitgebreide, tijdrovende processen aan vooraf. De tijd is rijp voor software die voor data doet wat spellingscontrole voor tekstdocumenten heeft gedaan. Het project DYLAN (Data Analysis Leveraging AutomatisatioN) maakt open source software voor toegankelijke, snelle en betrouwbare data-analyse, waarbij de tool waarschuwt voor fouten. Zodat er meer tijd over blijft voor het leren van de resultaten. Om de inzet van DYLAN in de praktijk te demonstreren, worden naast de software ook voorbeelden voor datasets van Nederlandse partijen in de publieke sector gepubliceerd. 

Dit is een pioniersproject. SIDN fonds ondersteunt projecten in de idee-fase, zodat het idee door een sterk team verder uitgewerkt kan worden naar een eerste versie, pilot of experimenteel ontwerp.

Resultaten

MAART 20 | Het project is afgerond. Het originele idee was een model profiler te bouwen, waarmee stappen die vaak worden uitgevoerd geautomatiseerd kunnen worden en hierdoor minder fouten worden gemaakt. Tijdens het project kwam echter een fundamenteel probleem boven water: bepaalde modules van veelgebruikte software (zoals bijvoorbeeld Python) kunnen niet omgaan met data types. In andere programmeertalen zoals Haskal is dit al eerder gesignaleerd en opgelost. Maar voor Python was dit nog niet het geval. Met DYLAN hebben ze een stap teruggenomen om dit voor Python aan te pakken. Samen met een data scientist uit de VS is software en een wetenschappelijk paper geschreven, waar veel interesse voor is. De software is geplaatst op GitHub en inmiddels al 80.000 keer vanuit de hele wereld gedownload. Vervolgstap is nu op basis van dit onderzoek de model profiler te gaan bouwen. 

Afbeelding: Birgit Karacsonyi, CC BY-SA 3.0