![datacorpus_880](http://images.ctfassets.net/6j4v63szj8fn/nJuY0WThkANIK3Za1fm5gBCAYkQ/efe17c5b823baf38f0d011c7bdbae925/datacorpus_880.jpg?fit=fill&fl=progressive&w=1280)
Regelmatig lekken persoonlijke data uit gehackte websites. En ondanks dat we het allemaal over privacy hebben, vullen we onze persoonsgegevens in op allerlei webformulieren. Software zou persoonsgegevens kunnen minimaliseren, maar dat is nu nog lastig, mede omdat de definitie van persoonsgegevens weinig houvast biedt. Met het Open Personal Data Corpus (OPDC) bouwt dit project aan een dataset van teksten waarin persoonsgegevens worden aangeduid en gecategoriseerd, zodat met deze ‘Wikipedia van persoonsgegevens’ software geleerd kan worden om persoonsgegevens te herkennen.
Het project is afgerond (december 2018). Doel van deze pioniersfase was te komen tot een open dataset. 5.500 wikipedia artikelen zijn verwerkt in een verzameling Open Document bestanden. Hierin zijn alle categorieën van bijzondere persoonsgegeven aangegeven. Dit is inmiddels gepubliceerd op Gitlab. Het OPDC laat zien wat voor stukjes tekst gelden als bijzonder persoonsgegeven binnen een Nederlandstalige tekst.
Structure Systems is inmiddels opgehouden te bestaan. Een eventuele vervolgstap, het ontwikkelen van software die persoonsgegevens in data kan herkennen, zou door een andere partij opgepakt kunnen worden.
Afbeelding: h heyerlein, Unsplash.com