Van pionier naar gevestigde orde: neurale netwerken en data sets

We kunnen er niet meer omheen: hackers die complete data sets jatten en voor een paar miljoen aan Bitcoins terug willen geven. En iedere keer als ik zo’n nieuwsbericht lees moet ik denken aan mijn afstudeeropdracht bij Whayle. In mijn opdracht zocht ik naar een manier om privacy in data écht te beschermen. Ik was toen aan het pionieren, maar ondertussen is er verbazingwekkend veel vooruitgang geboekt. Daarom neem ik je graag mee in hoe mijn pionieren is gegaan en wat deze nieuwe ontwikkelingen zijn en wat je eraan hebt.

Drie jaar geleden begon ik mijn afstudeeropdracht. Voor mij als data scientist klonk dat niet al te ingewikkeld: ontwikkel een GAN (Generative Adversarial Network) for Tabular Data. Dat is een ingewikkelde manier om te zeggen dat je twee neurale netwerken traint om nieuwe data te generen. Dit klinkt misschien nog steeds ingewikkeld, daarom heb ik onderaan de pagina een GAN voor Dummies gemaakt met meer uitleg.

Voor nu is het handig om te weten dat met GAN op basis van een bestaande tabel een volledige nieuwe set aan gegevens wordt geproduceerd. Deze nieuwe tabel is geen kopie van de originele tabel, maar voldoet wel aan dezelfde statistische verdeling en geeft ook een goede representatie van alle verbanden die de originele tabel bevat. Maar deze bevat dus geen kenmerken die herleidbaar zijn naar individuen.

Uiteindelijk ben ik hier ruim een half jaar mee bezig geweest. Tijdens dat halve jaar werd de kracht van ‘open source’ programming mij heel duidelijk. Binnen Whayle was ik de enige die met een GAN bezig was, maar online waren er nog veel meer mensen die hun GAN, problemen en oplossingen publiceerden. Het stereotype programmeur die als een soort kluizenaar in zijn eentje op een zolderkamertje achter een computer zit, bleek niet waar te zijn. Er bestaat een hele online gemeenschap van mensen die allemaal hun bevindingen met elkaar delen en zo anderen helpen met het oplossen van technische problemen als ‘mode collapse’. Zonder gebruik te maken van deze inzichten van anderen, was het mij wellicht nooit gelukt om een werkende GAN te bouwen. 

Het stereotype programmeur die als een soort kluizenaar in zijn eentje op een zolderkamertje achter een computer zit, bleek niet waar te zijn.

Uiteindelijk had ik een werkend prototype van een ‘GAN for tabular data’. Ik heb mijn verslag geschreven, mijn bevindingen gepresenteerd en ben vervolgens aan het werk gegaan met een heleboel andere problemen dan de GAN. Een paar maanden geleden, ruim twee jaar na het afronden van mijn thesis was ik opeens weer benieuwd hoe ver de techniek nou ontwikkeld zou zijn. Even googelen leerde mij dat er echt een verbazingwekkende vooruitgang is geboekt. Er zijn ondertussen meerdere kant-en-klare packages te vinden waarmee je binnen een dag (waarschijnlijk eerder twee of drie) een eigen werkende GAN zou moeten hebben. Als ik nu een GAN zou willen toepassen, zou ik ook niet mijn eigen GAN weer afstoffen, maar zonder twijfel voor een van deze packages gaan. Dat klinkt misschien alsof het destijds zonde van de tijd is geweest, maar zo zie ik het niet. Terwijl ik mijn GAN aan het bouwen was, was dit een hele nieuwe en geavanceerde techniek, nog haast niet getest in de praktijk. Ik was onderdeel van een hele groep mensen die samen het wiel wilden uitvinden om vervolgens een auto te kunnen bouwen. Ondertussen is deze techniek veel verder gebracht, en kan je direct van de fabriek een kant-en-klare auto krijgen. De auto die ik destijds uit losse onderdelen in elkaar heb gezet, is nog steeds leuk om naar te kijken, maar niet echt veilig om in te rijden. Tijdens het bouwen heb ik wel een heleboel over alle verschillende onderdelen en de werking hiervan geleerd. Doordat ik deze auto helemaal zelf vanuit het niets heb opgebouwd, weet ik ook veel beter wat er onder de motorkap gebeurt bij die fabrieksauto en wat er allemaal mis kan gaan bij gebruik er van. En dat helpt dan weer enorm bij het oplossen van deze problemen!

GAN voor dummies

Een GAN bestaat uit 2 neurale netwerken: de Generator en de Discriminator. Samen kan je ze eigenlijk vergelijken met een groep geldvervalsers (de Generator) en de politie (de Discriminator) die probeert om het valse geld (de gegenereerde data) van het echte geld (de originele data) te onderscheiden en de geldvervalsers te betrappen. Er is hier wel sprake van een vrij bijzondere situatie: wanneer het trainen begint, hebben zowel de geldvervalsers als de politie allebei nog nooit echt geld gezien. Je kan je voorstellen dat het geld dat de vervalsers maken in eerste instantie heel erg slecht is en absoluut niet lijkt op echt geld. De politie heeft echter ook nog geen idee waar ze op moeten letten. De politie krijgt een heleboel geld voorgeschoteld en zal in het begin willekeurig gokken of het geld echt is, of dat het vals is. Daarnaast is er gelukkig nog een derde partij die precies weet welk geld echt is en welk geld niet, en die partij vertelt de politie wanneer ze het goed of fout hebben. Zo wordt de politie steeds beter in het herkennen van echt en vals geld. De geldvervalsers leren echter weer van de politie: zij krijgen ook steeds door of ze betrapt worden of niet. Hierdoor worden de geldvervalsers weer steeds beter in het vervalsen van geld. In dit verhaaltje staan wij niet aan de kant van de politie, maar aan de kant van de geldvervalsers: we willen dat het valse geld (of de ‘valse data’) zo goed wordt, dat deze amper nog te onderscheiden valt van het echte geld. 

Sophie ten Voorde
Sophie ten Voorde

Sophie kent het verschil tussen gebakken lucht en baklucht. Van het eerste moet ze niets hebben, ze spreekt liever klare taal. Collega’s en klanten prijzen haar communicatietalent. Ze heeft de gave zaken superhelder te formuleren en voelt feilloos aan wat de vraag achter de vraag is.

Als ze zomaar een maand vrij zou krijgen, komt de baklucht in beeld. Sophie kookt en bakt graag in haar vrije tijd. Het liefst stort ze zich op de meer ingewikkelde recepten uit de Italiaanse of Japanse keuken. Dat zie je vaak bij slimme mensen, die lopen ook in de keuken niet weg van een uitdaging.

Sophie begon bij ons als werkstudent. Met haar afstudeeropdracht over het inzetten van Generative Adversarial Networks voor privacy doeleinden sloot ze haar universiteitsstudie met twee negens glansrijk af. En bleef daarna aan boord bij Whayle. Daarop zijn we supertrots.

Niets meer missen?

Ontvang elke maandagochtend het beste van Whayle in je mailbox.

Gerelateerde insights