Big data part 2: Big Data en oranje auto's

Gepubliceerd op: 13/06/2015

Logo pereira %28948 300%29 large

Op 20 mei j.l. publiceerde staatssecretaris Wiebes van Financiën zijn Investeringsagenda Belastingdienst. Een van de speerpunten in deze agenda is dat de Belastingdienst overgaat naar ‘informatiegestuurd toezicht en inning’. Massale data-analyse wordt ingezet om fouten in de aangifte op te sporen: “Het systeem selecteert op basis van honderden gegevens per belastingplichtige de grootste risico’s.”, aldus de brief. Wat betekent dit?

Nog niet lang geleden wisten we niet beter dan dat de beschikbaarheid en de verwerkingsmogelijkheid van informatie beperkt was. Het was de kunst om met beperkte informatie zoveel mogelijk conclusies te kunnen trekken. Die beperking is inmiddels vervallen: de immense kracht van computers, in combinatie met alom aanwezige sensoren en de onvoorstelbaar grote opslagcapaciteit en onderlinge verbindingsmogelijkheden hebben het mogelijk (en betaalbaar) gemaakt om zo’n beetje alles te kunnen meten en op te slaan (‘dataficeren’) en te analyseren. Deze informatie hoeft niet eens concreet en precies te zijn; ook data die onzorgvuldig of vervuild is, is bruikbaar, omdat big data-analytics precisie vervangt door hoeveelheid. Big data verschilt op twee essentiële onderdelen van traditionele analysemethoden: allereerst wordt gebruikt gemaakt van álle data (‘n=all’), in plaats van een geselecteerde steekproef. Hier geldt het motto: liever meer data, dan betere data. Maar belangrijker is dat in een big data analyse slechts gezocht wordt naar correlatie en niet naar causaliteit. Het is voldoende om een verband te constateren, we hoeven het niet te kunnen verklaren. Een voorbeeld: een Amerikaans bedrijf deed onderzoek naar de kwaliteit van tweedehands auto’s. Autodealers verzamelen informatie aan statistici, die moesten voorspellen welke auto’s technische problemen zouden krijgen. Uit de big data analyse bleek dat oranjekleurige auto’s de helft minder vaak defecten vertoonden dan het gemiddelde van andere auto’s. We kunnen op zoek gaan naar de oorzaak – hoe absurd ook. Een zuivere big data analist is echter niet geïnteresseerd in de oorzaak, zij ziet slechts het statistische verband: ‘wat is interessanter dan waarom’.

Wat heeft dit met de werkwijze van de Belastingdienst te maken? Heel veel. Uit de bovengenoemde Investeringsagenda blijkt dat de Belastingdienst bij de controle van aangiften zwaar gaat inzetten op ICT middelen. Kennelijk heeft de Belastingdienst nu al honderden gegevens per belastingplichtige beschikbaar. Dat roept minimaal twee vraagpunten op. Allereerst de vraag hoe de belastingplichtige beschermd wordt tegen onjuiste conclusies en ten tweede in welke mate zijn privacy wordt gerespecteerd. Het privacy-aspect laat ik hier onbesproken.

De belastingwetten gaan uit van oorzakelijke verbanden tussen feiten en de fiscale rechtsgevolgen daarvan. Dat gaat om causale verbanden: duurzaam samenwonende personen zijn, als zij aan de juiste voorwaarden voldoen, fiscale partners, hetgeen een aantal fiscale gevolgen heeft. De materiële heffingswetten leggen deze verbanden vast: als x dan y. De formele wetten (met name de AWR) bepalen – onder andere - hoe deze onderliggende feiten moeten worden vastgesteld en geverifieerd. In een viertal wetsartikelen heeft de Inspecteur de bevoegdheid om informatie te vergaren: art. 47 AWR verplicht de belastingplichtige informatie te overleggen die voor zijn eigen heffing van belang kan zijn, art. 50 AWR geeft de Inspecteur de bevoegdheid waarnemingen ter plaatse te doen bij bedrijven, art. 53 AWR verplicht administratieplichtigen informatie te verstrekken over derden en art. 55 AWR tenslotte verplicht overheidsinstanties informatie met de Belastingdienst te delen. Veel informatie wordt geautomatiseerd verstrekt. Denk hierbij aan de gegevens die banken verstrekken over rekeninghouders en aan de cd-roms met kentekengegevens, verzameld door de camera’s van het Korps Landelijke Politiediensten, die wekelijks per koerier bij de Belastingdienst worden afgeleverd. Naar verluid verschaft de Belastingdienst zich echter ook systematisch toegang tot andere informatie, waarvan niet onmiddellijk duidelijk is wat deze met individuele belastingheffing te maken heeft: gegevens die sociale media over burgers hebben, IP-adressen, recente en oude telefoonnummers, locatiegegevens, kilometerstanden, familierelaties, bestuursfuncties, etc. De wettelijke grondslag hiervoor is dubieus. De wet vereist immers dat gegevens ten aanzien van een belastingplichtige mogen worden gevraagd voor zover deze voor haar heffing van belang kán zijn. Systematische verzameling past daar slecht in; pas als ten aanzien van haar een potentieel heffingsbelang aanwezig is, kan gepaste informatievergaring starten. Als er bovendien geen tussenkomst is van denkende inspecteurs is er een risico dat een data analyse leidt tot foute conclusies. Het voorbeeld van de oranje auto’s laat zien dat aan een statistisch verband nog geen causaal verband ten grondslag hoeft te liggen. Immers, niet elke oranje auto is in goede staat van onderhoud en niet elke witte auto is een wrak. Wat gebeurt er als er verkeerde conclusies uit big data analyses worden getrokken? Als Amazon.com een verkeerde conclusie trekt, dan loop ik hooguit het risico ongepaste aanbiedingen in mijn mailbox aan te treffen. Dat is anders in de relatie tussen burger en overheid: de overheid heeft een gewelds- en belastingmonopolie en heeft nagenoeg ongelimiteerde middelen tot haar beschikking om dat af te dwingen. Het machtsevenwicht tussen overheid en burger is een groot goed in een westerse democratie; dit kan echter ernstig verstoord raken als belastingheffing op basis van data analyses mainstream gaan worden. Daarom vind ik dat we op het terrein van belastingheffing zeer behoedzaam te werk moeten gaan. Big data mag de inspecteur ondersteunen, maar niet vervangen.