Inzichten in het GeoPhy WOZ-model
Lorenzo Dorigo - blog auteur portret Lorenzo Dorigo
Kalender icoon
30 September 2019

Wilt u een beter begrip van hoe GeoPhy complexe data en machine learning gebruikt om snelle, nauwkeurigere WOZ-waarderingen te ontwikkelen? We hebben de volgende vragen en antwoorden van de Nyenrode Business University Congress WOZ-Taxaties samengesteld om enig inzicht te geven.

1. Laten wij beginnen met de basis. Wat zit er achter de waarderingen? Leg het model en de data uit.

Het waarderingsmodel is een ensemble model, dat wil zeggen, een waardering is opgebouwd uit meerdere algoritmen. Eén daarvan is een stochastic gradient boosting decision tree (GBDT). De andere is een woningprijsindex-model. Door de uitkomsten van beide modellen te combineren wordt een hogere nauwkeurigheid bereikt. In de white paper "Inside GeoPhy AVM" wordt uitgelegd hoe de GBDT werkt.

De data die wordt gebruikt omvat drie elementen:

Het model en de data worden continu onderhouden. Data worden toegevoegd of verbeterd indien dit bijdraagt aan de nauwkeurigheid. Het model wordt steeds opnieuw getraind zodra verkoopprijzen bekend worden.

2. Hoe gevoelig is het GeoPhy WOZ voor veranderende omstandigheden?

Voor ieder factor in het GeoPhy WOZ model kennen we de exacte impact op iedere WOZ waardering — de impact van bijvoorbeeld criminaliteit is per gemeente of wijk/buurt verschillend. Vervolgens zouden we in het model ook naar de toekomst kunnen kijken en factoren aan kunnen passen om te kijken naar de impact op toekomstige waarde. Dergelijke gevoeligheidsanalyses zijn mogelijk met de technologie, maar worden momenteel nog niet toegepast binnen de GeoPhy WOZ. De waardering die uit het GeoPhy WOZ model komt is naar elke gewenste WOZ-waardepeildatum.

3. Hoe gaat het model om met ‘overfitting’?

Het doel van modelleren is om situaties uit de praktijk te benaderen door patronen in gegevens te identificeren en te standaardiseren. Modellen maken fouten als die patronen te eenvoudig of te complex zijn — dit gebeurt bijvoorbeeld als de beslisboom (decision tree) die gebruikt wordt in de modellen te “diep” is. Onze manier om fouten door overfitting aan te pakken, is beperkingen op te leggen aan hoe een boom groeit. We pakken overfitting ook aan door altijd een rigoureuze training/test (80%/20%) split te maken in de data. Hierdoor testen wij onze modellen altijd op 'onbekende' data. In goed Nederlands: we beperken de diepte van het model, om zo de juiste balans tussen eenvoud en complexiteit te bepalen.

4. Hoe kan GeoPhy een hoge nauwkeurigheid claimen als de data in het Kadaster en in de BAG niet nauwkeurig is?

Nauwkeurigheid van de brondata is belangrijk. In het model worden echter veel verschillende data opgenomen, waardoor de invloed van de onnauwkeurigheid van één datapunt gedempt wordt. Betreft het veel data dan zal de fout waarschijnlijk niet steeds gelijk gericht zijn (de fout is random) en onnauwkeurigheden compenseren elkaar geheel of ten dele.

Objectafbakening is cruciaal voor het kunnen uitvoeren van een juiste WOZ-waardering. Omdat de objectafbakening niet is af te leiden uit openbare gegevens is het aanleveren door de gemeente van die data van belang voor het opnemen in het GeoPhy WOZ-model.

De nauwkeurigheid kan op drie manieren worden bepaald.

5. Kan het model ook met vertraagde variabelen werken?

Ja, het model vindt zelf de relaties tussen data en de waarnemingen van verkopen. Het model kan tijdgerelateerde effecten zelf herkennen en in de taxatie opnemen. Als bijvoorbeeld omgevingsdata dus met een vertraging beschikbaar komt is dat geen probleem, al zal de relatie tussen deze data en transactieprijs dan wellicht zwakker zijn.

6. Hoe kan het model nauwkeurig zijn zonder gegevens over renovaties of onderhoudstoestand?

Onderhoudsgegevens en renovaties spelen bij vooral bij oudere woningen een rol. Het GeoPhy WOZ model maakt gebruikt van twee verschillende waarderingsmethoden: een model dat gebruik maakt van machine learning technologie en een model wat gebruik maakt van een woningprijsindex. De laatste neemt de meest recente transactieprijs van een woning in ogenschouw en reflecteert vervolgens lokale ontwikkeling in woningwaarden in de huidige prijs van de woning. Aangezien renovatie en onderhoud onderdeel uitmaken van de meest recente transactieprijs worden deze factoren dus impliciet meegenomen.

Met andere woorden, gezien de enorme breedte van onze datapunten (die waarschijnlijk correleren met niet-beschikbare gegevens over renovaties of onderhoud) wordt het effect van de ontbrekende gegevens gedempt. Bijvoorbeeld, renovaties gebeuren vaak in dezelfde 'upcoming' van verouderde-buurten, zogenaamde gentrification. Het renovatie datapunt zit dus waarschijnlijk deels in de buurt informatie gecodeerd en geeft daardoor een betrouwbaar beeld van de marktwaardeontwikkeling van verkochte woningen.

7. Hoe kan het model nauwkeurig zijn bij veranderende marktomstandigheden en als er een vertraging is in de levering van kadaster data?

De diepe patroonherkenning tussen data en verkoopprijzen is over een lange tijdsperiode opgebouwd, waarin verschillende marktsituaties zijn gepasseerd. Hoewel nieuwe verkoopgegevens steeds worden gebruikt om het model opnieuw te trainen is de incrementele verbetering in relatie met de historie niet zo groot (anders dan bij conventionele taxaties). Doordat in het model de verklarende data wel te allen tijde aanwezig is kan daarom nog steeds nauwkeurig worden getaxeerd. De waarde wordt immers in het model voornamelijk ontleend uit de patroonherkenning vanuit de uit het verleden beschikbare data.

Laatst bewerkt op 17 oktober 2019.