Data discovery tools

Hoe zorgen data gedreven organisaties er voor dat data snel gevonden wordt en dat nieuwe medewerkers snel productief zijn?

De vraag naar data management is de afgelopen jaren flink gestegen. Overal zie je binnen bedrijven opeens data owners, data stewards, en metadata repositories (in welke vorm dan ook) opkomen. Dat doen we met z'n allen vooral omdat het moet. Van de AVG. Of van andere instanties die willen dat we kunnen achterhalen waar onze data vandaan komt.

Maar een heel belangrijke reden wordt volgens mij steeds over het hoofd gezien. Eentje die wel degelijk een significante invloed heeft op bedrijfsresultaten, maar die meestal niet in de KPI's naar boven komt. En dat is hoeveel tijd het kost om de juiste data te vinden als data producten gemaakt worden.

Denk daarbij aan de tijd die het een nieuwe data engineer kost om een pipeline te maken, of een data scientist om een model te bouwen. Daar hebben we data voor nodig. Dan begint het al vaak met rondvragen waar die data te vinden is (als we al van het bestaan ervan weten). Daarvoor moet deze data engineer of data scientist een andere collega van haar werk houden. Soms voor een kwartier, maar het kan ook zijn dat die collega voor enkele weken ingeschakeld moet worden om de verschillende velden uit te leggen. En je hebt ook collega's die nooit aan hun eigen werk toe komen, omdat er gewoon heel veel data specialisten zijn die hun hulp nodig hebben.

data-discovery-tools.png

Komt die data engineer of data scientist niet bij de juiste data, dan kan het ook zijn dat ze aan de slag gaan met verkeerde data. En dan kun je er na maanden pas achter komen dat een model of rapportage op drijfzand is gebouwd. "Die tabel die je gebruikt hebt, is speciaal gemaakt voor afdeling X, maar die houdt geen rekening met Y of Z", hoor je dan. Begin dus maar weer opnieuw met zoeken.

Veel van deze verloren tijd blijft onder de radar. Maar niet bij alle bedrijven. Er zijn organisaties waar ze bijvoorbeeld KPI's hebben hoe snel nieuwe medewerkers (van data teams) up to speed zijn. Als het in het algemeen te lang duurt om volledig mee te draaien in data teams, menen zij, dan is er wat mis.

"Maar dat is toch logisch dat je wilt dat nieuwe medewerkers snel mee draaien?", zullen sommigen zeggen. Nou vergeet het maar. Ik heb bij een organisatie gewerkt waar ze letterlijk zeiden dat ze het beter vonden als nieuwe medewerkers een beetje zoekende bleven. Dan leerden ze het bedrijf zo langzamerhand kennen. Bedenk ook dat dit zoeken (naar data) niet na 6 maanden opeens ophoudt.

Hoe zorgen die data gedreven organisaties er dan voor dat data snel gevonden wordt en dat nieuwe medewerkers snel productief zijn? Daarvoor heb je makkelijk beschikbare informatie nodig bij de data die je als organisatie hebt. Metadata dus. In veel gevallen bevindt die metadata nog in Excel sheets, maar je ziet nu een nieuw type product opkomen, namelijk data discovery tools.

Amundsen_Architecture.png

Zelf heb ik al ervaring op kunnen doen met een van die tools: Apache Atlas. In Atlas kun je data in een Hadoop data lake van labels voorzien (tags), waarin je metadata kunt achter laten. Dat is superhandig. Je kunt vertellen wie de eigenaar van de data is, wat een veld betekent, misschien zelfs verwijzen naar een data catalog. Atlas kan ook de data lineage laten zien.. zolang zich dat in het data lake af speelt. En dat is een van de nadelen van Atlas: het betreft alleen metadata voor een Hadoop data lake. Vrijwel geen enkele organisatie heeft alle data alleen in het data lake.

Ik weet dat ik destijds al zocht naar een tool die meer kon. Maar de conclusie was steeds "die tool is er gewoon niet". Recent is daar echter verandering in gekomen. Er zijn meerdere open source data discovery tools op de "markt" gekomen. Zelf heb ik al even kunnen kijken naar Amundsen van het bedrijf Lyft (een ride sharing bedrijf). Amundsen kan RDBMS-sen, NoSQL databases en componenten in een data lake indexeren. On premise of in de cloud! Amundsen laat dan ook gelijk even aantallen rijen, null waarden, distincte waarden en voorbeeld data zien (zover toegang natuurlijk).

En het is niet alleen een technisch feestje. Aan die tabellen en files kan een data owner gehangen worden, compleet met contactgegevens. Als je iets niet duidelijk is, of er klopt iets niet aan de metadata, dan kan de gebruiker ook gelijk een issue bekend maken. Die wordt dan in bijvoorbeeld Jira meegenomen worden. (Dus initieel wordt die ene collega waaraan alles gevraagd wordt nog even gestoord, maar we zorgen dat dat daarna niet meer hoeft.)

Amundsen is niet de enige data discovery tool. LinkedIn heeft vorig jaar DataHub open source gemaakt. En er wordt gewerkt aan OpenLineage, een open standaard voor metadata en data lineage. Het voelt allemaal nog een beetje nieuw, maar als dit de ontwikkeling is, dan gaan we de goede kant uit.

Over een tijdje wordt het de normaalste zaak dat nieuwe medewerkers bij binnenkomst een laptop, een account en een link naar het data discovery platform krijgen. En dat nieuwe medewerkers snel op volle toeren mee draaien in hun teams. De organisaties waarin zij werken zullen net dat voordeel hebben ten opzichte van hun concurrenten, omdat ze data producten veel sneller kunnen bouwen.

Ik kan niet wachten tot ik data discovery tools overal ga tegen komen. Bij onze Certified Data Engineering Professional opleiding gaan we het, naast data lakes, data warehouses en andere technologie ook zeker over data management hebben. Daar komen data discovery tools inmiddels ook aan bod.