Data discovery tools

Hoe zorgen data gedreven organisaties er voor dat data snel gevonden wordt en dat nieuwe medewerkers snel productief zijn?

De vraag naar data management is de afgelopen jaren flink gestegen. Overal zie je binnen bedrijven opeens data owners, data stewards, en metadata repositories (in welke vorm dan ook) opkomen. Dat doen we met z'n allen vooral omdat het moet. Van de AVG. Of van andere instanties die willen dat we kunnen achterhalen waar onze data vandaan komt.

Maar een heel belangrijke reden wordt volgens mij steeds over het hoofd gezien. Eentje die wel degelijk een significante invloed heeft op bedrijfsresultaten, maar die meestal niet in de KPI's naar boven komt. En dat is hoeveel tijd het kost om de juiste data te vinden als data producten gemaakt worden.

Denk daarbij aan de tijd die het een nieuwe data engineer kost om een pipeline te maken, of een data scientist om een model te bouwen. Daar hebben we data voor nodig. Dan begint het al vaak met rondvragen waar die data te vinden is (als we al van het bestaan ervan weten). Daarvoor moet deze data engineer of data scientist een andere collega van haar werk houden. Soms voor een kwartier, maar het kan ook zijn dat die collega voor enkele weken ingeschakeld moet worden om de verschillende velden uit te leggen. En je hebt ook collega's die nooit aan hun eigen werk toe komen, omdat er gewoon heel veel data specialisten zijn die hun hulp nodig hebben.

Data discovery tools

Komt die data engineer of data scientist niet bij de juiste data, dan kan het ook zijn dat ze aan de slag gaan met verkeerde data. En dan kun je er na maanden pas achter komen dat een model of rapportage op drijfzand is gebouwd. "Die tabel die je gebruikt hebt, is speciaal gemaakt voor afdeling X, maar die houdt geen rekening met Y of Z", hoor je dan. Begin dus maar weer opnieuw met zoeken.

Veel van deze verloren tijd blijft onder de radar. Maar niet bij alle bedrijven. Er zijn organisaties waar ze bijvoorbeeld KPI's hebben hoe snel nieuwe medewerkers (van data teams) up to speed zijn. Als het in het algemeen te lang duurt om volledig mee te draaien in data teams, menen zij, dan is er wat mis.

"Maar dat is toch logisch dat je wilt dat nieuwe medewerkers snel mee draaien?", zullen sommigen zeggen. Nou vergeet het maar. Ik heb bij een organisatie gewerkt waar ze letterlijk zeiden dat ze het beter vonden als nieuwe medewerkers een beetje zoekende bleven. Dan leerden ze het bedrijf zo langzamerhand kennen. Bedenk ook dat dit zoeken (naar data) niet na 6 maanden opeens ophoudt.

Hoe zorgen die data gedreven organisaties er dan voor dat data snel gevonden wordt en dat nieuwe medewerkers snel productief zijn? Daarvoor heb je makkelijk beschikbare informatie nodig bij de data die je als organisatie hebt. Metadata dus. In veel gevallen bevindt die metadata nog in Excel sheets, maar je ziet nu een nieuw type product opkomen, namelijk data discovery tools.

Zelf heb ik al ervaring op kunnen doen met een van die tools: Apache Atlas. In Atlas kun je data in een Hadoop data lake van labels voorzien (tags), waarin je metadata kunt achter laten. Dat is superhandig. Je kunt vertellen wie de eigenaar van de data is, wat een veld betekent, misschien zelfs verwijzen naar een data catalog. Atlas kan ook de data lineage laten zien zolang zich dat in het data lake af speelt. En dat is een van de nadelen van Atlas: het betreft alleen metadata voor een Hadoop data lake. Vrijwel geen enkele organisatie heeft alle data alleen in het data lake.

Ik weet dat ik destijds al zocht naar een tool die meer kon. Maar de conclusie was steeds "die tool is er gewoon niet". Recent is daar echter verandering in gekomen. Er zijn meerdere open source data discovery tools op de "markt" gekomen. Zelf heb ik al even kunnen kijken naar Amundsen van het bedrijf Lyft (een ride sharing bedrijf). Amundsen kan RDBMS-sen, NoSQL databases en componenten in een data lake indexeren. On premise of in de cloud! Amundsen laat dan ook gelijk even aantallen rijen, null waarden, distincte waarden en voorbeeld data zien (zover toegang natuurlijk).

En het is niet alleen een technisch feestje. Aan die tabellen en files kan een data owner gehangen worden, compleet met contactgegevens. Als je iets niet duidelijk is, of er klopt iets niet aan de metadata, dan kan de gebruiker ook gelijk een issue bekend maken. Die wordt dan in bijvoorbeeld Jira meegenomen worden. (Dus initieel wordt die ene collega waaraan alles gevraagd wordt nog even gestoord, maar we zorgen dat dat daarna niet meer hoeft.)

Amundsen is niet de enige data discovery tool. LinkedIn heeft vorig jaar DataHub open source gemaakt. En er wordt gewerkt aan OpenLineage, een open standaard voor metadata en data lineage. Het voelt allemaal nog een beetje nieuw, maar als dit de ontwikkeling is, dan gaan we de goede kant uit.

Over een tijdje wordt het de normaalste zaak dat nieuwe medewerkers bij binnenkomst een laptop, een account en een link naar het data discovery platform krijgen. En dat nieuwe medewerkers snel op volle toeren mee draaien in hun teams. De organisaties waarin zij werken zullen net dat voordeel hebben ten opzichte van hun concurrenten, omdat ze data producten veel sneller kunnen bouwen.

Ik kan niet wachten tot ik data discovery tools overal ga tegen komen. Bij onze Certified Data Engineering Professional opleiding gaan we het, naast data lakes, data warehouses en andere technologie ook zeker over data management hebben. Daar komen data discovery tools inmiddels ook aan bod.

Blogs

30 jaar intelligence: Nieuwe uitdagingen om met data waarde toe te voegen door Marco van den Doel — last modified 25-01-2022
Van oude computerterminal naar smartphone
De fascinerende wereld van testen door Marco van den Doel — last modified 30-12-2021
Verwacht het onverwachte
Verzekeraar creëert meerwaarde met slimme data hub door Marco van den Doel — last modified 20-12-2021
Klant maakt met betere voorspellingen met data
Op naar een mooi data gedreven 2022! door Marco van den Doel — last modified 14-12-2021
Data gedreven organisatie dient blijvend te worden gevoed
Machine Learning: De gereedschapskist van de data scientist door Marco van den Doel — last modified 21-12-2021
Machine Learning algoritmes zijn de gereedschappen voor een data scientist
Met data de wind in de zeilen door Marco van den Doel — last modified 28-01-2022
Met data management kiest u de juiste koers
Hoe ethisch is Facebook? door Marco van den Doel — last modified 05-11-2021
Is regulering en wetgeving voor AI nodig?
Boekbespreking: Data Teams van Jesse Anderson door Marco van den Doel — last modified 02-11-2021
Voor succesvolle big data projecten zijn drie teams nodig
Smells like AI door Marco van den Doel — last modified 01-11-2021
Artificial Intelligence creëert nieuwe muziek

Business Intelligence recente blogs

30 jaar intelligence: Nieuwe uitdagingen om met data waarde toe te voegen door Marco van den Doel — last modified 25-01-2022
Van oude computerterminal naar smartphone
Op naar een mooi data gedreven 2022! door Marco van den Doel — last modified 14-12-2021
Data gedreven organisatie dient blijvend te worden gevoed
De waarde van data voor het MKB door Marco van den Doel — last modified 09-12-2021
Bluemine ontzorgt MKB door data beheer

Business Intelligence Nieuws & Evenementen

Geruisloze transitie naar Microstrategy voor VLC & Partners door Marco van den Doel — last modified 24-01-2022
DIKW en MicroStrategy bekronen nieuwe samenwerking met gezamenlijke klant
Veneco ontbijtsessie over analytics door Marco van den Doel — last modified 11-11-2021
Op 21 januari was DIKW aanwezig tijdens een ontbijtsessie op uitnodiging van Veneco. DIKW mocht aan mooie klanten van Veneco een presentatie geven over de mogelijkheden van Analytics
EXASOL en DIKW Intelligence door Marco van den Doel — last modified 22-10-2021
EXASOL en DIKW Intelligence gaan samenverwerkingsverband aan