Data discovery tools

Hoe zorgen data gedreven organisaties er voor dat data snel gevonden wordt en dat nieuwe medewerkers snel productief zijn?

De vraag naar data management is de afgelopen jaren flink gestegen. Overal zie je binnen bedrijven opeens data owners, data stewards, en metadata repositories (in welke vorm dan ook) opkomen. Dat doen we met z'n allen vooral omdat het moet. Van de AVG. Of van andere instanties die willen dat we kunnen achterhalen waar onze data vandaan komt.

Maar een heel belangrijke reden wordt volgens mij steeds over het hoofd gezien. Eentje die wel degelijk een significante invloed heeft op bedrijfsresultaten, maar die meestal niet in de KPI's naar boven komt. En dat is hoeveel tijd het kost om de juiste data te vinden als data producten gemaakt worden.

Denk daarbij aan de tijd die het een nieuwe data engineer kost om een pipeline te maken, of een data scientist om een model te bouwen. Daar hebben we data voor nodig. Dan begint het al vaak met rondvragen waar die data te vinden is (als we al van het bestaan ervan weten). Daarvoor moet deze data engineer of data scientist een andere collega van haar werk houden. Soms voor een kwartier, maar het kan ook zijn dat die collega voor enkele weken ingeschakeld moet worden om de verschillende velden uit te leggen. En je hebt ook collega's die nooit aan hun eigen werk toe komen, omdat er gewoon heel veel data specialisten zijn die hun hulp nodig hebben.

Komt die data engineer of data scientist niet bij de juiste data, dan kan het ook zijn dat ze aan de slag gaan met verkeerde data. En dan kun je er na maanden pas achter komen dat een model of rapportage op drijfzand is gebouwd. "Die tabel die je gebruikt hebt, is speciaal gemaakt voor afdeling X, maar die houdt geen rekening met Y of Z", hoor je dan. Begin dus maar weer opnieuw met zoeken.

Veel van deze verloren tijd blijft onder de radar. Maar niet bij alle bedrijven. Er zijn organisaties waar ze bijvoorbeeld KPI's hebben hoe snel nieuwe medewerkers (van data teams) up to speed zijn. Als het in het algemeen te lang duurt om volledig mee te draaien in data teams, menen zij, dan is er wat mis.

"Maar dat is toch logisch dat je wilt dat nieuwe medewerkers snel mee draaien?", zullen sommigen zeggen. Nou vergeet het maar. Ik heb bij een organisatie gewerkt waar ze letterlijk zeiden dat ze het beter vonden als nieuwe medewerkers een beetje zoekende bleven. Dan leerden ze het bedrijf zo langzamerhand kennen. Bedenk ook dat dit zoeken (naar data) niet na 6 maanden opeens ophoudt.

Hoe zorgen die data gedreven organisaties er dan voor dat data snel gevonden wordt en dat nieuwe medewerkers snel productief zijn? Daarvoor heb je makkelijk beschikbare informatie nodig bij de data die je als organisatie hebt. Metadata dus. In veel gevallen bevindt die metadata nog in Excel sheets, maar je ziet nu een nieuw type product opkomen, namelijk data discovery tools.



Zelf heb ik al ervaring op kunnen doen met een van die tools: Apache Atlas. In Atlas kun je data in een Hadoop data lake van labels voorzien (tags), waarin je metadata kunt achter laten. Dat is superhandig. Je kunt vertellen wie de eigenaar van de data is, wat een veld betekent, misschien zelfs verwijzen naar een data catalog. Atlas kan ook de data lineage laten zien.. zolang zich dat in het data lake af speelt. En dat is een van de nadelen van Atlas: het betreft alleen metadata voor een Hadoop data lake. Vrijwel geen enkele organisatie heeft alle data alleen in het data lake.

Ik weet dat ik destijds al zocht naar een tool die meer kon. Maar de conclusie was steeds "die tool is er gewoon niet". Recent is daar echter verandering in gekomen. Er zijn meerdere open source data discovery tools op de "markt" gekomen. Zelf heb ik al even kunnen kijken naar Amundsen van het bedrijf Lyft (een ride sharing bedrijf). Amundsen kan RDBMS-sen, NoSQL databases en componenten in een data lake indexeren. On premise of in de cloud! Amundsen laat dan ook gelijk even aantallen rijen, null waarden, distincte waarden en voorbeeld data zien (zover toegang natuurlijk).

En het is niet alleen een technisch feestje. Aan die tabellen en files kan een data owner gehangen worden, compleet met contactgegevens. Als je iets niet duidelijk is, of er klopt iets niet aan de metadata, dan kan de gebruiker ook gelijk een issue bekend maken. Die wordt dan in bijvoorbeeld Jira meegenomen worden. (Dus initieel wordt die ene collega waaraan alles gevraagd wordt nog even gestoord, maar we zorgen dat dat daarna niet meer hoeft.)

Amundsen is niet de enige data discovery tool. LinkedIn heeft vorig jaar DataHub open source gemaakt. En er wordt gewerkt aan OpenLineage, een open standaard voor metadata en data lineage. Het voelt allemaal nog een beetje nieuw, maar als dit de ontwikkeling is, dan gaan we de goede kant uit.

Over een tijdje wordt het de normaalste zaak dat nieuwe medewerkers bij binnenkomst een laptop, een account en een link naar het data discovery platform krijgen. En dat nieuwe medewerkers snel op volle toeren mee draaien in hun teams. De organisaties waarin zij werken zullen net dat voordeel hebben ten opzichte van hun concurrenten, omdat ze data producten veel sneller kunnen bouwen.

Ik kan niet wachten tot ik data discovery tools overal ga tegen komen. Bij onze Certified Data Engineering Professional opleiding gaan we het, naast data lakes, data warehouses en andere technologie ook zeker over data management hebben. Daar komen data discovery tools inmiddels ook aan bod.

Blogs

Data gedrevenheid is proces van lange adem door Marco van den Doel — last modified 16-09-2021
Data is een ingrediënt dat zorgt voor meerwaarde op lange termijn
Hoe data leidt tot de optimalisatie van de customer journey door Marco van den Doel — last modified 03-09-2021
Ondersteun uw customer journey met data strategie
Wat is data engineering? door Marco van den Doel — last modified 03-09-2021
Hoe word je een data engineer?
De fasen om te transformeren naar een data gedreven organisatie door Marco van den Doel — last modified 02-09-2021
Welke vier fasen doorloopt een organisatie naar data gedrevenheid?
Data gedreven organisaties hebben grotere kans om te overleven door Marco van den Doel — last modified 02-09-2021
Transformeren naar een data gedreven organisatie kost tijd
Data gedreven logistiek onderhoud voorkomt uitval door Marco van den Doel — last modified 06-09-2021
Operationele en logistieke kosten lager door gebruik van data
Er zijn meer logistieke wegen die naar Rome leiden door Marco van den Doel — last modified 03-09-2021
Duurzame innovatieve logistieke oplossing op basis van data science
Welke sandwich mogen wij voor u bereiden? door Marco van den Doel — last modified 03-09-2021
Data gedrevenheid is als een goede en juist belegde sandwich
Met data bijdragen aan een betere wereld door Marco van den Doel — last modified 03-09-2021
DIKW is partner van Sensing Clues
In het verleden behaalde resultaten... door Marco van den Doel — last modified 02-09-2021
Data zorgt voor betere resultaten in de toekomst
Blokkade Ever Given geeft noodzaak betere data science aan door Marco van den Doel — last modified 02-09-2021
Containerschip blokkeert Suezkanaal
Van voor naar achteren en van links naar rechts in de logistieke keten door Marco van den Doel — last modified 02-09-2021
Het verminderen van opslagkosten en verplaatsingen van het aantal containers

Business Intelligence recente blogs

Data gedrevenheid is proces van lange adem door Marco van den Doel — last modified 16-09-2021
Data is een ingrediënt dat zorgt voor meerwaarde op lange termijn
De fasen om te transformeren naar een data gedreven organisatie door Marco van den Doel — last modified 02-09-2021
Welke vier fasen doorloopt een organisatie naar data gedrevenheid?
Data gedreven organisaties hebben grotere kans om te overleven door Marco van den Doel — last modified 02-09-2021
Transformeren naar een data gedreven organisatie kost tijd

Business Intelligence Nieuws & Evenementen

Geruisloze transitie naar Microstrategy voor VLC & Partners door Marco van den Doel — last modified 06-09-2021
DIKW en MicroStrategy bekronen nieuwe samenwerking met gezamenlijke klant
Veneco ontbijtsessie over analytics door Marco van den Doel — last modified 06-09-2021
Op 21 januari was DIKW aanwezig tijdens een ontbijtsessie op uitnodiging van Veneco. DIKW mocht aan mooie klanten van Veneco een presentatie geven over de mogelijkheden van Analytics.
EXASOL en DIKW Intelligence door Marco van den Doel — last modified 06-09-2021
EXASOL en DIKW Intelligence gaan samenverwerkingsverband aan