Een nieuw en belangrijk onderdeel van informatiemanagement is het ontsluiten van kennis in teksten. Een goed voorbeeld hiervan is het “semantische web”, ofwel internet 2.0. Het einde van het vinden van informatie op basis van zoektermen alleen is nabij, er is gewoon teveel informatie online. Wat we nodig hebben is context.

Tekst wordt gezien als ‘unstructured data’. Met semantics en textmining kunnen we structuur aanbrengen in teksten en de kennis uit de tekst onderbrengen in een zogenaamde ‘kennis graaf’. Deze kennis graaf is een verzameling van feiten die zijn opgebouwd uit ‘triples’. Een voorbeeld: de term ‘Jaguar’ kan gaan over een dier of een auto. Als we de term in een document noemen, kunnen we door het vastleggen van deze kennis in de vorm van een triple (‘jaguar’ :: is_een :: ‘auto’) het document gelijk in de relevante context plaatsen!

Maar triples werken in een bredere context: organisaties kunnen met dit concept al hun data koppelen, over verschillende bronnen heen. Triples leggen relaties tussen documenten, data onderling, maar beschrijven ook meta-data!

Je zou ‘semantics’ ook als een datamodel kunnen zien waarmee je twee entiteiten kunt koppelen (plaats, persoon of ding) gebaseerd op de relatie tussen die twee dingen, een triple. Al die relaties tussen dingen vormen een (hiërarchisch) netwerk dat door zowel mens als machine gelezen en geïnterpreteerd kan worden. Met dit eenvoudige datamodel is het mogelijk om een vocabulaire op te bouwen van een wel haast oneindig aantal feiten en relaties in de wereld. De standaard taal om dergelijke feiten vast te leggen is RDF(Resource Description Framework) en de standaard bevraagtaal is SPARQL.

Bij DIKW ontwikkelen we een datamodel dat klaar is voor de toekomst, waarin semantics een essentieel onderdeel van moderne datawarehousing oplossingen is. Een semantisch datalake is een onmisbare asset in het data landschap van nu.