Wat zijn Apache en Apache Flink?

Wat zijn Apache Kafka en Apache Flink?

Kafka en Flink zijn open source streaming software. Je hebt klantdata in de ene database en verkoopgegevens in een data lake en van een partij buiten je bedrijf krijg je nog aanvullende gegevens. Maar ergens wil je dat die gegevens bij elkaar komen. Hoe zorg je dat die data bij elkaar komt? Streaming software. Streaming software is overigens een mogelijke oplossing. Maar in veel gevallen wordt een product als Kafka ingezet. Met Kafka kun je je data in de vorm van messages versturen (publishen) van machine 1 naar een centraal "topic". Een proces op een machine 2 kan dat topic uitlezen (consumen). Met Kafka kan ervoor gezorgd worden dat deze stromen redundant worden uitgevoerd (dus doordat je zaken dubbel of meer uitvoert, is de kans kleiner dat je data kwijt raakt).

Apache Flink is ook een streaming pakket, maar je kunt het ook voor batch gewijze doorvoer van data gebruiken. Bij zowel Kafka als Flink kun je data analyseren terwijl het naar je toe stroomt. In beide gevallen kun je bijvoorbeeld SQL queries runnen tegen de binnenkomende data.