Waarom een klassiek datawarehouse niet meer voldoende is
Een klassiek datawarehouse is vandaag niet meer voldoende om data te organiseren volgens de huidige normen. Door de evolutie van o.a. Internet of Things is er een overvloed aan (potentiële) data beschikbaar. Deze enorme gegevensverzamelingen worden gekenmerkt door vier dimensies, ook wel bekend als de 4 V’s van big data.
- Volume
De omvang van de datasets die moeten worden geanalyseerd en verwerkt, zijn veel groter geworden. Alleen al het volume van de gegevens vereist andere verwerkingstechnologieën dan de traditionele opslag- en verwerkingscapaciteiten.
- Velocity
De snelheid waarmee informatie binnenkomt, is ook enorm gestegen. Met de komst van 5G zullen we nog verder evolueren richting real-time verwerking omdat gegevens zo snel uitgewisseld kunnen worden.
- Variety
Er zijn veel bronnen die verschillende soorten data opleveren. Vroeger had je gestructureerde data die binnenkwam in het datawarehouse. Vandaag is er ook (semi) ongestructureerde data, een aanpassing in de architectuur dringt zich op. Je zou zelfs beroep kunnen doen op gegevens van derde partijen. Door de juiste linken te leggen tussen al die beschikbare data wordt een context gecreëerd en worden complexere vormen van waardecreatie mogelijk.
- Veracity
Dit gaat over de kwaliteit van data. Er is meer nood aan aandacht voor de kwaliteit en juistheid. Data moet de werkelijkheid vertegenwoordigen. Als er enige perceptie of vooroordeel ingebakken zit in de brongegevens, trek je deze perceptie door en maak je daar de waarheid van.
Een dataplatform dat past bij uw noden
Een dataplatform met aandacht voor al deze dimensies krijgt een centrale plaats in een datagedreven organisatie. Veel bedrijven werken nu met een zeer eenvoudige versie of hebben data in verschillende silo’s zitten. Om het volledige potentieel van data te benutten, dient dit gecentraliseerd te worden. Andere specificaties van het platform zijn te bepalen op basis van de noden.
De makkelijkste oplossing is kiezen voor een platform via een cloudprovider. De meest gehoorde ‘ja-maar’ argumenten draaien rond veiligheid, met topics als privacy en GDPR. Indien zo’n zaken spelen, kan je gaan voor de ‘ja-en’ strategie in de vorm van een hybride oplossing. Je kan bijvoorbeeld de meest gevoelige data lokaal houden.
Zo’n opsplitsing kan ook financieel interessant zijn. Rekenkracht kost in de cloud immers enkel geld als je het gebruikt. Zo’n hybride model kan een eerste stap zijn richting een eigen modern dataplatform.
Daarnaast is er nog de splitsing tussen opslag en rekenkracht. Deze maakt de toepassing van verregaande veiligheidsmaatregelen eenvoudig. Aan deze splitsing gaat best wel een denkoefening vooraf om dit zo efficiënt en geoptimaliseerd mogelijk te doen. Hou daarbij in het achterhoofd dat een platform geen doel op zich is, alles moet in het teken staan van waardecreatie door middel van data.