Data Warehousing
Een data warehouse is één grote data repository van alle informatie, inclusief alle historische data, van de organisatie. Data warehousing is een complex proces waaronder het bouwen van een data repository in de vorm van een relationele database, zodat het bedrijf deze kan toepassen om data te gebruiken, te transformeren of te aggregeren tot bruikbare informatie.
In alle gevallen gebruiken organisaties data warehousing om een concurrentievoordeel te behalen en voor de ondersteuning van het besluitvormingsprocessen door middel van uitgebreide data analyse.
Enkele van de belangrijkste componenten van data warehousing zijn Decision Support Systems (DSS) en Data Mining (DM).
Datavolumes in data warehouses kunnen exponentieel groeien, dus er moet een manier zijn om deze enorme groei aan te pakken. De behoefte aan storage is een van de zaken die we serieus in overweging moeten nemen in een data warehouse. Hoge beschikbaarheid, hoog datavolume, hoge prestaties, schaalbaarheid en eenvoudig beheer spelen hierbij een grote rol.
Data Repository is een logische partitioning van data. Daarin bevinden zich meerdere databases die we gebruiken voor een applicatie. Verschillende databases (opzet, kosten) die financiële applicaties ondersteunen kunnen bijvoorbeeld in één financiële data repository zitten.
Het partitioneren van data in een logische of in sommige gevallen fysieke Data Repository kan enorm helpen om aan de eis te voldoen met betrekking tot het omgaan met de exponentiële groei van datavolumes in het datawarehouse. Als alle data in het datawarehouse niet in verschillende Data Repositories zijn gepartitioneerd, blijven de prestaties en efficiëntie van het data warehouse onder de maat.
Een ander aandachtspunt bij grote verwerkingen was altijd de centrale server. Als deze centrale server faalde, kwam het systeem tot stilstand. Dit kwam omdat alle data zich in één monolithisch systeem bevond en als de hardware faalde, was er geen back-up. Het kon enige tijd duren voordat de server was opgestart. Tegenwoordig kunnen in een commercieel bedrijf zelfs een paar minuten onderbreking zich vertalen naar duizenden euro’s verlies. Een data warehouse kan ook hier op een antwoord bieden.
Als we een Data Repository in het datawarehouse toepassen, kunnen we de verwerking verdelen over vele databases en over meerdere servers. In plaats van dat er één database de klant data verwerkt, kunnen verschillende databases verschillende aspecten van een klant tegelijkertijd afhandelen. Hierdoor ontstaat redundantie en is een snelle recovery mogelijk.
In een bedrijf met verschillende vestigingen, kunnen verschillende databases actief zijn. In plaats dat alle klanten in één database zitten zijn er verschillende klantendatabase die met dezelfde data repository werken. Dit is de zogenaamde gedistribueerde database. Zoals eerder vermeld, kunnen we verschillende afdelingsdatabases opsplitsen in verschillende repositories. Bijvoorbeeld een data repository die verschillende databases ondersteunt (inkomsten, uitgaven) waarvan verschillende financiële applicaties gebruik maken. Zij kunnen zich in één financiële data repository bevinden.
Een Data Repository biedt eenvoudigere en snellere toegang dankzij het feit dat gerelateerde informatie tot op zekere hoogte op één hoop wordt gegooid of geclusterd. In het voorbeeld met de financiële data repository hoeft iemand van de financiële afdeling die informatie wil met betrekking tot financiële gegevens bijvoorbeeld niet het volledige data volume in het data warehouse te doorzoeken.
Vanwege de gecompartimentaliseerde aard betekent de Data Repository voor database managers een eenvoudigere manier om het datawarehouse-systeem te onderhouden. Als er een probleem is met het systeem, kunnen we de oorzaak van het probleem eenvoudig opsporen zonder dat een top-down-benadering voor het hele datawarehouse nodig is. De meeste organisaties wijzen meestal één databasemanager of beheerder toe aan één data repository om de betrouwbaarheid van de data voor het hele systeem te waarborgen.
Het Data Warehouse en Big Data worden vaak met elkaar verward. In beide gevallen gaat het inderdaad om heel veel data. Om deze data goed te kunnen doorzoeken zetten we voor een data warehouse vaak een schaduwsysteem neer. De zoekopdrachten belemmeren dan niet het dagelijkse werk. De aard van de data van beide concepten is echter geheel anders. Zoals bovenstaande al doet vermoeden gaat het in een data warehouse om gestructureerde data in een relationele databases. Big data is meestal ongestructureerd en wordt in commerciële bedrijven door marketing gebruikt om analyses van de markt te maken. Daarbij associëren we Big Data ook vaak met cloud-oplossingen. Dit sluit overigens niet uit dat er zich tussen de Big Data ook relationele data kan bevinden.
Discussieer mee op LinkedIn.
Mogelijk is dit een vertaling van Google Translate en kan fouten bevatten. Klik hier om mee te helpen met het verbeteren van vertalingen.