Big Data
Om ‘Big Data‘ te begrijpen, moeten we eerst weten wat ‘data’ is. Het Oxford woordenboek definieert ‘data’ als –
“De hoeveelheid karakters of symbolen waarop bewerkingen worden uitgevoerd door een computer, die opgeslagen en verzonden kunnen worden in de vorm van elektrische signalen en opgenomen op magnetische, optische of mechanische opslagmedia.”
Dus, ‘Big Data’ is eveneens data maar dan van een enorm volume. ‘Big Data’ is een term die we gebruiken om gegevens te verzamelen van een enorme omvang en op te slaan in een data warehouse. Zodanig het volume ook nog exponentieel kan groeien met de tijd. Kortom, de hoeveelheid data is zo groot en complex dat er geen traditionele data-management-tools zijn die het kunnen opslaan of efficiënt verwerken. Data management gaat dan een probleem vormen.
Big Data kan in drie vormen voor komen:
Kenmerkend voor deze vormen is de opslag in een data warehouse systeem.
Alle data die we kunnen opslaan, raadplegen en verwerken in de vorm van een vaste indeling, duiden we aan als een ‘gestructureerde’ data. In de loop der tijd hebben knappe koppen in de informatica veel successen geboekt bij het ontwikkelen van technieken voor het werken met dergelijke gegevens (waar de indeling vooraf bekend is). Zij slaagden er in om dit rendabel te maken voor de opdrachtgever. Tegenwoordig ziet Data management zich geconfronteerd met problemen die voortvloeien uit het volume van dergelijke datasets. De grote mate van groeit leidt soms tot de omvang van meerdere Zettabytes.
1 zettabyte is gelijk aan 10 21 bytes ofwel een miljard terabyte
Met zulke volumecijfers is het gemakkelijk te begrijpen waar de naam ‘Big Data’ vandaan komt. Je kan je voorstellen wat de uitdagingen voor de opslag en verwerking voor het data management zijn. OLTP-systemen zijn gebouwd om te werken met gestructureerde data waarin gegevens met hun relaties in tabellen zijn opgeslagen.
Data opgeslagen in een relational database management systeem is een voorbeeld van ‘gestructureerde’ data.
Datasets met een onbekende vorm of structuur vallen onder de noemer van ongestructureerde data. Naast het feit dat de omvang enorm is, leidt ongestructureerde data tot meerdere uitdagingen voor het data management met betrekking tot het verkrijgen van toegevoegde waarde uit de data. Een typisch voorbeeld van ongestructureerde data is een heterogene gegevensbron die een combinatie bevat van eenvoudige tekstbestanden, afbeeldingen, video’s, enz. Er zijn organisaties die beschikken over een grote hoeveelheid data, maar helaas niet weten hoe die data hen van nut kan zijn. Deze data heeft een ruwe of ongestructureerde indeling. Het zoeken en veredelen van zulke data noemen we ook wel data mining.
Een voorbeeld van ongestructureerde data zijn de zoekresultaten die ‘Google Search’ ons levert.
Semi-structured data kan beide vormen van data bevatten. We kunnen semi-gestructureerde gegevens zien als gestructureerd, maar dan niet gedefinieerd zoals bijvoorbeeld een tabeldefinitie in relationele DBMS. Voorbeeld van semi-gestructureerde data is een XML-bestand.
De explosieve groei van de hoeveelheid data is gekomen na de jaren 90 na de introductie van het internet. De hoeveelheid Web Application Data was in 2010 al het drievoudige van de OLTP data.
Houd er rekening mee dat webapplicatie data, die ongestructureerd is, bestaat uit webpagina’s, foto’s en video’s maar uit logbestanden, transactiegeschiedenisbestanden, enz.
(I) Volume – De naam ‘Big Data’ zelf heeft betrekking op een omvang die enorm is. De omvang van de data speelt een cruciale rol bij het bepalen van waarde die we uit de data kunnen halen. Bepalend of we data daadwerkelijk als Big Data kunnen beschouwen is het volume van de data. Dus ‘Volume’ is altijd een kenmerk dat we moeten meenemen bij het omgaan met ‘Big Data’.
(II) Verscheidenheid –Het volgende aspect van ‘Big Data’ is verscheidenheid.
Verscheidenheid verwijst naar heterogene bronnen en de aard van de gegevens, die zowel gestructureerd als ongestructureerd kan zijn. Vroeger waren spreadsheets en databases de enige opslagvormen die voor de meeste toepassingen werden overwogen. Nu slaan we ook data in de vorm van e-mails, foto’s, video’s, bewakingsapparaten, PDF’s, audio, enzovoort. op. Deze opslagvormen moeten we in de analysetoepassingen overwegen. De verscheidenheid van ongestructureerde data stelt bepaalde problemen voor:
(III) Velocity –De term Velocity ofwel ‘snelheid’ verwijst naar de snelheid waarmee we data creëren. Big Data Velocity heeft betrekking op de snelheid waarmee data uit bronnen zoals bedrijfsprocessen, applicatie logboeken, netwerken en sociale media sites, sensoren, mobiele apparaten, enzovoort. komt. Deze datastromen zijn massaal en constant. De snelheid waarmee we de kunnen data genereren en verwerken bepaalt het echte potentieel in de data.
(IV) Variabiliteit –Dit geeft aan hoe we met de inconsistentie die soms in de data zit omgaan zodat het proces in staat is om de data effectief te verwerken, te beheersen en te filteren.
De mogelijkheid om ‘Big Data’ te verwerken heeft meerdere voordelen. Deze zijn:
Toegang tot sociale data uit zoekmachines en sites, zoals Facebook en Twitter, stellen organisaties in staat hun bedrijfsstrategieën te verbeteren.
Traditionele klant-feedbacksystemen vervangt men door nieuwe systemen die gebruik maken van ‘Big Data’ technologieën. In deze nieuwe systemen gebruiken we Big Data en op natuurlijke taal gebaseerde technologieën. Zo kunnen we consumentenreacties lezen en evalueren.
Bij nieuwe applicaties kunnen we ‘Big Data’ technologieën gebruiken voor de voorlopige opslag van de nieuwe data voordat we weten welke data we in het data warehouse willen opnemen. Daarnaast kan de integratie van bedrijfsapplicaties met ‘Big Data’ technologieën en data warehouse oplossingen helpen bij het laden van ‘real time data’ die we daar opslaan.
Discussieer mee op LinkedIn.
Mogelijk is dit een vertaling van Google Translate en kan fouten bevatten. Klik hier om mee te helpen met het verbeteren van vertalingen.