BIG DATA: Soorten, kenmerken en voordelen

Gerelateerde artikelen

Big Data

Om ‘Big Data‘ te begrijpen, moeten we eerst weten wat ‘data’ is. Het Oxford woordenboek definieert ‘data’ als –

“De hoeveelheid karakters of symbolen waarop bewerkingen worden uitgevoerd door een computer, die opgeslagen en verzonden kunnen worden in de vorm van elektrische signalen en opgenomen op magnetische, optische of mechanische opslagmedia.”

Dus, ‘Big Data’ is eveneens data maar dan van een enorm volume. ‘Big Data’ is een term die we gebruiken om gegevens te verzamelen van een enorme omvang en op te slaan in een data warehouse. Zodanig het volume ook nog exponentieel kan groeien met de tijd. Kortom, de hoeveelheid data is zo groot en complex dat er geen traditionele data-management-tools zijn die het kunnen opslaan of efficiënt verwerken. Data management gaat dan een probleem vormen.

‘Big Data’ categorieën

Big Data kan in drie vormen voor komen:

Gestructureerde data.
Ongestructureerd data.
Semi-gestructureerde data.

Kenmerkend voor deze vormen is de opslag in een data warehouse systeem.

Gestructureerde data

Alle data die we kunnen opslaan, raadplegen en verwerken in de vorm van een vaste indeling, duiden we aan als een ‘gestructureerde’ data. In de loop der tijd hebben knappe koppen in de informatica veel successen geboekt bij het ontwikkelen van technieken voor het werken met dergelijke gegevens (waar de indeling vooraf bekend is). Zij slaagden er in om dit rendabel te maken voor de opdrachtgever. Tegenwoordig ziet Data management zich geconfronteerd met problemen die voortvloeien uit het volume van dergelijke datasets. De grote mate van groeit leidt soms tot de omvang van meerdere Zettabytes.

1 zettabyte is gelijk aan 10 ²¹ bytes ofwel een miljard terabyte

Met zulke volumecijfers is het gemakkelijk te begrijpen waar de naam ‘Big Data’ vandaan komt. Je kan je voorstellen wat de uitdagingen voor de opslag en verwerking voor het data management zijn. OLTP-systemen zijn gebouwd om te werken met gestructureerde data waarin gegevens met hun relaties in tabellen zijn opgeslagen.

Data opgeslagen in een relational database management systeem is een voorbeeld van ‘gestructureerde’ data.

Ongestructureerd data

Datasets met een onbekende vorm of structuur vallen onder de noemer van ongestructureerde data. Naast het feit dat de omvang enorm is, leidt ongestructureerde data tot meerdere uitdagingen voor het data management met betrekking tot het verkrijgen van toegevoegde waarde uit de data. Een typisch voorbeeld van ongestructureerde data is een heterogene gegevensbron die een combinatie bevat van eenvoudige tekstbestanden, afbeeldingen, video’s, enz. Er zijn organisaties die beschikken over een grote hoeveelheid data, maar helaas niet weten hoe die data hen van nut kan zijn. Deze data heeft een ruwe of ongestructureerde indeling. Het zoeken en veredelen van zulke data noemen we ook wel data mining.

Een voorbeeld van ongestructureerde data zijn de zoekresultaten die ‘Google Search’ ons levert.

Semi-gestructureerde data

Semi-structured data kan beide vormen van data bevatten. We kunnen semi-gestructureerde gegevens zien als gestructureerd, maar dan niet gedefinieerd zoals bijvoorbeeld een tabeldefinitie in relationele DBMS. Voorbeeld van semi-gestructureerde data is een XML-bestand.

Gegevensgroei in de loop der jaren

De explosieve groei van de hoeveelheid data is gekomen na de jaren 90 na de introductie van het internet. De hoeveelheid Web Application Data was in 2010 al het drievoudige van de OLTP data.

Houd er rekening mee dat webapplicatie data, die ongestructureerd is, bestaat uit webpagina’s, foto’s en video’s maar uit logbestanden, transactiegeschiedenisbestanden, enz.

Kenmerken van ‘Big Data’

(I) Volume – De naam ‘Big Data’ zelf heeft betrekking op een omvang die enorm is. De omvang van de data speelt een cruciale rol bij het bepalen van waarde die we uit de data kunnen halen. Bepalend of we data daadwerkelijk als Big Data kunnen beschouwen is het volume van de data. Dus ‘Volume’ is altijd een kenmerk dat we moeten meenemen bij het omgaan met ‘Big Data’.

(II) Verscheidenheid –Het volgende aspect van ‘Big Data’ is verscheidenheid.

Verscheidenheid verwijst naar heterogene bronnen en de aard van de gegevens, die zowel gestructureerd als ongestructureerd kan zijn. Vroeger waren spreadsheets en databases de enige opslagvormen die voor de meeste toepassingen werden overwogen. Nu slaan we ook data in de vorm van e-mails, foto’s, video’s, bewakingsapparaten, PDF’s, audio, enzovoort. op. Deze opslagvormen moeten we in de analysetoepassingen overwegen. De verscheidenheid van ongestructureerde data stelt bepaalde problemen voor:

De opslag (data management).
Het ontginnen (data mining) van data.
Het analyseren van data.

(III) Velocity –De term Velocity ofwel ‘snelheid’ verwijst naar de snelheid waarmee we data creëren. Big Data Velocity heeft betrekking op de snelheid waarmee data uit bronnen zoals bedrijfsprocessen, applicatie logboeken, netwerken en sociale media sites, sensoren, mobiele apparaten, enzovoort. komt. Deze datastromen zijn massaal en constant. De snelheid waarmee we de kunnen data genereren en verwerken bepaalt het echte potentieel in de data.

(IV) Variabiliteit –Dit geeft aan hoe we met de inconsistentie die soms in de data zit omgaan zodat het proces in staat is om de data effectief te verwerken, te beheersen en te filteren.

Voordelen van Big Data Processing

De mogelijkheid om ‘Big Data’ te verwerken heeft meerdere voordelen. Deze zijn:

Organisaties kunnen kennis van buiten toepassen bij het nemen van beslissingen

Toegang tot sociale data uit zoekmachines en sites, zoals Facebook en Twitter, stellen organisaties in staat hun bedrijfsstrategieën te verbeteren.

Verbeterde klantenservice

Traditionele klant-feedbacksystemen vervangt men door nieuwe systemen die gebruik maken van ‘Big Data’ technologieën. In deze nieuwe systemen gebruiken we Big Data en op natuurlijke taal gebaseerde technologieën. Zo kunnen we consumentenreacties lezen en evalueren.

Vroege identificatie van risico voor het product / diensten
Betere operationele efficiëntie

Bij nieuwe applicaties kunnen we ‘Big Data’ technologieën gebruiken voor de voorlopige opslag van de nieuwe data voordat we weten welke data we in het data warehouse willen opnemen. Daarnaast kan de integratie van bedrijfsapplicaties met ‘Big Data’ technologieën en data warehouse oplossingen helpen bij het laden van ‘real time data’ die we daar opslaan.

Discussieer mee op LinkedIn.

Samenvatting

Artikel

BIG DATA: Soorten, kenmerken en voordelen

Beschrijving

'Big Data' is een term die we gebruiken bij het verzamelen van gegevens van een enorme omvang en op te slaan in een data warehouse zodat het volume ook nog exponentieel kan groeien met de tijd. Welke soorten, kenmerken en voordelen zijn er?

Auteur

Wim Hoogenraad

Publisher Naam

ITpedia

Publisher Logo

Mogelijk is dit een vertaling van Google Translate en kan fouten bevatten. Klik hier om mee te helpen met het verbeteren van vertalingen.