Big Data en SaaS
Veel SaaS providers bieden voor Big Data slecht één oplossing voor één zakelijke behoefte. Sommige providers maken echter simpelweg een Hadoop-cluster waarop je je software kunt te laten draaien. Anderen bieden eigen algoritmen om patronen in de data te volgen of te ontcijferen. Weer anderen bieden een integraal platform voor meerdere van dit soort services.
Ongeacht onze informatiebehoefte kan een van dit soort Software as a Service (SaaS) providers ons bedrijf helpen aan de slag te gaan. Ze richten zich namelijk op cloud-gebaseerde Big Data Analytics-functionaliteit op bedrijfsniveau. Jammer genoeg schieten ze ook vaak tekort in het invullen van onze analytische behoeften.
Dit soort gedistribueerde verwerkingssystemen vragen dus om een continue interactie tussen de IT-afdeling, softwareontwikkelaars en data-analisten. Ze zijn notoir moeilijk te engineeren. Deze projecten kunnen daarom gemakkelijk weken of maanden uitlopen. Alleen al het configureren van het Hadoop cluster vraagt extra tijd van de ontwikkelaars. En hoe groter het cluster, hoe langer het kan duren om dit voor elkaar te krijgen.
De volgende generatie big data-analysetools automatiseert de stappen van hardware naar system-engineer. Dankzij automatisering kunnen ontwikkelaars bovendien bijna onmiddellijk toegang krijgen tot een Hadoop-cluster.
Dankzij nieuwe SaaS-services kunnen we processen eenvoudig en snel inrichten. De software ontwikkelaars stellen de standaardinfrastructuur- en standaard analysemodellen in. Als deze omgeving eenmaal staat krijgen ze een webprotal die toegang geeft tot de databronnen die ze nodig hebben. Ze doen dit door patronen aan te passen die ze ook zelf definiëren. Met een paar muisklikken kunnen de ontwikkelaars ruimte in hun cloud creëren en een of meerdere big data-stacks inrichten. Met enkele extra klikken kunnen ze tevens automatisch data en informatie opnemen in de datastacks die ze hebben gemaakt. De ontwikkelaars kunnen daarbij bovendien vertrouwen op cloudgebaseerde beveiliging die gevoelige bedrijfsdata beschermt. Deze manier van werken vereenvoudigt en versnelt de interactie tussen ontwikkelaars en IT.
De verbeterde interactie zorgt er voor dat de data-analisten eenvoudiger en sneller bedrijfsdata kunnen op te nemen in het systeem. Daardoor kunnen ze eerder starten met het verkrijgen van kritische zakelijke inzichten. Sterker nog, automatisering biedt een zekere mate van veerkracht en creëert robuustere big data-systemen.
Helaas voldoen niet alle nieuwe SaaS-oplossingen aan deze beschrijving is het bovendien vaak moeilijk om de marketing-facade heen te prikken. We moeten dus zeker weten dat we de juiste oplossing hebben gekozen voor onze doeleinden. Hieronder staan enkele zaken die we in gedachten moeten houden bij het kiezen van het juiste platform.
Een belangrijk voordeel van open source is de enorme keuze en transparantie bij het analyseren van onze data. Sommige bedrijven kunnen eisen dat we een volledige reeks opensource- of bedrijfssoftware downloaden voor onze big data analyse. De meeste gebruikers vinden echter dat deze aanpak de gedachte achter het werken met open source software ondermijnt. Over het algemeen is het daarom beter om een provider te vinden die ons toestaat om hun software te omzeilen en meteen onze eigen cloudoplossing te installeren.
Data is het meest gevoelige onderdeel als het gaat om het gebruik en vertrouwen van een SaaS-systeem. Zorg ervoor dat onze provider onze bedrijfsdata niet gebruikt of doorverkoopt. Vermijd daarom oplossingen die onze data kunnen overnemen in hun eigen cloud.
Sommige SaaS applicaties zijn nog niet klaar voor gebruik. Het bouwen van een Hadoop-cluster op een van deze systemen kan meer problemen veroorzaken dan oplossen. Zorg er dus voor dat de provider die we kiezen ons toegang geeft tot open source-tools die op brede schaal worden toegepast. Kies bovendien de open source-tools die breed aanvaardt zijn vanuit een oogpunt van beveiliging, prestaties en kosten.
Automatisering is de sleutel tot snelle ontwikkeling van enterprise big data-mogelijkheden. Het SaaS-aanbod van tegenwoordig kent vele niveaus van automatisering. Zorg ervoor dat je het systeem kiest dat past bij je huidige behoeften, maar ook kan meegroeien met je onderneming wanneer deze behoeften veranderen.
Zelfs als je deze services binnen enkele minuten kan laten draaien hebben de meeste bedrijven meer nodig dan alleen Hadoop en Spark. We moeten op zoek naar een SaaS-provider die ons de keuze geeft uit een breed scala aan tools. Denk aan verschillende functies (Kafka, Elasticsearch, Zeppelin, etc.). We hoeven ze echter niet allemaal te gebruiken. Op deze manier kunnen we de wijze waarop ons bedrijf met data omgaat volledig aanpassen, zonder dat telkens upgrades nodig zijn. Hoe meer opties, hoe meer we kunnen doen met onze data. Dat is tenslotte waar het over gaat.
Provisioning clusters is een relatief eenvoudig proces en niet bijzonder nieuw. Op met name voor applicaties zoals Hadoop is het al langer in gebruik. Zodra we het cluster hebben ingericht, hebben we een effectief systeem nodig om onze bedrijfsdata binnen te halen. Daarna kan het echte analysewerk beginnen. Het te selecteren SaaS platform dient over deze tools te beschikken.
De dataclusters die we maken, moeten zich in onze eigen omgeving bevinden. Daarom moet onze infrastructuur veilig worden gehost in ons cloudaccounts. we moet dus volledige toegang hebben en volledig verantwoordelijk kunnen zijn voor onze infrastructuur en onze data.
Discussieer mee op LinkedIn.
Mogelijk is dit een vertaling van Google Translate en kan fouten bevatten. Klik hier om mee te helpen met het verbeteren van vertalingen.