Ontwikkelen van een schaalbaar en modulair PaaS voor Big Data oplossingen

Merlijn
Sebrechts

Big Data: los het op met Legoblokken

Er komt een tsunami van digitale informatie op ons af, en we zijn er niet op voorbereid. 90% van alle digitale data in de wereld is in de voorbije twee jaar gecreëerd. 80% van de data is ongestructureerd, wat wil zeggen dat ze niet eenvoudig begrijpbaar is voor computers. Big Data is een redelijk nieuw onderzoeksdomein dat probeert waardevolle informatie te halen uit die data. De relevantie van dit onderzoeksdomein kan niet groter zijn. Diep verborgen in de Big Data zit een schat aan informatie die ons kan helpen ziektes te bestrijden, criminelen op te sporen, en wellicht zelfs het klimaat te redden.

Als voorbeeld kunnen we kijken naar het ziekenfonds CM. Met meer dan vier miljoen leden heeft dit ziekenfonds een rijkdom aan informatie over ziektes en behandelingen. Door zorgvuldige analyse van deze informatie kan dit ziekenfonds vele mensenlevens redden. Enkele jaren geleden adviseerde de CM bijvoorbeeld om de behandeling van slokdarmkanker te centraliseren in enkele gespecialiseerde ziekenhuizen, om zo het slaagcijfer van behandelingen te verhogen.

We zitten echter met een probleem. Om Big Data te analyseren is er een grote groep van samenwerkende servers, of een cluster, nodig. Iedere server in de cluster neemt een heel specifiek deel op zich en moet samenwerken met andere servers. Die cluster kan heel groot worden. In 2011 had Facebook bijvoorbeeld al een Big Data cluster die bestond uit 11.000 servers. Het manueel beheren van zoveel servers is natuurlijk onmogelijk. Daarom gebruiken bedrijven automatisatiehulpmiddelen zoals Puppet en Chef. Deze hulpmiddelen maken het mogelijk om met één klik een volledige cluster automatisch op te zetten. Deze hulpmiddelen kan je vergelijken met een bouwplan dat een architect maakt. Systeemontwikkelaars maken zo’n bouwplan, en kunnen zo heel eenvoudig meerdere identieke clusters automatisch opzetten. Moet de cluster aangepast worden? Dan maken de systeemontwikkelaars een wijziging aan het bouwplan en voer je de wijziging door naar de cluster. Net zoals bij het bouwen van een huis moet je dus terug naar een architect om wijzigingen te maken. Langs de ene kant wil dit zeggen dat het aanpassen van een cluster veel tijd, geld en kennis vraagt. Anderzijds zorgt dit er ook voor dat ieder bedrijf zijn eigen bouwplan moet maken, met grote voorafgaande investeringen tot gevolg.

Deze thesis geeft een oplossing voor dit probleem: digitale Legoblokken om een Big Data cluster mee te bouwen. Zo kan een systeembeheerder met beperkte kennis over Big Data oplossingen de digitale Legoblokken combineren tot de perfecte oplossing voor zijn probleem. Dit zonder dat er een gespecialiseerde systeemontwikkelaar aan te pas moet komen.

Concreet wordt iedere logische deelcomponent, of service, van een Big Data cluster door een systeemontwikkelaar in een bouwsteen gestoken. Je hebt dan bijvoorbeeld een bouwsteen voor trage maar grondige analyse, een bouwsteen voor snelle maar oppervlakkige analyse en een bouwsteen die data opslaat. Iedere bouwsteen neemt de automatisatie van dat deel van de cluster op zich. Deze bouwstenen kan een gewone systeembeheerder combineren tot een gepersonaliseerde Big Data cluster. Op deze manier is het mogelijk om een op maat gemaakte cluster te hebben zonder het wiel te moeten heruitvinden.

In het kader van deze masterproef werd deze architectuur geïmplementeerd en getest. Tengu, een open source Big Data platform ontwikkeld in de IBCN onderzoeksgroep van UGent, werd omgezet in een schaalbaar en modulair Big Data platform.

Met behulp van dit platform wordt het mogelijk voor iedere organisatie om de kracht van Big Data analyse te gebruiken. De kracht van Big Data analyse in handen van organisaties met beperkte middelen kan grote gevolgen hebben. Zo krijgen Vlaamse bedrijven bijvoorbeeld de kans om mee te draaien op wereldniveau. Ook kleinere organisaties krijgen de mogelijkheid om waardevolle informatie te halen uit Big Data. Wie weet komt hieruit wel het inzicht dat het klimaat zal redden!

Download scriptie (1.85 MB)
Universiteit of Hogeschool
Universiteit Gent
Thesis jaar
2015