Ontwikkelen van een schaalbaar en modulair PaaS voor Big Data oplossingen

Merlijn Sebrechts
Big Data: los het op met LegoblokkenEr komt een tsunami van digitale informatie op ons af, en we zijn er niet op voorbereid. 90% van alle digitale data in de wereld is in de voorbije twee jaar gecreëerd. 80% van de data is ongestructureerd, wat wil zeggen dat ze niet eenvoudig begrijpbaar is voor computers. Big Data is een redelijk nieuw onderzoeksdomein dat probeert waardevolle informatie te halen uit die data. De relevantie van dit onderzoeksdomein kan niet groter zijn.

Ontwikkelen van een schaalbaar en modulair PaaS voor Big Data oplossingen

Big Data: los het op met Legoblokken

Er komt een tsunami van digitale informatie op ons af, en we zijn er niet op voorbereid. 90% van alle digitale data in de wereld is in de voorbije twee jaar gecreëerd. 80% van de data is ongestructureerd, wat wil zeggen dat ze niet eenvoudig begrijpbaar is voor computers. Big Data is een redelijk nieuw onderzoeksdomein dat probeert waardevolle informatie te halen uit die data. De relevantie van dit onderzoeksdomein kan niet groter zijn. Diep verborgen in de Big Data zit een schat aan informatie die ons kan helpen ziektes te bestrijden, criminelen op te sporen, en wellicht zelfs het klimaat te redden.Als voorbeeld kunnen we kijken naar het ziekenfonds CM. Met meer dan vier miljoen leden heeft dit ziekenfonds een rijkdom aan informatie over ziektes en behandelingen. Door zorgvuldige analyse van deze informatie kan dit ziekenfonds vele mensenlevens redden. Enkele jaren geleden adviseerde de CM bijvoorbeeld om de behandeling van slokdarmkanker te centraliseren in enkele gespecialiseerde ziekenhuizen, om zo het slaagcijfer van behandelingen te verhogen.

We zitten echter met een probleem. Om Big Data te analyseren is er een grote groep van samenwerkende servers, of een cluster, nodig. Iedere server in de cluster neemt een heel specifiek deel op zich en moet samenwerken met andere servers. Die cluster kan heel groot worden. In 2011 had Facebook bijvoorbeeld al een Big Data cluster die bestond uit 11.000 servers. Het manueel beheren van zoveel servers is natuurlijk onmogelijk. Daarom gebruiken bedrijven automatisatiehulpmiddelen zoals Puppet en Chef. Deze hulpmiddelen maken het mogelijk om met één klik een volledige cluster automatisch op te zetten. Deze hulpmiddelen kan je vergelijken met een bouwplan dat een architect maakt. Systeemontwikkelaars maken zo’n bouwplan, en kunnen zo heel eenvoudig meerdere identieke clusters automatisch opzetten. Moet de cluster aangepast worden? Dan maken de systeemontwikkelaars een wijziging aan het bouwplan en voer je de wijziging door naar de cluster. Net zoals bij het bouwen van een huis moet je dus terug naar een architect om wijzigingen te maken. Langs de ene kant wil dit zeggen dat het aanpassen van een cluster veel tijd, geld en kennis vraagt. Anderzijds zorgt dit er ook voor dat ieder bedrijf zijn eigen bouwplan moet maken, met grote voorafgaande investeringen tot gevolg.

Deze thesis geeft een oplossing voor dit probleem: digitale Legoblokken om een Big Data cluster mee te bouwen. Zo kan een systeembeheerder met beperkte kennis over Big Data oplossingen de digitale Legoblokken combineren tot de perfecte oplossing voor zijn probleem. Dit zonder dat er een gespecialiseerde systeemontwikkelaar aan te pas moet komen.

Concreet wordt iedere logische deelcomponent, of service, van een Big Data cluster door een systeemontwikkelaar in een bouwsteen gestoken. Je hebt dan bijvoorbeeld een bouwsteen voor trage maar grondige analyse, een bouwsteen voor snelle maar oppervlakkige analyse en een bouwsteen die data opslaat. Iedere bouwsteen neemt de automatisatie van dat deel van de cluster op zich. Deze bouwstenen kan een gewone systeembeheerder combineren tot een gepersonaliseerde Big Data cluster. Op deze manier is het mogelijk om een op maat gemaakte cluster te hebben zonder het wiel te moeten heruitvinden.

In het kader van deze masterproef werd deze architectuur geïmplementeerd en getest. Tengu, een open source Big Data platform ontwikkeld in de IBCN onderzoeksgroep van UGent, werd omgezet in een schaalbaar en modulair Big Data platform.

Met behulp van dit platform wordt het mogelijk voor iedere organisatie om de kracht van Big Data analyse te gebruiken. De kracht van Big Data analyse in handen van organisaties met beperkte middelen kan grote gevolgen hebben. Zo krijgen Vlaamse bedrijven bijvoorbeeld de kans om mee te draaien op wereldniveau. Ook kleinere organisaties krijgen de mogelijkheid om waardevolle informatie te halen uit Big Data. Wie weet komt hieruit wel het inzicht dat het klimaat zal redden!

Bibliografie

[1] Mark Ramm-Christensen. What’s the future of Juju?, March 2015.[2] Stephen Nelson-Smith. Test-Driven Infrastructure with Chef.[3] Chef (software), February 2015. Page Version ID: 647597295.[4] Nate Finch. What’s the future of Juju?, March 2015.[5] About Cookbooks — Chef Docs.[6] Nathan Marz and James Warren. Big Data: Principles and best practices of scalable realtime data systems. Manning Publications, Place of publication not identified, 1 edition edition, May 2015.[7] Douglas Laney. 3d data management: Controlling data volume, velocity and variety.META Group Research Note, 6, 2001.[8] Introducing Chef Server - Getting started with Chef.[9] John Allspaw and Jesse Robins. Web Operations.[10] Mark Ramm-Christensen. What’s the future of Juju?, March 2015.[11] Alexis Bruemmer. What’s the future of Juju?, March 2015.[12] J. Cha, S.-Y. Chou, and J. Stjepandi ́c. Moving Integrated Product Development to Service Clouds in the Global Economy: Proceedings of the 21st ISPE Inc. international Conference on Concurrent Engineering, September 8–11, 2014. IOS Press, September 2014.[13] Nate Finch. What’s the future of Juju?, March 2015.[14] partitioning - How can I resize an ext root partition at runtime? - Ask Ubuntu.[15] Mark Shuttleworth. Multi-user Juju Questions, March 2015.[16] Andrea De Mauro, Marco Greco, and Michele Grimaldi. What is big data? A consensual definition and a review of key research topics. In AIP Conference Proceedings, volume1644, pages 97–104. AIP Publishing, February 2015.[17] T. Vanhove, J. Vandensteen, G. Van Seghbroeck, T. Wauters, and F. De Turck. Kameleo: Design of a new Platform-as-a-Service for flexible data management. In 2014 IEEE Network Operations and Management Symposium (NOMS), pages 1–4, May 2014.[18] Mark Burgess. On the theory of system administration. Science of Computer Programming, 49(1–3):1–46, December 2003.

Universiteit of Hogeschool
Master of Science in de industriële wetenschappen: informatica
Publicatiejaar
2015
Kernwoorden