MACHINE LEARNING AND POLLINATION NETWORKS: THE RIGHT FLOWER FOR EVERY BEE

Sarah Vanbesien Michiel Stock Niels Piot
Het combineren van nieuwe machine learning technieken met grote ecologische datasets, om zo predictiemodellen op te stellen. Deze kunnen zowel gebruikt worden om voorspellingen te maken voor nieuwe soorten, maar worden hier vooral toegepast om missing values te detecteren in bestaande datasets. De ecologische datasets zijn allemaal pollinatie/bestuivingsnetwerken.

Wiskunde en bestuiving: de juiste bloem voor iedere bij

Zomer... Vlinders fladderen in de tuin, wespen gaan overal op zoek naar zoetigheid, bijen foerageren van bloem tot bloem...

Insecten zijn in de eerste plaats met zichzelf bezig: ze zoeken voedsel. Het grote voordeel echter voor de planten is dat hun stuifmeel intussen naar andere bloemen verspreid wordt. Dit proces tussen insecten en planten wordt bestuiving of pollinatie genoemd, en ligt aan de basis van talrijke voedselketens. Ook het voedingspatroon van de mens is, zowel rechtstreeks als onrechtstreeks, uitermate afhankelijk van bestuiving. Daarom is het belangrijk in kaart te brengen welke bestuiver van welke plantensoort houdt. Wetenschappers doen dit aan de hand van een netwerk. Net zoals Facebook een sociaal netwerk voorstelt tussen jou en je vrienden, houden biologen nauwgezet bij welke insectensoort welke bloem verkiest. Jarenlang hebben biologen veldonderzoek gedaan om dergelijke netwerken te verzamelen. Het grote probleem is echter dat deze datasets worden opgesteld op basis van positieve observaties (deze bij bezoekt deze bloem). Alle interacties die worden waargenomen worden geklasseerd als positief (1) in het netwerk, terwijl alle niet-waargenomen interacties beschouwd worden als negatief (0). Het knelpunt van deze strategie is dus dat men nooit met zekerheid kan stellen dat een niet-geobserveerde interactie ook effectief niet voorkomt in de natuur. Bepaalde bestuivingen kunnen gemist worden tijdens een veldonderzoek en staan hierdoor valselijk als negatief geklasseerd in de dataset.

Betrouwbare data zijn cruciaal om juiste beheersmaatregelen te treffen. Men kan nooit accurate berekeningen of voorspellingen voor de toekomst maken als de data waarvan wordt uitgegaan niet correct zijn. Door bijvoorbeeld de klimaatverandering en globalisatie komen er steeds meer nieuwe dier- en plantensoorten in de natuur. Aan de hand van wiskundige modellen kunnen ecologen voorspellen hoe deze zich zullen integreren en kunnen ze de meest optimale beheersmaatregelen kiezen.

 

Machine learning

Zelfs de meest ervaren bioloog heeft moeite om het complex netwerk van bestuiving te ontrafelen. In mijn thesis zijn 'slimme' algoritmes ontwikkeld om in zo'n bestuivingsnetwerk naar patronen te zoeken. Machine learning is een discipline in de computerwetenschappen die modellen zélf patronen in data laat herkennen. Het doel is dat het model zichzelf regels aanleert op basis van de data, in plaats van deze handmatig en expliciet te programmeren. Een voorbeeld kan dit verduidelijken. Stel dat men een model wil bouwen dat bij het importeren van een foto het label 'man' of 'vrouw' toekent. Hier een programma voor uitschrijven is quasi onmogelijk aangezien het niet evident is regels op te stellen die het ene label eenduidig onderscheiden van het andere. In de praktijk lost men dergelijke problemen op door een zelflerend model te maken, dat eerst 'getraind' wordt door duizenden foto's van mannen en vrouwen met hun correcte label te verwerken. Op die manier leert het model zichzelf aan wanneer het welk geslacht moet toekennen en kan het nadien gebruikt worden om nieuwe foto's te classificeren.

Ditzelfde concept kan gebruikt worden om interacties tussen insecten en planten te classificeren als positief en negatief. Ondanks er heel wat soorten bestuivers zijn, wordt in mijn scriptie enkel gefocust op bijen. De gebruikte dataset is degene van het FlorAbeilles project in Frankrijk die 306 bijensoorten bevat en 453 plantensoorten. Hierin wordt op zoek gegaan naar interacties die als negatief aangeduid staan in deze dataset, maar (mogelijks) wel voorkomen in de natuur en zodoende als positief dienen geklasseerd te worden. Hiervoor zijn twee verschillende modellen opgesteld.

image

 

Verschillende modellen

Het eerste model baseert zich op het feit dat interacties in ecologische netwerken niet willekeurig zijn. Ecologische netwerken (en dus ook bestuivingsnetwerken) streven altijd stabiliteit na en bezitten bepaalde structuren die steeds terugkomen. Zo kunnen generalisten (soorten die met heel wat andere soorten interageren) en specialisten (soorten die maar met één of een zeer beperkt aantal soorten interageren) van elkaar onderscheiden worden. In de natuur zullen specialisten altijd met generalisten interageren en omgekeerd, in plaats van specialisten onderling. Wanneer de abundantie van één soort door omstandigheden zeer laag zou worden, komen andere soorten niet in het gedrang voor voedsel of bestuiving. Dit kenmerk heet 'genest' zijn en voorkomt dat een soort direct uitsterft als zijn partner verdwijnt, minimaliseert de competitie en vergroot zo het aantal soorten (planten en insecten) dat kan samenleven.

Men kan dus stellen dat het veel aannemelijker is dat een negatief geclassificeerde interactie uit de dataset fout is als dit een interactie was met een zeer generalistisch species. Het model genereert dan ook een score voor iedere interactie uit de dataset, die aangeeft hoe aannemelijk het is dat de interactie in de natuur voorkomt.

Opnieuw een voorbeeld:

image

Als men in de tabel de interactie Plant2-Pollinator2 bekijkt, is deze negatieve interactie waarschijnlijk correct. Beide species interageren zeer specifiek; het model zal een lage score geven. De interactie Plant4-Pollinator3 daarentegen is veel waarschijnlijker wel in de natuur plaats te vinden. Het interactiegedrag van de species verhoogt de score sterk, waardoor deze interactie naar voor geschoven kan worden voor verder onderzoek. Het uitlichten van zulke interacties kan verder veldonderzoek veel efficiënter en dus tijdsbesparender maken.

Het tweede model heeft hetzelfde doel, maar maakt niet enkel gebruik van patronen in het netwerk, maar ook van de eigenschappen van de verschillende planten en insecten. Voor iedere plant werd een lijst samengesteld met info over hun onderlinge verwantschap. (d.m.v. DNA van specifieke genen), hun morfologie (planthoogte, kleur en symmetrie van de bloem, aantal stijlen en meeldraden, enz.) en hun levenscyclus. Ook voor iedere bij werd gelijkaardige informatie verzameld (DNA, grootte, levenscyclus, vliegperiode, enz.). Al deze informatie wordt omgezet tot bruikbare input voor het model, en zo kan het model starten met leren welke kenmerken combineren tot een succesvolle bestuiving en welke niet. Ook hier duidt een score aan hoe waarschijnlijk de interacties zijn.

 

Conclusie

Na een grondige validatie van beide modellen bleek dat we niet alleen ontbrekende interacties in het netwerk konden detecteren; er waren ook goede voorspellingen mogelijk voor planten en bijen waarover geen data beschikbaar waren! Via mijn thesis wil ik aantonen dat wiskundige modellen en grote datasets ecologen kunnen helpen bij datacollectie en bij het nemen van goede beslissingen.

 

Bibliografie

[1] Angiosperm Phylogeny Group. An update of the angiosperm phylogeny group classification for the orders and families of flowering plants: Apg ii. Botanical Journal of the Linnean Society 141, 4 (2003), 399–436.

[2] Api:Cultural. Types of pollinators. URL = http://www.apicultural.co.uk/types-ofpollinators, consulted on 06-11-2017.

[3] Armbruster, W. S. Patterns of character divergence and the evolution of reproductive ecotypes of Dalechampia scandens (Euphorbiaceae). Evolution 39, 4 (1985), 733–752.

[4] Avraham, S., Jiang, S., Ota, S., Fu, Y., Deng, B., Dowler, L., White, R., and Avraham, H. Structural and functional studies of the intracellular tyrosine kinase MATK gene and its translated product. The Journal of Biological Chemistry 270 (1995), 1833–1842.

[5] Bangerth, K. Floral induction in mature, perennial angiosperm fruit trees: Similarities and discrepancies with annual/biennial plants and the involvement of plant hormones. Scientia Horticulturae 122, 2 (2009), 153–163.

[6] Barber, D. Bayesian Reasoning and Machine Learning. Cambridge University Press, 2012.

[7] Bastolla, U., Fortuna, M. A., Pascual-Garcia, A., Ferrera, A., Luque, B., and Bascompte, J. The architecture of mutualistic networks minimizes competition and increases biodiversity. Nature 458, 7241 (2009), 1018.

[8] Beach, J. H., and Bawa, K. S. Role of pollinators in the evolution of dioecy from distyly. Evolution 34, 6 (11 1980), 1138–1142.

[9] BOLDSystems. Barcode of life data system. URL = http://www.boldsystems.org, consulted on 21-10-2017.

[10] BugGuide. Identification, images & information. For insects, spiders & their kin. URL = https://bugguide.net/, consulted on 21-08-2017.

[11] Canard, E., Mouquet, N., Marescot, L., Gaston, K. J., Gravel, D., and Mouillot, D. Emergence of structural patterns in neutral trophic networks. PLoS One 7, 8 (2012), e38295.

[12] Cook, J. M., and Rasplus, J.-Y. Mutualists with attitude: coevolving fig wasps and figs. Trends in Ecology & Evolution 18, 5 (2003), 241 – 248.

[13] Cooper, G. The Cell: A Molecular Approach. Chloroplasts and Other Plastids, 2 ed. Sunderland (MA): Sinauer Associates, 2000. Available from: https://www.ncbi.nlm.nih.gov/books/NBK9905/.

[14] Cuturi, M. Sinkhorn distances: Lightspeed computation of optimal transportation distances. Advances in Neural Information Processing Systems 26 (06 2013).

[15] Demirel, ˙ I. The Monge-Kantorovich mass transportation problem. PhD thesis, Bilkent University, 2017.

[16] Desjardins-Proulx, P., Laigle, I., Poisot, T., and Gravel, D. Ecological interactions and the Netflix problem. PeerJ 5 (2017), e3644.

[17] Dey, S., North, J. A., Sriram, J., Evans, B. S., and Tabita, F. R. In vivo studies in Rhodospirillum rubrum indicate that ribulose-1,5-bisphosphate carboxylase/oxygenase (Rubisco) catalyzes two obligatorily required and physiologically significant reactions for distinct carbon and sulfur metabolic pathways. The Journal of Biological Chemistry 290 (2015), 30658–30668.

[18] Eggelte, H., Lid, D. T., and Ebregt, A. Veldgids Nederlandse Flora. KNNV, 2014.

[19] Evans, D. M., Kitson, J. J., Lunt, D. H., Straw, N. A., and Pocock, M. J. Merging DNA metabarcoding and ecological network analysis to understand and build resilient terrestrial ecosystems. Functional Ecology 30, 12 (2016), 1904–1916.

[20] Falk, S. J. Field Guide to the Bees of Great Britain and Ireland. British Wildlife Publishing, 2015. ’Veldgids Bijen voor Nederland en Vlaanderen’ is mostly a translation of this book, with a few adaptations for The Netherlands and Flanders.

[21] Featherly, H. I. Taxonomic Terminology of the Higher Plants. Lowa State College Press; Ames, Lowa, 1954.

[22] Fenster, C. B., Armbruster, W. S., Wilson, P., Dudash, M. R., and Thomson, J. D. Pollination syndromes and floral specialization. Annu. Rev. Ecol. Evol. Syst. 35 (2004), 375–403.

[23] Fortuna, M. A., Stouffer, D. B., Olesen, J. M., Jordano, P., Mouillot, D., Krasnov, B. R., Poulin, R., and Bascompte, J. Nestedness versus modularity in ecological networks: two sides of the same coin? Journal of Animal Ecology 79, 4 (2010), 811–817.

[24] García-Horsman, J. A., Barquera, B., Rumbley, J., Ma, J., and Gennis, R. B. The superfamily of heme-copper respiratory oxidases. Journal of Bacteriology 176, 18 (1994), 5587.

[25] GeneCards; Human Gene Database. Megakaryocyte-associated Tyrosine Kinase. URL = http://www.genecards.org/cgi-bin/carddisp.pl?gene=MATK, consulted on 15-10-2017.

[26] Gombault, C., Morison, N., Guilbaud, L., and Vaissiòre, B. E. FlorAbeilles: Base de données en ligne sur les interactions plantes-abeilles en France métropolitaine. INRA, Unité Abeilles et Environnement and Laboratoire de Pollinisation et Ecologie des Abeilles, Avignon, France (2018).

[27] Gower, J. C. A general coefficient of similarity and some of its properties. Biometrics (1971), 857–871.

[28] Granek, E. F. An analysis of Pteropus livingstonii roost habitat: Indicators for forest conservation on Anjouan and Moheli. Tri News (2000).

[29] Hall, B. G. Building phylogenetic trees from molecular data with MEGA. Molecular Biology & Evolution 30, 5 (2013), 1229–1235.

[30] Hegland, S. J., Nielsen, A., Lázaro, A., Bjerknes, A.-L., and Totland, Ø. How does climate warming affect plant-pollinator interactions? Ecology Letters 12, 2 (2009), 184–195.

[31] Heimans, E., Heinsius, H. W., and Thijsse, J. P. Geïllustreerde Flora van Nederland. 22. Versluys-Amsterdam, 1994.

[32] Hofmann, T. Probabilistic latent semantic indexing. SIGIR Forum 51, 2 (2017), 211–218.

[33] Iwasa, Y., Ezoe, H., and Yamauchi, A. Evolutionarily stable seasonal timing of univoltine and bivoltine insects. Series Entomologica 52 (1994), 69–89.

[34] James, G., Witten, D., Hastie, T., and Tibshirani, R. An Introduction to Statistical Learning, vol. 112. Springer, 2013.

[35] Klein, A. What is an intuitive explanation of the concept of entropy in information theory? URL = https://www.quora.com/What-is-an-intuitive-explanation-of-theconcept-of…, consulted on 03-04-2018.

[36] Kullback, S. Information theory and statistics. Courier Corporation, 1997.

[37] Levy, B., and Schwindt, E. Notions of optimal transport theory and how to implement them on a computer. arXiv preprint arXiv:1710.02634 (2017).

[38] Liu, C., Berry, P. M., Dawson, T. P., and Pearson, R. G. Selecting thresholds of occurrence in the prediction of species distributions. Ecography 28, 3 (2005), 385–393.

[39] Magrach, A., González-Varo, J. P., Boiffier, M., Vilà, M., and Bartomeus, I. Honeybee spillover reshuffles pollinator diets and affects plant reproductive success. Nature Ecology & Evolution 1, 9 (2017), 1299.

[40] Morales-Castilla, I., Matias, M. G., Gravel, D., and Araújo, M. B. Inferring biotic interactions from proxies. Trends in Ecology & Evolution 30, 6 (2015), 347–356.

[41] Newman, M. E. Modularity and community structure in networks. Proceedings of the National Academy of Sciences 103, 23 (2006), 8577–8582.

[42] Olmstead, R. G., Michaels, H. J., Scott, K. M., and Palmer, J. D. Monophyly of the asteridae and identification of their major lineages inferred from DNA sequences of rbcL. Annals of the Missouri Botanical Garden 79, 2 (1992), 249–265.

[43] Olsen, K. M. Pollination effectiveness and pollinator importance in a population of Heterotheca subaxillaris (Asteraceae). Oecologia 109, 1 (1996), 114–121.

[44] Pérez-Mellado, V., and Casas, J. L. Pollination by a lizard on a Mediterranean island. Copeia 1997, 3 (1997), 593–595.

[45] Petanidou, T. Pollination Ecology in a Phryganic Ecosystem. PhD. Thesis, Aristotelian University, Thessaloniki, 1991.

[46] Poisot, T., Cirtwill, A. R., Cazelles, K., Gravel, D., Fortin, M.-J., and Stouffer, D. B. The structure of probabilistic networks. Methods in Ecology & Evolution 7, 3 (2016), 303–312.

[47] Provost, F., and Kohavi, R. Guest editors’ introduction: On applied research in machine learning. Machine Learning 30, 2 (1998), 127–132.

[48] Pulliam, H. R. On the theory of optimal diets. The American Naturalist 108, 959 (1974), 59–74.

[49] Rafferty, N. E., and Ives, A. R. Phylogenetic trait-based analyses of ecological networks. Ecology 94, 10 (2013), 2321–2333.

[50] Refaeilzadeh, P., Tang, L., and Liu, H. Cross-validation. In Encyclopedia of Database Systems. Springer, 2009, pp. 532–538.

[51] Rutledge, R. W., Basore, B. L., and Mulholland, R. J. Ecological stability: an information theory viewpoint. Journal of Theoretical Biology 57, 2 (1976), 355–371.

[52] Samuel, A. L. Some studies in machine learning using the game of checkers. IBM Journal of Research and Development 3, 3 (1959), 210–229.

[53] Santamaría, L., and Rodríguez-Gironés, M. A. Linkage rules for plant–pollinator networks: trait complementarity or exploitation barriers? PLoS Biology 5, 2 (2007), e31.

[54] Schmid-Hempel, P., Kacelnik, A., and Houston, A. Honeybees maximize efficiency by not filling their crop. Behavioral Ecology and Sociobiology 17 (1985), 61.

[55] Schölkopf, B., and Smola, A. J. Learning with Kernels: Support Vector Machines, Regularization, Optimization, and beyond. MIT press, 2002.

[56] Schrynemackers, M., Küffner, R., and Geurts, P. On protocols and measures for the validation of supervised methods for the inference of biological networks. Frontiers in Genetics 4 (2013), 262.

[57] Shawe-Taylor, J., and Cristianini, N. Kernel Methods for Pattern Analysis. Cambridge University Press, 2004.

[58] Stock, M., De Baets, B., and Waegeman, W. Exact and Efficient Algorithms for Pairwise Learning. Ghent University PhD, 2017.

[59] Stock, M., Pahikkala, T., Airola, A., Waegeman, W., and De Baets, B. Algebraic shortcuts for leave-one-out cross-validation in supervised network inference. bioRxiv (2018), 242321.

[60] Su, X., and Khoshgoftaar, T. M. A survey of collaborative filtering techniques. Advances in Artificial Intelligence 2009 (2009), 4.

[61] USDA (United States Departement of Agriculture) and NRCS (Natural Resources Conservation Service). Plants database. URL = https://plants.usda.gov/java/, consulted on 15-10-2017.

[62] VanPeer, G., DePaepe, A., Stock, M., Anckaert, J., Volders, P.-J., Vandesompele, J., De Baets, B., and Waegeman, W. miSTAR: miRNA target prediction through modeling quantitative and qualitative miRNA binding site information in a stacked model structure. Nucleic Acids Research 45, 7 (2017), e51–e51.

[63] Vázquez, D. P., Chacoff, N. P., and Cagnolo, L. Evaluating multiple determinants of the structure of plant–animal mutualistic networks. Ecology 90, 8 (2009), 2039–2046.

[64] Waegeman, W., Stock, M., Dhiedt, E., Hoebeke, L., Puynen, S., and Vanwyck, T. Hoeveel informatie zit er in een ecologisch netwerk? Ghent University Bachelorproject, 2016.

[65] Wall, M. E., Rechtsteiner, A., and Rocha, L. M. Singular value decomposition and principal component analysis. In A Practical Approach to Microarray Data Analysis. Springer, 2003, pp. 91–109.

[66] WEB OF LIFE. Ecological networks database. URL = http://www.web-of-life.es/, consulted on 11-03-2018.

[67] Welling, M. Kernel ridge regression. Max Welling’s Classnotes in Machine Learning (2013), 1–3.

[68] Whitfield, C. W., Behura, S. K., Berlocher, S. H., Clark, A. G., Johnston, J. S., Sheppard, W. S., Smith, D. R., Suarez, A. V., Weaver, D., and Tsutsui, N. D. Thrice out of Africa: ancient and recent expansions of the honey bee, Apis mellifera. Science 314, 5799 (2006), 642–645.

[69] Wilson, A. G. The use of entropy maximising models, in the theory of trip distribution, mode split and route split. Journal of Transport Economics and Policy 3, 1 (1969), 108–126.
 

Universiteit of Hogeschool
Master of Science in de Bio-ingenieurswetenschappen: master milieutechnologie
Publicatiejaar
2018
Promotor(en)
Prof. Dr. Bernard De Baets, Prof. dr. ir. Guy Smagghe
Kernwoorden