Listening to the Flock - Towards opinion mining through data-parallel, semi-supervised learning on social graphs.

Christophe
Van Gysel

Digitale computers zijn in staat om informatie sneller en op grotere schaal te verwerken dan mensen. Tijdens de Amerikaanse verkiezingen in 2012 speelde de analyse van persoonsinformatie een belangrijke rol voor het modelleren van kiezersgedrag. Dankzij deze modellen waren partijen in staat om zwevende kiezers te identificeren. Dit werk richt zich op een vergelijkbaar doel waarbij we publieke informatie van het sociale netwerk Twitter verzamelden over gebruikers in Vlaanderen. Vervolgens gebruiken we deze informatie om de verschillende politieke invloeden in hun sociale netwerken te achterhalen. Het doel van het werk ligt op het verwerken van gegevens op een grote schaal en hoge snelheid zonder menselijke tussenkomst. Hoewel een persoon in sommige gevallen betere verbanden kan ontdekken in informatie, is het moeilijk om dit te verwezenlijken op gelijkaardige schaal. In december 2013 hebben we gegevens van Twitter verzameld van ongeveer 12 000 gebruikers. Van elk van deze gebruikers verkregen we hun volgers en tweehonderd meest recentste tweets via openbare Twitter informatiebronnen. Op basis van deze gegevens induceerden we een graafstructuur gebaseerd op de interacties tussen gebruikers, met name keken we naar gebruikers die een andere gebruiker volgen en gebruikers die tweets van een andere gebruiker retweeten. Vervolgens identificeerden we de Twitter accounts van Vlaamse politieke partijen en naarmate hun locatie in de social graph wisten we de overige gebruikers een kansdistributie over deze partijen toe te wijzen. Meer bepaald keken we naar de kans dat een random walk over de social graph terecht kwam bij een politieke partij, telkens beginnende bij een willekeurige gebruiker. Voor alle gebruikers opgenomen in het onderzoek verkregen we dus een verdeling over de voornaamste Vlaamse politieke partijen. Het is belangrijk om op te merken dat de enige voorkennis van het systeem, specifiek tot het Vlaamse politieke landschap, de Twitteraccounts waren van acht politieke partijen. Alle informatie en voorspellingen over Vlaamse kiezers werd dus afgeleid van deze minimale domeinkennis. Om onze resultaten te beoordelen verkregen we lijsten van Twitter accounts van politiek geëngageerden. Deze lijsten werden gepubliceerd door de Vlaamse politieke partijen op Twitter. We veronderstellen dat gebruikers die deel uitmaken van deze lijsten gelinkt zijn met de partij die ze beschikbaar stelde. In totaal verkregen we een validatie set van 700 gebruikers. Na uitvoering van de random walk vergeleken we voor elke gebruiker in de validatie set de sterkste partij in hun individuele verdelingen met de partij waarmee ze gelinkt werden. Onze voorspelling is correct voor gemiddeld 85% van de politiek geëngageerden. Bijkomend merkten we op dat als een voorspelling verkeerd was, ze nog steeds relatief dichtbij viel in het politiek spectrum tegenover de gelinkte partij. Bijvoorbeeld werden gebruikers geassocieerd met een extreemlinkse partij voorspeld te behoren tot een meer gematigde linkse strekking. Onze resultaten kunnen echter niet gebruikt worden als een voorspelling van de verkiezingsuitslag. De Twitterpopulatie is nu eenmaal geen representatieve voorstelling van de Vlaamse kiezers. Bijkomend merken we ook op dat de politieke instelling van politiek geëngageerden nu eenmaal eenvoudiger te achterhalen is dan die van overige gebruikers. Vanwege het stemgeheim is het moeilijk om een validatie set te bekomen waarvan eveneens niet-politiek geëngageerde gebruikers deel uitmaken. In mei 2014, een week voor de Vlaamse verkiezingen, publiceerde de Universiteit Antwerpen in samenwerking met de onderzoeksgroep ADReM een persbericht over het onderzoek verricht in dit werk. Gelijktijdig met het persbericht werd ook een website (twitterbrengtraad.be) gelanceerd waarop individuele gebruikers hun resultaten konden opvragen. Het bericht werd verspreid door de meeste grote Vlaamse nieuwswebsites, verscheen in een aantal Vlaamse kranten (Metro, Het Laatste Nieuws en De Standaard) en werd besproken op de Vlaamse publieke omroep (Radio 1).

Download scriptie (1.69 MB)
Universiteit of Hogeschool
Universiteit Antwerpen
Thesis jaar
2014