Instance Selection for Imbalanced Data

Sarah

Vluymans

Uit evenwicht: omgaan met ongebalanceerde informatie

Wanneer we op consultatie gaan bij de huisarts, gaan we ervan uit dat deze ons een correcte diagnose zal voorschotelen. Hij of zij zal zich daarbij baseren op vorige patiënten die gelijkaardige symptomen vertoonden. Indien we echter getroffen zijn door een zeldzame ziekte, waarvan slechts een klein aantal positieve gevallen bekend zijn ten opzichte van een groot aantal negatieve, kan de correcte detectie ervan erg moeilijk zijn. Recent onderzoek toont aan dat het bedachtzaam reduceren van de beschikbare data de herkenning van zulke zeldzame fenomenen sterk kan bevorderen. Betere conclusies door minder informatie te gebruiken? Dit klinkt misschien tegenstrijdig, maar het nut ervan wordt bewezen in verschillende domeinen.

Classificatie
Net als de dokter de juiste diagnose voor de patiënt probeert te bepalen, zo ook bestaan er computerprogramma’s die specifiek ontwikkeld zijn om een fenomeen toe te wijzen aan een klasse. Dit proces wordt classificatie genoemd. Het programma zal dit doen op basis van beschikbare data, waarvan de klasse reeds met zekerheid gekend is. Zo kan van een ziek persoon beslist worden of hij al dan niet aan een bepaalde ziekte leidt door zijn symptomen te vergelijken met zowel eerdere gevallen van deze ziekte als gezonde personen.

Een belangrijk doel van deze programma’s is uiteraard om in zoveel mogelijk gevallen de correcte klasse te kiezen. Zowel de kracht van het programma als de beschikbare data waarop het zich baseert zijn hierbij van essentieel belang.

Uit balans
Een specifiek probleem dat in deze toepassingen kan optreden is dat de beschikbare data niet gebalanceerd is. Dit betekent dat de gegevens ongelijk verdeeld zijn over de verschillende klassen. In bovenstaand voorbeeld weerspiegelt zich dit in een relatief groot aantal gezonde mensen ten opzichte van een kleine proportie zieken. Bij een zeldzame ziekte kan men bijvoorbeeld beschikken over de gegevens van 1000 patiënten, waarvan er slechts 50 de ziekte vertonen ten opzichte van 950 gezonde patiënten.

Deze ongelijke verdeling kan de classificatieprocedure van een computerprogramma sterk hinderen. Het programma tracht immers een goed beeld te vormen van de klassen en op basis daarvan nieuwe individuen te classificeren. Wanneer het relatief weinig informatie heeft voor een bepaalde klasse, zal dit proces niet optimaal verlopen. Experimenteel onderzoek toont aan dat verschillende vooraanstaande programma’s inderdaad ondermaats presteren wanneer ze geconfronteerd worden met ongebalanceerde data. In het bijzonder worden nieuwe elementen al te makkelijk toegewezen aan de meerderheidsklasse. Dit zou dus leiden tot een, mogelijks onaanvaardbaar, groot aantal zieke patiënten die verkeerd als gezond worden beschouwd.

Reductie
Recent onderzoek toont aan dat het gericht reduceren van de gegevens de classificatie sterk kan bevorderen. Het brengt een betere detectie van positieve gevallen met zich mee, zonder daarbij in te boeten aan een goede detectie van negatieve gevallen. Bij het reduceren worden er elementen uit de gegevensbank verwijderd. Van de 1000 beschikbare patiënten kan er bijvoorbeeld beslist worden slechts 400 te gebruiken.

De reductie wordt uitgevoerd door een onafhankelijk programma, dat op zich geen rekening houdt met de classificatieprocedure. Het doel is om uit de beschikbare gegevens een representatieve groep te bepalen, die op haar beurt kan leiden tot een makkelijkere en meer correcte modellering van de klassen. In deze procedure kunnen zowel positieve als negatieve gevallen verwijderd worden, maar inherent zal de reductie bij de meerderheidsklasse echter sterker zijn. Dit heeft als onmiddellijk resultaat dat er een beter evenwicht in de beschikbare informatie wordt bereikt.

Bij het verwijderen van gegevens kan er rekening gehouden worden met hoe representatief ze zijn. Zo is het bijvoorbeeld minder zinvol om gegevens van atypische patiënten, ziek of niet ziek, te behouden, omdat die makkelijk kunnen leiden tot een verkeerd beeld van de ziekte en bijgevolg het stellen van de correcte diagnose vermoeilijken. Naast het verbeteren van de classificatieproces is het ook interessant om op te merken dat door het reduceren van de data tevens de vereiste opslagruimte afneemt, wat een extra voordeel is langs de informatica kant.

Toepassing
Naast het bovenstaande medische voorbeeld doet ongebalanceerdheid in data zich nog in verschillende andere domeinen voor. Zo treden er bijvoorbeeld bij fraudedetectie in verhouding veel minder positieve dan negatieve gevallen op. Ook in deze situatie zal de classificatieprocedure hiervan hinder ondervinden, wat verholpen kan worden door de beschikbare data eerst te reduceren.

Doordat de reductie gebeurt door een alleenstaand programma, onafhankelijk van de gebruikte classificatie, kan het met verschillende van deze procedures gecombineerd worden. Dit biedt een comfortabele vrijheid aan de gebruiker, zodat een gepaste combinatie voor elke toepassing kan geselecteerd worden. Een ongunstige balans zal een goede classificatie dus niet langer in de weg staan.