Hoe Siri leert praten

Artikel

Siri G2P

Siri, de digitale assistent van Apple, kan praten. Toch is het voor haar niet zo eenvoudig om de juiste uitspraak van een woord te bepalen © Piotr Swat

Bommelding, verspringen, gynaecologie, december… hoe spreek je dat uit? Ook mensen struikelen soms over de uitspraak van woorden. Het lijkt dus bijna onmogelijk om dit aan een computer te leren. 

 

Toch vinden we vandaag overal computergestuurde voorleessystemen terug. Denk maar aan de stem in de GPS, omroepsystemen in treinstations en de steeds populairder wordende digitale assistenten zoals de Google Assistent, Siri en Alexa. Informaticastudent Robrecht Meersman (UGent) ging in zijn masterproef op zoek naar de beste methode om de uitspraak van een woord te bepalen, met als einddoel: een stem ontwikkelen die onmogelijk te onderscheiden valt van de menselijke stem.

December

Maar hoe werkt dat nu, hoe weet Siri hoe ze een uitdagend woord als ‘december’ moet uitspreken? Er zitten drie letters E in het woord december en die worden elk op een verschillende manieren uitgesproken.

Robrecht Meersman: “Om te weten hoe een woord wordt uitgesproken, zet de spraakcomputer de woorden eerst om naar hun fonetische representatie. Het populairste fonetisch alfabet IPA maakt gebruik van vreemde letters die elk een unieke klank voorstellen: december schrijf je bijvoorbeeld als desɛmbər.” 

Het einddoel? Een stem ontwikkelen die onmogelijk te onderscheiden valt van de menselijke stem

Meestal gebruikt de spraakcomputer hiervoor een woordenboek waarin de meest voorkomende woorden zijn opgenomen. Helaas is dit in de praktijk niet voldoende. “Er komen dagelijks nieuwe woorden bij, mensen gebruiken onbestaande woorden of lenen woorden uit een andere taal. Bovendien bestaan er woorden die meerdere mogelijke uitspraken hebben, afhankelijk van hun betekenis in de zin: denk maar aan vérspringen en verspríngen. Het is dus onmogelijk om alles in een woordenboek op te nemen. ”

Taalkundig

Wanneer een woord niet in het woordenboek voorkomt, zal de spraakcomputer zelf de uitspraak bepalen op basis van de traditionele regels van de taal. “Deze regels worden door professionele taalkundigen ingegeven, een intensief en tijdrovend werk. Bovendien zou een taal geen taal zijn zonder de vele uitzonderingen op die regels.”

De klemtoon voorspellen blijkt voor een spraakcomputer nog altijd een stevige uitdaging

Vandaag is het mogelijk om deze regels volledig te vervangen door machine learning, een vorm van artificiële intelligentie. Hierbij bepaalt de computer zelf hoe je een woord moet uitspreken, gebaseerd op een grote hoeveelheid voorbeelden. “Door telkens te vertellen waar het netwerk een fout maakte, zal het uiteindelijk zelfstandig leren hoe die taal werkt. Er komt dus geen enkele taalkundige regel meer aan te pas.” 

Klemtoon

Deze zelflerende methode blijkt zeer goed te werken in vergelijking met het oude, regelgebaseerde alternatief. Robrecht Meersman: “In mijn masterproefonderzoek vergeleek ik de foutenmarge in twee talen: het Kroatisch en het Turks. Er bleek een groot verschil te bestaan tussen beide systemen: als we de regelgebaseerde systemen vergelijken met de zelflerende methode, dan daalde de foutenmarge bij het Kroatisch van 85% naar amper 29% en bij het Turks van 50% naar 15%. We boeken dus een grote winst wanneer we gebruikmaken van machine learning.” 

Alleen de klemtoon voorspellen bleek ook voor de computer een stevige uitdaging: “Een klemtoon bepalen verloopt zeer intuïtief.”

Jobs

Linguïsten hoeven zich voorlopen nog geen zorgen te maken, stelt Robrecht Meersman: “Hoewel de vertaling via machine learning kwalitatiever, eenvoudiger en goedkoper is, zullen de taalkundigen altijd wel een rol blijven spelen. Al zullen ze eerder woordenboeken samenstellen dan regels ingeven.”

Promotor: prof. dr. Jan Cnops, mevr. Corinne Bos

Lees de scriptie
 


Robrecht Meersman neemt deel aan de Vlaamse Scriptieprijs 2019. Studeer je dit jaar af en verdient jouw bachelor- of masterproef meer aandacht? Doe nú mee aan de Vlaamse Scriptieprijs en maak kans op prijzen tot 2.500 euro! Scripties over technologie maken ook kans op de Agoriaprijs

Dit artikel verscheen ook op de website van EOS-magazine en in de Vlaamse Scriptiekrant.

Eos Siri

 

 

LEES OOK

Share this on: