Machine translation between West Flemish and Standard Dutch: a pilot study

Rembert Hautekiet
In deze studie hebben we een automatisch vertaalsysteem ontwikkeld met een variant van het West-Vlaams als brontaal en het Standaardnederlands als doeltaal. Er werd eerst onderzocht hoe goed de kwaliteit was en hoe we die konden verhogen. Daarna werd het systeem toegepast op nieuw tekstmateriaal.

Machine translation between West Flemish and Standard Dutch: a pilot study

Klinken de zweverige strofen van Kenji Minogue als Chinees voor u? Droomt u ervan om Bevergem zonder ondertitels te bekijken? Of zou u maar al te graag die platte facebookpost van uw West-Vlaamse jeugdliefde ontrafelen? Dan bent u misschien gebaat met deze masterscriptie. We hebben namelijk een machine à la Google Translate ontwikkeld die automatisch uw teksten omzet van het West-Vlaams naar het Standaardnederlands.

Om dat te bereiken hebben we gebruik gemaakt van KantanMT, een online platform waarmee je een op maat gemaakt statistisch automatisch vertaalsysteem kan bouwen. Kort gezegd voed je zo’n systeem met grote verzamelingen teksten en hun vertalingen en 'leert’ het systeem welke woorden vertalingen zijn van elkaar en hoe zinnen gevormd worden in de doeltaal. Vervolgens wordt die kennis dan toegepast op nieuwe zinnen en genereert het de vertaling met de hoogste kans. Er komen dus geen grammaticaregels aan te pas.

In een eerste stap moesten we dus een groot aantal West-Vlaamse teksten verzamelen, samen met hun overeenkomstige vertalingen in het Nederlands. Dat was geen simpele opgave. Zo is het begrip ‘West-Vlaams’ heel ruim; iemand uit Knokke spreekt bijvoorbeeld een heel ander soort dialect dan iemand uit Poperinge. Bovendien zijn er voor de Nederlandse dialecten geen officiële spellingsregels vastgelegd. Daarom hebben we ons uiteindelijk toegespitst op één variant, namelijk het Oostendse stadsdialect, waarin er heel wat boeken geschreven zijn, allemaal gestandaardiseerd volgens de spelling van R. Desnerck. Enkele voorbeelden uit ons corpus zijn ‘80 Oostendse spookverhalen en wondervertellingen’, ‘Ostêns voe begunners én angespoelde’ en ‘Et doenker éjland’ (een Kuifjesstrip in het Oostends).

Als eerste onderzoeksvraag wilden we de kwaliteit van het systeem bepalen. Dit hebben we gedaan door o.a. te kijken of een aantal typisch West-Vlaamse kenmerken correct vertaald werden. Denk maar aan de driedubbele onderwerpsvormen (bv. “Hje klapt hie hém gin Ostêns zekers?”), de vastgegroeide voornaamwoorden (bv. “Héj dust? Joa ‘k, osan”) of het gebrek aan inversie (bv. “Inainki ze was ’t gat in”). De meeste van die karakteristieken werden juist omgezet. Daarnaast hebben we ook getracht de kwaliteit te verhogen door het Oostends-Nederlands woordenboek aan de verzameling tekstmateriaal toe te voegen samen met twee gigantische corpora in Standaardnederlands. Die bleken, in beperkte mate, een positieve invloed te hebben.

Bij de tweede en de derde onderzoeksvraag lieten we het Oostends-Nederlandse vertaalsysteem twee ‘ongeziene’ tekstjes naar het Nederlands vertalen. Het eerste was geschreven in het Oostends (volgens de spellingsconventies van R. Desnerck) en het tweede in het Brugs, een ander stadsdialect. Er zijn namelijk een aantal frappante verschillen tussen beide. Zo spreekt men in de Koningin der Badsteden van “e sjhon kéldertsje”, terwijl men het in de provinciehoofdstad heeft over “e s’on kaldertjie” om zijn lof te betuigen over de ruimte onder het huis. Die verschillen hebben we proberen op te vangen met een reeks specifieke herschrijfregels. Uit de resultaten bleek dat de automatische vertaling van de Oostendse tekst vrij goed was, en zeker voldoende om de belangrijkste ideeën te begrijpen. Het Brugs veroorzaakte echter nog wat moeilijkheden, vooral op het vlak van woordenschat.

In het algemeen heeft het pilootproject aangetoond dat het zeker mogelijk is om de bewoordingen van onze West-Vlaamse landgenoten automatisch naar het Nederlands te vertalen. Voor betere resultaten in de toekomst zou het interessant zijn nog meer teksten te verzamelen (eventueel via een crowdsourcing-initiatief) en om de nieuwste technologie op het vlak van automatische vertaling te gebruiken: neurale automatische vertaalsystemen gebaseerd op artificiële intelligentie. We zouden ook nog andere varianten uit de regio, zoals het Kortrijks of het Iepers, onder de loep kunnen nemen. 

Bibliografie

96 Normal 0 21 false false false NL X-NONE X-NONE /* Style Definitions */ table.MsoNormalTable {mso-style-name:Standaardtabel; mso-tstyle-rowband-size:0; mso-tstyle-colband-size:0; mso-style-noshow:yes; mso-style-priority:99; mso-style-parent:""; mso-padding-alt:0cm 5.4pt 0cm 5.4pt; mso-para-margin:0cm; mso-para-margin-bottom:.0001pt; mso-pagination:widow-orphan; font-size:12.0pt; font-family:"Calibri",sans-serif; mso-ascii-font-family:Calibri; mso-ascii-theme-font:minor-latin; mso-hansi-font-family:Calibri; mso-hansi-theme-font:minor-latin; mso-fareast-language:EN-US;}

ALPAC. (1966). Language and machines: computers in translation and linguistics. Washington, D.C.: National Academy of Sciences.

Bar-Hillel, Y. (1960). The present status of automatic translation of languages. Advances in computers, 1, 91-163.

Birch, A., Osborne, M. & Koehn, P. (2008). Predicting success in machine translation. EMNLP 2008: Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, Honolulu, Hawaii, USA. (pp. 745-754).

Callison-Burch, C., Osborne, M. & Koehn, P. (2006). Re-evaluating the role of BLEU in machine translation research. In 11th Conference of the European Chapter of the Association for Computational Linguistics, Trento, Italy, 3-7 April. (pp. 249-256).

Cho, K. et al. (2014). On the Properties of Neural Machine Translation: Encoder–Decoder Approaches. In Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation (SSST-8).

Coppen, P.A., Haeseryn, W. & de Vriend, F. (2002). Elektronische Algemene Nederlandse Spraakkunst. Retrieved April 11, 2017 from ans.ruhosting.nl/e-ans

Desnerck, R., Clement, A. & Jonckheere, K. (2006). Oostends woordenboek. De Haan: Desnerck.

Desnerck, R. (2014). 80 Oostendse spookverhalen en wondervertellingen. Damme: Zorro. De La Fontaine, J. & Van Houtryve, R. (2012). De La Fontaine in ‘t Brugs. Zedelgem: Het Beleefde Genot.

De Standaard. (17.12.2016). Google vertaalt voortaan ook Fries, Hawaiiaans en Luxemburgs. Retrieved February 24, 2017, from http://www.standaard.be

Devos, M. & Vandekerckhove, R. (2005). Taal in stad en land: West-Vlaams. Tielt: Lannoo.

Devos, M. (2013). The grammar of the southwestern dialects. In F. Hinskens & J. Taeldeman (Eds.), Language and Space: Dutch. (pp. 174-193). Berlin: De Gruyter Mouton.

Farrús, M., Costa-Jussa, M. R., Marino, J. B., Poch, M., Hernández, A., Henríquez, C. & Fonollosa, J. A. (2010). Overcoming statistical machine translation limitations: error analysis and proposed solutions for the Catalan–Spanish language pair. Language resources and evaluation, 45(2), 181-208.

Hearne, M. & Way, A. (2011). Statistical machine translation: a guide for linguists and translators. Language and Linguistics Compass, 5(5), 205-226.

Hutchins, W. & Somers, H. L. (1992). An introduction to machine translation. London: Academic Press.

Hutchins, W. (2010). Machine Translation: a concise history. Journal of Translation Studies, 13(1-2), 29-70.

Kelleher, J. D. (2016). Fundamentals of Machine Learning for Neural Machine Translation. In Translating Europe Forum 2016: Focussing on Translation Technologies. European Commission Directorate-General for Translation.

Koehn, P. (2010). Statistical Machine Translation. Cambridge: Cambridge University Press.

Le, Q. V. & Schuster, M. Google Brain Team. (27.09.2016). A Neural Network for Machine Translation, at Production Scale. Retrieved March 23, 2017 from http://research.googleblog.com

Lewis, D. & Yang, P. (2012). Building MT for a severely under-resourced language: White Hmong. Proceedings of the Tenth Biennial Conference of the Association for Machine Translation in the Americas. San Diego, CA. (10pp.)

Neubarth, F., Haddow, B., Hernández Huerta, A. & Trost, H. (2016). A hybrid approach to statistical machine translation between standard and dialectal varieties. In Z. Vetulani, H. Uszkoreit & M. Kubis (Eds.), Human Language Technology. Challenges for Computer Science and Linguistics. (pp. 341-353). Cham: Springer.

Oostdijk, N. (2000). Het Corpus Gesproken Nederlands. In Nederlandse Taalkunde, 5(3), 280-284.

Oostdijk, N. (2008). SoNaR: STEVIN Nederlandstalig Referencitcorpus. Retrieved May 26, 2017 from http://lands.let.ru.nl/projects/SoNaR/intro.html

Papineni, K., Roukos, S., Ward, T. & Zhu, W.-J. (2001). BLEU: a method for automatic evaluation of machine translation. Technical Report RC22176 (W0109-022), IBM Research Report.

Plumb, R. K. (08.01.1954). Russian is turned into English by a fast electronic translator. New York Times, p. 1.

Remi, G. & Desnerck, R. (2007). D’ aveteurn van Kuiftsje. Et doenker ejland. Brussel: Casterman.

Sabbe, S. H. (2005). Dialect in Zedelgem: kennis, attitudes, functionaliteit en resistentie. Unpublished M.A. thesis, Ghent University.

Sager, J. C. (1994). Language engineering and translation: consequences of automation. Amsterdam & Philadelphia: John Benjamins.

Schulz, S., Pauw, G. D., Clercq, O. D., Desmet, B., Hoste, V., Daelemans, W., & Macken, L. (2016). Multimodular text normalization of Dutch user-generated content. ACM Transactions on Intelligent Systems and Technology (TIST), 7(4), 61.

Snover, M., Dorr, B., Schwartz, R., Micciulla, L., & Makhoul, J. (2006). A study of translation edit rate with targeted human annotation. AMTA 2006: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas, “Visions for the Future of Machine Translation” (pp. 223-231).

Taeldeman, J. (2001). De regenboog van de Vlaamse dialecten. In J. Taeldeman, M. Devos & J. De Caluwe (Eds.), Het taallandschap in Vlaanderen. (pp. 1-15). Gent: Academia Press.

Taeldeman, J. (2013). The southwestern dialect area: Phonology. In F. Hinskens & J. Taeldeman (Eds.), Language and Space: Dutch. (pp. 150-173). Berlin: De Gruyter Mouton.

Tezcan, A., Hoste, V., & Macken, L. (2016). SCATE Taxonomy and Corpus of Machine Translation Errors. In G. Corpas Pastor & I. Durán Muñoz (Eds.), Trends in e-tools and resources for translators and interpreters. Brill.

Vandenbussche, F., Desnerck, R. & Van Elslander, R. (2012). Ostêns voe begunners én angespoelde. Damme: Zorro.

Vauqois, B. (1976). Automatic translation – a survey of different approaches. Statistical Methods in Linguistics, 127-135.

Van Gompel, M. & van den Bosch, A. (2014). Oersetter: Frisian-Dutch statistical machine translation. In P. Boersma, H. Brand, J. Spoelstra (Eds.), Philologia Frisica anno 2012. (pp. 287-296). Ljouwert: Fryske Akademy.

Weaver, W. (1949). Translation. In Locke W. N. & Booth A. D. (Eds.), Machine translation of languages, fourteen essays. (pp. 15-23). New York: The Technology Press of the Massachusetts Institute of Technology.

White, J. S. (1995). Approaches to black box MT evaluation. In Proceedings of Machine Translation Summit V (p. 10).

Yanishevsky, A. (2009). The emerging role of machine translation. In Localisation Guide 2009. (pp. 12-13). Sandpoint: Multilingual Computing Inc.

Yasuda, K., Zhang, R., Yamamoto, H. & Sumita, E. (2008). Method of selecting training data to build a compact and efficient translation model. In IJCNLP 2008: Third International Joint Conference on Natural Language Processing, 7-12 January. Hyderabad, India. 

96 Normal 0 21 false false false NL X-NONE X-NONE /* Style Definitions */ table.MsoNormalTable {mso-style-name:Standaardtabel; mso-tstyle-rowband-size:0; mso-tstyle-colband-size:0; mso-style-noshow:yes; mso-style-priority:99; mso-style-parent:""; mso-padding-alt:0cm 5.4pt 0cm 5.4pt; mso-para-margin:0cm; mso-para-margin-bottom:.0001pt; mso-pagination:widow-orphan; font-size:12.0pt; font-family:"Calibri",sans-serif; mso-ascii-font-family:Calibri; mso-ascii-theme-font:minor-latin; mso-hansi-font-family:Calibri; mso-hansi-theme-font:minor-latin; mso-fareast-language:EN-US;}

Universiteit of Hogeschool
Master in het vertalen: Nederlands, Engels, Spaans
Publicatiejaar
2017
Promotor(en)
Prof. dr. Lieve Macken