Workflows – “This looks important.”

De afgelopen weken heb ik verslag gedaan van mijn Digital Humanities onderzoek naar de benadering van superhelden in het Nederlands publieke debat. Hiertoe heb ik blogposts geschreven over verschillende onderwerpen (het afbakenen van mijn onderwerp, distant reading analyses met behulp van AntConc en NLTK-analyses via Python, en distant reading met behulp van topic modeling), maar waar mijn verslaglegging tot nu toch nog schort is dat ik geen verslag heb gedaan van waarom ik deze stappen heb genomen en hoe ik deze precies heb genomen. Schande, aldus Gibbs en Owens (2013), die pleiten voor de onthulling van de methodologie van Digital Humanities. De onderzoeksmethoden die tot nu toe worden ingezet voor Digital Humanities onderzoek wordt veelal sceptisch benaderd vanwege hun obscuriteit: er worden in de verhandelingen van Digital Humanities onderzoeken geen inzichten geboden in hoe de data voor het onderzoek wordt gemanipuleerd. Het gebruik van data heeft namelijk de traditionele geschiedkundige disciplinaire grenzen overschreden waardoor er nieuwe methodologische uitdagingen ontstaan die belangrijk zijn te noemen om een variëteit van redenen.(Gibbs & Owens, 2013)

Ten eerste doet data aan, als zijnde een computer gegenereerde output, als iets dat objectief is en objectief blijft wanneer het gemanipuleerd wordt (Rieder & Röhle, 2012). Dit is echter niet het geval aangezien de data het resultaat is van een digitalisering-proces dat gestuurd is door menselijke besluiten. Digitale archieven hebben zo al besluiten genomen over het digitaliseren en de uiteindelijke vormgeving van het uiteindelijke digitale archief. Daarnaast bestaan er ook een veelvoud van manieren waarop de gedigitaliseerde data kan worden bevraagd.(Nicholson, 2013) Door de menselijke tussenkomst bij het bewerken van de datum, is de data dus zeker niet objectief te noemen en er dient dus ook niet mee om te worden gegaan alsof het objectief is. En dit is te doen door te bespreken wat er allemaal is gebeurd met de bewerking van de data.

Ten tweede heb ik getracht verschillende van mijn blogposts te verlevendigen met het gebruik van visualisatie van de data. Rieder en Röhle (2012) roepen op om voorzichtig te doen met deze visualisaties aangezien er wordt aangenomen dat het an sich iets representeert terwijl het enkel een hulpmiddel is ter verduidelijking. Deze visualisatie moet dus ook kritisch worden behandeld en er dient te worden gekeken naar de informatie die achter deze visualisatie gaat. Dit houdt in principe in dat de onderzoeker moet wisselen tussen distant reading en close reading om zo recht te doen aan dat visualisatie slechts een hulpmiddel is.

Ten derde dienen de methoden uiteen worden gezet om black-boxing tegen te gaan. Dit houdt in dat de codes en algoritmes die achter een methodologisch programma zitten waarmee de data wordt verwerkt inzichtelijk en begrijpelijk moeten zijn voor de onderzoeker en dat de resultaten van een bewerking van de data ook terug te leiden is tot deze codes en algoritmes.(Rieder & Röhle, 2012)

Uit al het bovenstaande blijkt dat het inzicht in de gebruikte methoden, en daarmee de logische volgorde van activiteiten die nodig zijn om tot een uitkomst te komen, van groot belang is. Vandaar de titel van deze blog, rechtstreeks overgenomen uit de film Iron Man (2008): “That looks important.” En daarom zal ik vanuit de bovenbeschreven perspectieven zal ik trachten mijn workflow beoordelen. Hierbij moet ik wel aangeven dat deze derde bril voor mij tijdens het onderzoek ook veel moeilijkheden heeft opgeleverd en dat ik daarmee zelf ook het slachtoffer ben geworden van black-boxing.

Maar recht zo die gaat, daar gaan we dan. Ik zal beginnen mijn workflow uit te zetten met de verhandeling van de textmining tools Texcavator en LexisNexis om me vervolgens te richten op de pre-processing van de data met OpenRefine. Vervolgens heb ik de datasets opgesplitst per jaar met Python en via de command-line. Ten vierde beschrijf ik het werken met AntConc. Daarna richt ik mij op het werken met topic-modeling aan de hand van Mallet.

Voordat ik daadwerkelijk in mijn workflow duik, wil ik nog de opmerking maken hoewel deze beschrijving van de workflow zeer gericht is op de tools die ik heb gebruikt, ik ze in mijn heuristische proces heb meegenomen. Dat betekent dat het onderstaand beschreven proces niet rechtlijnig is verlopen, maar dat ik tussen de tools heb geschipperd. Tevens heb ik naast het gebruik van de tools gebruik gemaakt van literatuurstudies om de output van de tools verder te kunnen analyseren en contextualiseren.

Textmining met Texcavator (en LexisNexis)
De eerste stap die gemaakt moet worden in de workflow naast het bepalen van het onderzoeksonderwerp, is het samenstellen van een dataset.

Zoals ook in mijn eerste blog naar voren komt, ben ik eerst bezig geweest met Texcavator. Dit is een semantische textmining tool speciaal ontwikkeld voor het onderzoeksprogramma Translantis dat put uit de grootste vindplaats voor gedigitaliseerde historical kranten en tijdschriften beschikbaar in Nederland in de tijdspanne 1880-1990: de Koninklijke Bibliotheek (Eijnatten, Pieters, & Verheul, 2014). Dat het een semantische textmining tool is, geeft al aan dat het de data op een bepaalde manier bevraagd: het gebruikt namelijk geen syntactische en lexicologische methode van onderzoek. Dit doet dus al af aan de objectiviteit van de data die wordt gevonden op de semantische zoekwijzen.

De database van de Koninklijke Bibliotheek is ook via Delpher te doorzoeken, maar de zoekfunctionaliteiten zijn via deze ingang zeer beperkt. Texcavator biedt daarentegen een meer geïntegreerde set van hulpmiddelen, visualisaties en de mogelijkheid zoekopdrachten op te slaan.(Eijnatten, Pieters, & Verheul, 2014) Dit geeft aan dat Texcavator dit digitale archief op een andere manier bevraagt dan Delpher — een gegeven dat mooi weergeeft dat de data voor een groot deel in haar interpretatie en datamining afhankelijk is van de zoekmachine en zoekmethoden die wordt gebruikt.

Terugkomend op dat Texcavator werkt met visualisaties, ben ik niet alleen afgegaan op de grafieken en de woordwolken die deze tool geeft, maar heb ik deze visualisaties gebruikt om door te klikken naar de achterliggende artikelen en ben ik op deze manier constant van close naar distant reading gegaan.

Voor deze tool heb ik gebruik gemaakt van het zoeken met woorden en heb er blindelings op vertrouwd dat de uitkomsten die ik kreeg, het resultaat waren van een goede Optical Character Reader (OCR). Echter, slechts 75% van de gedigitaliseerde tekst kan goed worden gelezen door de OCR (Hitchcock, 2013). Dit betekent dat er in mijn blackbox al een foutmarge ingebouwd zit van 25% — bijvangst in de vorm van artikelen die wegens een verkeerde OCR foutief mijn zoektermen bevatten of artikelen die niet worden gevonden wegens een foutieve OCR. En dan moet er ook nog worden genoemd dat het digitale archief van de Koninklijke Bibliotheek verre van compleet is wegens een verscheidenheid van redenen waardoor (Eijnatten, Pieters, & Verheul, 2014).

Een tweede textmining tool die ons werd aangereikt was LexisNexis. Dit is een database die put uit (ge)digital(iseerd)e kranten vanaf 1992 en ook semantisch te doorzoeken is. In eerste instantie geeft dit al aan dat ik de artikelen van 1991-1992 niet heb, wat mijn data verkleurt. OCR is hier een minder groot probleem, aangezien dit digitale archief ook gebruik maakt born-digital teksten die niet de (soms problematische) vertaalslag door hebben hoeven maken van analoog naar digitaal.

Dus, Texcavator en LexisNexis als eerste bewerkingen van mijn data heeft in de eerste stappen al verschillende impact op mijn data: een foutmarge van 25%, gelimiteerde zoekmogelijkheden, en mogelijk misleidende visualisaties. En dan is dit pas de eerste stap van mijn workflow…

Preprocessing met OpenRefine
Wanneer de data gedownload en gemanipuleerd is vanuit Texcavator en LexisNexis, is het noodzaak dat de data wordt gemanipuleerd met behulp van pre-processing technieken. Dit is ten eerste van belang omdat de grootte van de dataset wordt gereduceerd doordat er irrelevante data uit wordt geknipt, en ten tweede verwijderd het ruis in de dataset waardoor het uiteindelijke analyseren van de dataset vergemakkelijkt wordt (Lu, Yuan & Lu, 1996).

Door deze opschoning ben ik in staat geweest om informatie uit de datasets te halen die niet relevant waren voor mijn onderzoek. Dit betreft onder andere het eruit filteren van de krantentitels, de auteurs van de krantenartikelen, etc. In deze bewerking van mijn data ben ik blindelings gevaren op de belofte van dit programma dat het de tekst dusdanig goed kan lezen en door een herhaalde opmaak van de individuele artikelen in de dataset kon categoriseren dat het alleen de bedoelde data weg zou halen en niet per ongeluk ook aan andere categorieën zou vreten.

Na deze bewerking heb ik door mijn dataset gescrold en leek het niet alsof er data was verwijderd die ik eigenlijk had moeten willen bewaren, maar het zoeken naar iets dat weg is, is verrekte lastig (of zelfs onmogelijk) en hierdoor is het zeer waarschijnlijk dat er toch data uit is geknipt die ik had moeten willen bewaren. De algoritmes op basis waarvan de categorisaties van de opmaak van de individuele artikelen in de dataset zijn gemaakt, waren voor mij als onderzoeker niet toegankelijk en dus is er ten eerste sprake van black-boxing.

Vanwege deze black-box heb ik dus ook de data op een dusdanige manier bevraagd en gemanipuleerd dat deze gekleurd is geraakt en dus verre van objectief is. Door deze bewerking zijn de resultaten dus nog meer subjectief geraakt.

Dataset splitting met Python en op de command-line
De algoritmen waarmee ik de pre-processing heb uitgevoerd op de datasets uit LexisNexis binnen het programma Jupyter Notebook, waren aangeleverd door Jelmer van Nuss (van huis uit een informaticus). Hij heeft zowel mondeling als schriftelijk uitgelegd wat de algoritmen deden in een poging het black-boxing te elimineren. Deze doelstelling is echter niet gehaald. Ten eerste omdat ik geen kennis heb van programmeertaal en dus moet vertrouwen op dat de algoritmes doen wat Jelmer zegt dat ze doen (hoewel mijn interpretatie van wat deze algoritmes doen hierdoor mogelijkerwijs ver af kunnen liggen van wat ze feitelijk doen).

Het spitten van de dataset uit Texcavator diende te geschieden via de command-line. Hiervoor geldt dezelfde black-boxing kritiek: Ik heb de codes gebruikt die mij zijn aangereikt, maar zelf snapte ik niks van hoe die codes zijn opgebouwd en met welke intenties deze zijn opgezet. Ik heb ze met blind vertrouwen uitgevoerd en aangenomen, waarbij ik de kritische benadering ervan uit het oog ben verloren. Echter is het wel te zeggen dat ik vanwege deze black-box heb ik dus ook de data op een dusdanige manier bevraagd dat deze gekleurd is geraakt en dus verre van objectief is. De data is met deze benadering dus ook verder subjectief geraakt, op een manier die ik zelf geeneens meer snap. Het moge duidelijk zijn: mijn data leidt vanaf dit moment een compleet eigen leven en raakt buiten bereik van mijn begrip door haar situering in de mysterieuze black-box.

Analyse aan de hand van AntConc
De analyse van mijn datasets heb ik uiteindelijk via AntConc geanalyseerd. AntConc is “a corpus analysis toolkit designed specifically for use in the classroom” (Anthony, 2004, p. 7). Om hiermee te werken, heb ik YouTube tutorials bekeken van Lawrence Anthony (de ontwikkelaar van AntConc) betreffende concordantie plots, collocaties en woordtellingen (het gebruik hiervan heb ik uitgewerkt in een eerdere blogpost). Met het geven van deze tutorials geeft hij aan hoe het programma in elkaar steekt en hoe het gebruikt kan worden, legt de historische onderzoeksmethoden vast terwijl hij bijdraagt aan het collectieve leerproces van Digital Humanities onderzoekers, en laat hij hiermee zien hoe de tools zich verder ontwikkelen waardoor we ook in de toekomst ermee kunnen blijven werken (Gibbs & Owens, 2013). Dit gegeven voorkomt de black-box en geeft aan hoe de data wordt bevraagd en subjectief wordt gemaakt om interpretatie van de data door de onderzoeker mogelijk wordt gemaakt.

Topic-modeling aan de hand van Mallet
Mallet is een programma dat topic-modeling mogelijk maakt. De black-boxing beperkingen van deze onderzoeksmethode heb ik in mijn vorige blogpost beschreven. Doordat een manier van de tekst bevragen is door middel van algoritmen die niet duidelijk is en de topics die eruit komen steeds anders zijn (en zeer onderhevig aan de interpretatie van de onderzoeker), is de black-box hierdoor zeer sterk. Hierdoor worstel ik zelf nog heel erg met de mate waarin ik daadwerkelijk deze methode wil meenemen in mijn workflow. Ikzelf ben niet zeker in mijn gebruik hiervan en mijn vermogen de topics goed te kunnen interpreteren, moet de uiteindelijke voortkabbeling van mijn workflow bepalen in welke mate dit wordt opgenomen in mijn definitieve workflow.

Conclusie
Mijn workflow is hiermee een heuristische cirkel die in de beheersing van de manipulatie van de data met geautomatiseerde en technische middelen is zoals de verschillende versies van de pakken van Iron Man: Ze borduren allemaal op elkaar voort, al is het niet per se meteen duidelijk hoe ze dat doen.


Referenties

Anthony, L. (2004). AntConc: A learner and classroom friendly, multi-platform corpus analysis toolkit. In: Anthony, L., Fujita, S. & Harada, Y. (eds.) (2004). Proceedings of IWLeL 2004: An Interactive Workshop on Language E-learning 2004. Pp. 7-13.

Eijnatten, J. van ., Pieters, T. & Verheul, J., (2014). Using Texcavator to Map Public Discourse. Tijdschrift voor Tijdschriftstudies. (35). Pp. 59–65. DOI: http://doi.org/10.18352/ts.303

Gibbs, F. & Owens, T. (2013). The hermeneutics of data and historical writing. In: Nawrotzki, K. & Dougherty, J. (eds.) (2013). Writing history in the digital age. Ann Arbor: University of Michigan Press.

Hitchcock, T. (2013). Confronting the digital: Or how academic history writing lost the plot. Cultural and Social History 10(1); 9-23.

Lu, H., Yuan, S., & Lu, S. Y. (1996). On preprocessing data for effective classification. In ACM SIGMOD’96 Workshop on Research Issues on Data Mining and Knowledge Discovery.

Nicholson, B. (2013). The digital turn. Exploring the methodological possibilities of digital newspaper archives. Media History 19 (2013); 59-73.

Rieder, B. & Röhle, T. (2012). Digital Methods: Five Challenges. In: Berry, D. M. (ed.) (2012). Understanding Digital Humanities. Basingstoke en New York: Palgrave Macmillan. Pp. 86-103.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s