Topic Modeling – “That thing doesn’t obey the laws of physics at all!”

Topic modeling is een methode die binnen de Digital Humanities wordt gebruikt als zijnde een vorm van text mining en daarmee een manier om patronen binnen een corpus te identificeren. Deze patronen worden vervolgens weergegeven aan de hand van topics, een string woorden die vaak in elkaars nabijheid voorkomen.(Brett, 2012) Ik zal deze methode inzetten door het gebruik van het programma Mallet 2.0.8.

Hiervoor zal ik mijn gehele corpus inladen (krantenartikelen uit de periode 1951-2017; gezocht in Texcavator en LexisNexis met de zoekwoorden ‘superheld*’ en ‘superhero*’) in de hoop in mijn hele bestand een aantal patronen te kunnen ontdekken.

Hiervoor heb ik Mallet een aantal keren los gelaten op mijn corpus met de volgende instellingen:

  • Aantal te genereren topics: 20;
  • Aantal woorden per topic: 15;
  • Aantal iteraties: 200.

Ik heb ervoor gekozen om Mallet vier keer te laten lopen met deze instellingen in de hoop dat ik uiteindelijk meer ‘stabiele topics’ zou verkrijgen. Hiermee bedoel ik te zeggen dat ik op de hoogte ben van de volgende black-boxing beperking van topic modeling: het is onbekend op welke grond deze topics precies worden gegenereerd (en het is naar deze onhandigheid dat het citaat uit Captain America: Civil War in de titel verwijst). Daarbij komt nog kijken dat elke keer wanneer deze methode ingezet wordt, er andere topics naar boven kunnen komen drijven. Ik hoop door Mallet een aantal keer te laten lopen per keer vergelijkbare topics te verkrijgen die naar hetzelfde patroon verwijzen. Hierdoor hoop ik mijn topic modeling betrouwbaarder maken en daarmee patronen te identificeren die er echt toe doen in mijn gehele corpus.

James Bond

Het eerste topic dat ik heb kunnen ontdekken was James Bond. Ik heb dat in de volgende topics naar voren zien komen:

  1. bond james journaal fleming waarin mensen films kleur carr zeer lan telef roman opleiding stereo
  2. bond james amerikaanse john fleming carr eerste kleur journaal tweede jr lan telef programma twee
  3. bond james john journaal fleming vrouw parijs kleur jean jonge connery nieuwe len carr jr
  4. bond james vrouw plaats waarin fleming eerste lan journaal goede miljoen opleiding roman len carr

Hierin zijn een paar woorden die mij doen zeggen dat het over James Bond gaat. Ten eerste de combinatie van ‘bond’ in combinatie met ‘james’ in de zin een belangrijke indicatie. Is dat nog niet genoeg bewijs, dan zou ik graag het tweede bewijsstuk aan willen dragen van deze twee woorden in combinatie met twee woorden uit het vervolg van het topic: ‘Ian’ en ‘fleming’. Dit verwijst voor mij naar de schrijver van James Bond, Ian Fleming. Daarnaast zal topic vier hierin nog kunnen indiceren dat het om een van origine literaire superheld gaat (wegens de aanwezigheid van het woord ‘roman’ in het topic), en is het aannemelijk dat de term ‘connery’ verwijst naar de acteur Sean Connery verwijst die James Bond op het grote scherm heeft vertolkt. Als laatste bewijs zou ik willen aanvoeren dat wanneer de vier percentuele uitkomsten van deze topics geplot worden in een grafiek, hetzelfde verloop hebben (zie fig. 1).

James Bond
Fig 1. Geplotte grafiek over James Bond als zijnde een superheld over de tijd

Interessant aan deze grafiek is dat dit een patroon is dat ik ook in mijn analyses tegenkomt en die ik ook al in eerdere blogposts heb behandeld: James Bond is in de periode 1951-1972 booming business en staat bekend als dé superheld in het Nederlandse publieke debat. Wanneer de zogenaamde ‘Bondziekte’ echter overwaait na deze periode, wordt er nog amper over hem gesproken. Hiermee bevestigt topic modeling betreffende James Bond mijn analyses die ik aan de hand van AntConc en NLTK heb gedaan en waar ik nog mee bezig ben.

Marvel & The Avengers

Er zijn een paar topics die steeds opnieuw naar voren komen. Dit zijn de volgende:

  • uur www superheld marvel the mensen zaterdag euro captain spider superheroes america zegt wolverine maart
  • www superheld jaar zie euro gratis captain eindhoven spider voorstelling zondag eigen comics caf goed
  • superheld zaterdag zie superman marvel eindhoven captain voorstelling zondag america spel man comedy naam maart
  • uur www marvel zie superman superheld captain man eindhoven superhero gratis zondag america maart mee

Ook al komen deze topics alleen in mijn laatste corpus voor (2013-2017), wil ik toch even dit topic behandelen. Ten eerste omdat het een topic is dat in elk van mijn topic modeling opdrachten naar voren komt, en ten tweede omdat het steeds het meest belangrijke topic is dat voor dit specifieke corpus naar voren komt. Ik wil hier de volgende voorzichtige opmerkingen over maken: het patroon dat ik hieruit afleid is dat de superhelden in dit specifieke corpus veelal van Marvel afkomstig zijn. Onder deze superhelden kunnen we Captain America en Spiderman rekenen (wat X-Men Wolverine in het eerste topic doet is me een raadsel). De specifieke combinatie van Captain America en Spiderman binnen deze specifieke tijdspanne doet me denken aan de film Captain America: Civil War waarin beide superhelden voorkomen. Hierdoor durf ik de voorzichtige uitspraak te doen dat dit als een van de meest belangrijke superheldenfilms wordt geacht van deze tijdspanne.

Opmerkingen en waar ik verder mee aan de slag ga

Ik heb geprobeerd om een een stabiel topic te vinden betreffende films in de hoop dit af te kunnen zetten tegen series. Hierin zou ik graag willen kijken naar de verdeling van films en series over superhelden over de jaren heen. Ik ben hierin al redelijk geslaagd voor het topic serie:

  • grote superheld the leven maken jaren gaan zien amerikaanse serie gaat keer laten superhelden nooit
  • the eigen batman jaren films terug laten serie nooit drie mensen gaat tijd vrouw deel
  • superheld nieuwe film staat films the superhelden heel laat twee serie toe nooit mensen dood
Series
Fig 2. Geplotte grafiek betreffende series over superhelden in de loop van de tijd

Hierin vallen een paar dingen op (naast dat het topic nog steeds redelijk instabiel is). Ten eerste is er wel een trend te zien over dat er in de periode 1973-1977 weinig of geen series over superhelden zijn of dat er gewoon niet over wordt gesproken in het Nederlandse publieke debat, maar dat het daarna een nieuwe opleving heeft en vervolgens nieuwe pieken bereikt in de perioden 1993-1997 en 2013-2017.

Zoals dus al aangegeven, ga ik nog proberen om een stabiel topic te vinden betreffende films zodat ik deze naast elkaar kan zetten en daar mogelijkerwijs ook een trend in kan ontdekken.

Tevens wil ik nog verder de afzonderlijke superhelden onderzoeken die een aantal keren worden genoemd in mijn topics (e.g. Batman, Superman, Captain America, etc.) om te kijken of er bepaalde patronen in hun populariteit zijn te ontdekken.

Ook wil ik graag nog even uitwijzen dat ik al een paar topics heb verworpen als zijnde relevant voor mijn onderzoek doordat deze erg instabiel waren. Hieronder behoren de topics die gingen over televisie-gidsen en de advertenties voor films die getoond zouden gaan worden, en de topics die gingen over kinderen. Doordat het woord kinderen een aantal keren voorkwam in mijn topics, verwachtte ik dat er mogelijkerwijs een trend zou zijn betreffende superhelden die zich richten op kinderen als publiek, maar helaas heb ik hierin ook geen stabiel topic gevonden.

En wie weet identificeer ik later nog wel andere nieuwe topics. In ieder geval: ik zet door!


Bronnenlijst

Brett, M.R. (2012). Topic Modeling: A Basic Introduction. Journal of Digital Humanities, 2:1http://journalofdigitalhumanities.org/2-1/topic-modeling-a-basic-introduction-by-megan-r-brett/

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s