DigiTaal, afl. 4

Nederlandse Taalkunde
Driemaandelijks tijdschrift
nummer 4, 1998

Corpus Internet

Marc van Oostendorp en Ton van der Wouden

Inleiding

De ene taalkundige vraag is de andere niet; verschillende soorten vragen vragen om verschillende soorten hulpmiddelen. Sommige vragen laten zich uitstekend beantwoorden vanuit de leunstoel, in de bibliotheek, of in samenspraak met collega-taalkundigen tijdens de koffiepauze. Voor andere vragen kan de onderzoeker gebruik maken van computercorpora (zie Bouma en Schuurman 1998 voor een overzicht). Voor sommige van die vragen is zelfs het grootste huidige corpus van het Nederlands - de verzamelde corpora van het Instituut voor Nederlandse Lexicologie - nog niet groot genoeg. Onder bepaalde voorwaarden is het Internet in deze gevallen bruikbaar, zoals we in dit artikel met een viertal voorbeelden laten zien. Het artikel opent met een korte inleiding over zoekmachines op het Internet. Het wordt afgesloten met een appendix waarin meer informatie over Internet-adressen en dergelijke te vinden is.

1 Zoekmethoden

Het Nederlandstalige deel van het Internet bestaat uit enkele tientallen miljoenen pagina's. Deze pagina's zijn echter niet onmiddellijk als corpus raadpleegbaar, onder andere omdat ze verspreid staan over vele duizenden computers. Voor de in dit artikel beschreven onderzoekjes hebben we dan ook gebruik gemaakt van zogenoemde 'zoekmachines'. Dit zijn computerprogramma's die zoveel mogelijk pagina's van het Internet opvragen en alle woorden op deze pagina's registreren in een index.1 Bij elk lemma in de index worden verwijzingen opgenomen naar de documenten op het Internet waar instanties van het lemma gevonden kunnen worden. Bij de door ons gebruikte zoekmachines gaat het over twee soorten documenten: de meeste zoekmachines, met namen als AltaVista en Ilse, indexeren pagina's op het gedeelte van het Internet dat World Wide Web, kortweg web, genoemd wordt; de zoekmachine DejaNews indexeert berichten in de zogenaamde discussie- of nieuwsgroepen.

De indexen van een bepaalde zoekmachine worden bewaard op een centrale computer die een permanente verbinding heeft met het Internet. Iemand die iets op wil zoeken in de index, vult een formulier in op een webpagina. De gegevens van het formulier worden vervolgens verzonden naar de centrale computer die de zoekopdracht uitvoert en het resultaat ervan verwerkt in een informatiepagina die naar de computer van de gebruiker wordt verzonden. Alleen de door een bepaalde zoekmachine geïndexeerde pagina's zijn te achterhalen. De index van elke zoekmachine definieert aldus zijn eigen corpus. Het Corpus Internet bestaat niet, omdat het op geen enkele manier direct te onderzoeken is, maar wel bestaat er bijvoorbeeld een corpus DejaNews, een corpus AltaVista en een corpus Ilse. Wie een eenvoudig computerprogramma kan schrijven, kan deze corpora bovendien gemakkelijk aan elkaar knopen.

Er is ook een nadeel aan het werken met deze corpora. Alle door ons geraadpleegde zoekdiensten zijn niet in de eerste plaats bestemd voor taalkundig onderzoek. De bedoeling ervan is de gebruiker zo snel mogelijk naar een pagina te leiden waar hij informatie kan vinden over door hemzelf opgegeven steekwoorden. Veel taalkundige vragen kunnen op dit moment nog niet gesteld worden. Voorbeelden van onbeantwoordbare vragen zijn:

Welke woorden in het Nederlands zijn afgeleid met behulp van -arij? (De bestaande zoekmachines bieden geen mogelijkheid om retrograde te zoeken; van automatische morfologische ontleding is al helemaal geen sprake.)
Welke voorbeelden zijn er van zinnen waarin wreed onmiddellijk wordt gevolgd door een bijvoeglijk naamwoord of door een zelfstandig naamwoord? (Woordsoortinformatie is op geen enkele manier in de zoeksystemen verwerkt.)
Wordt best wel vaker in journalistieke teksten gebruikt dan in literaire? (Ook over tekstsoorten is geen informatie opgenomen.)

Het is niet uitgesloten dat sommige van de bestaande zoekmachines in de toekomst verrijkt zullen worden met mogelijkheden om dit soort vragen te beantwoorden. Het valt echter niet te verwachten dat deze zoekmachines ooit zullen voldoen aan alle eisen die een taalkundige zou kunnen stellen. Het zou daarom wenselijk zijn als instellingen zoals het INL, voor zover ze ambiëren dienstverlenend werk te doen voor taalkundig onderzoekers, zich oriënteerden op de ontwikkeling van eigen, op de taalkunde gerichte, zoekprogramma's voor het Internet-corpus.

Een ander probleem met de bestaande zoekmachines is dat hun interface niet gericht is op het tegelijkertijd onderzoeken van veel documenten. Wie zoekopdrachten wil uitvoeren met behulp van AltaVista of een andere 'reguliere' zoekmachine, moet veel handwerk verrichten. Voor wie het proces wat wil automatiseren bestaan er echter ook zogenaamde "intelligent agents", programma's die een aantal zoekrobots tegelijk aansturen en handige dingen doen met de zoekresultaten. Een voorbeeld van een dergelijk programma is het Copernic 98.2 Copernic slaat de zoekresultaten op in een (leesbaar) HTML-bestand. Niet alleen kan de gebruiker van daaruit doorklikken naar alle teksten met het gezochte erin, hij kan er ook, al of niet automatisch, berekeningen op uitvoeren. Zoeken naar de string best wel via dit programma gaf op 19 augustus 1998 bijvoorbeeld de volgende resultaten:

(1) totaal aantal sites: 684 aantal Nederlandse sites (domeinnaam eindigt in .nl): 499
aantal Belgische sites (domeinnaam eindigt in .be): 46
aantal Zuidafrikaanse sites (domeinnaam eindigt in .za): 0
aantal Nederlandse sites: 73%
aantal Belgische sites: 7%
aantal Zuidafrikaanse sites: 0%
tellingen niet geheel betrouwbaar door gebrekkige standaardisering
van internetadressen; numerieke adressen zijn systematisch niet meegeteld

De relevantie van dit resultaat wordt uiteengezet in paragraaf 5. Copernic biedt dan vervolgens ook nog de mogelijkheid om alle resultaten naar je eigen machine over te halen. Wie voor die mogelijkheid kiest, moet wel voor voldoende schijfruimte zorgen en een snelle verbinding met het Internet.

2 Voorbeeld 1: weeral

In de literatuur wordt beweerd dat weeral de Belgische tegenhanger zou zijn van alweer (Van der Wouden 1998). Om deze stelling te toetsen kan de onderzoeker haar aan bevriende Belgische taalkundigen voorleggen, maar hij weet dan nooit zeker of hij taalattitudes dan wel taalgebruik meet. Een alternatieve methode is om - als eertijds professor Kloeke - het degelijke zwarte rijwiel te bestijgen en door het Nederlandse taalgebied te fietsen om de mensen op straat te vragen of ze alweer dan wel weeral gebruiken. De onderzoeker kan ook nog te rade gaan bij een van de dialectcentrales in Nederland en Vlaanderen, maar het is vrijwel zeker dat er in de recente dialectenquêtes niet systematisch naar alweer vs. weeral gevraagd is, zodat hij daar ook al niet gemakkelijk een antwoord op zijn vraag krijgt. Nog weer een andere mogelijkheid is om in de bibliotheek stapels kranten en ander drukwerk uit Nederland en Vlaanderen door te nemen.

In feite zijn de genoemde methodes allemaal vormen van corpusonderzoek, als we de notie 'corpus' ruim opvatten en laten verwijzen naar iedere verzameling van taalmateriaal die in de taalkunde wordt gebruikt. Dan is de stap naar een computercorpus niet groot meer. Welk corpus is het meest geschikt voor deze vraag?

Relatief oud (jaren '70) en naar moderne begrippen ook erg klein (zes subcorpora van elk ongeveer 120.000 woorden, dus in totaal minder dan een miljoen woorden) is het Eindhoven-corpus, ook bekend als het Corpus-Uit den Boogaart, waarop de tellingen in Uit den Boogaart (1975) en De Jong (1979) gebaseerd zijn. Voor beantwoording van de vraag naar weeral is het te klein en misschien te Noord-Nederlands: alweer komt er 44 keer in voor, al weer (met spatie) 45 keer, weeral en weer al in het geheel niet.3

Veel groter zijn de corpora van het Instituut voor Nederlandse lexicologie. Via het Internet zijn drie van de INL-corpora gratis toegankelijk, waarvan het 5-miljoencorpus aan de kleine kant is, en het 27-miljoencorpus alleen materiaal uit NRC Handelsblad bevat. Voor de beantwoording van de vraag naar de geografische distributie van weeral is dus vooral het 38-miljoencorpus interessant. Dat lijkt een indicatie te bieden voor een positief antwoord: alle drie voorkomens van weeral zijn afkomstig uit het Belgische dagblad De Standaard van 1995. Daarnaast, en veel frequenter, komt in België ook alweer voor: daarvan vonden we 955 voorkomens, waarvan 137 uit De Standaard.

Een veel overtuigender antwoord krijgen we echter pas door het Internet als corpus te gebruiken. Verschillende zoekmachines vonden samen maar liefst 229 Internet-documenten waarin weeral voorkwam; slechts vijf daarvan (2%) waren kennelijk afkomstig uit Nederland, de overgrote meerderheid daarentegen, 196 documenten (meer dan 85%), was Belgisch. De overige 12 of 13 procent van de documenten was niet zo gemakkelijk te localiseren, maar zelfs als die allemaal puur Nederlands zouden zijn, dan moeten we toch vaststellen dat weeral vooral in België aangetroffen wordt. Gecombineerd met de data uit het INL-corpus is er geen andere conclusie mogelijk dan de volgende:4

(2) Alweer is algemeen Nederlands; daarnaast bestaat er een Belgische variant weeral.

3 Voorbeeld 2: tussenklanken

Een bekend probleem in de Nederlandse morfologie vormen de zogenoemde tussenklanken /e(n)/ en /s/ in samenstellingen. De precieze semantische, fonologische en morfologische factoren waaronder deze klanken worden tussengevoegd in een Nederlands woord zijn niet bekend. Bovendien is er in sommige gevallen individuele en geografische variatie (Booij 1992; De Haas en Trommelen 1993; Haeseryn et al. 1997; Mattens 1998). Een mogelijke recente bron van gegevens over de factoren die een rol spelen is de Woordenlijst Nederlandse taal (1995), het "Groene Boekje"5 . Hoewel de Woordenlijst niet gemaakt is met het oog op taalkundig onderzoek, is het momenteel een van de bekendste producten van corpuslinguïstisch onderzoek over het Nederlands. Aan het gebruik van deze bron voor een onderzoek naar het reële gebruik van tussenklanken in samenstellingen kleven echter minstens drie bezwaren.

In de eerste plaats is de Woordenlijst gebaseerd op drie betrekkelijk kleine corpora. De inleiding van de Woordenlijst meldt zelf (p. 48): "Er is allereerst het grote zogenaamde 50-miljoencorpus, opgebouwd uit ongeveer tweeduizend verschillende gedrukte bronnen uit bijna alle denkbare domeinen. Daarnaast is er gebruik gemaakt van het 5-miljoencorpus: een corpus van voornamelijk dag- en weekbladen, journaalteksten en magazines. Als derde corpus [...] heeft een krantencorpus gefungeerd van 27 miljoen woorden met materiaal dat afkomstig is uit NRC Handelsblad uit de periode 1992 en 1993, en ander recent digitaal materiaal dat voorhanden is bij het INL.'' In totaal omvatte het gebruikte corpus dus 82 miljoen woorden, en dit is naar onze indruk kleiner dan het corpus van via het Internet beschikbaar materiaal (zie paragraaf 7). De geringe omvang van het INL-corpus wordt overigens in de inleiding van de Woordenlijst ook erkend (p. 48).

Het tweede bezwaar is dat de Woordenlijst geen frequentie-informatie bevat. De inleiding van de Woordenlijst meldt dat een woord in minstens twee verschillende bronnen moest voorkomen om voor opname in aanmerking te komen. Hierbij wordt echter opgemerkt dat er ook woorden zijn opgenomen die niet of niet volgens de eigen criteria in voldoende mate in het corpus zijn aangetroffen. Deze woorden zijn "opgetekend door mensen die een ruime ervaring hebben in het opsporen van nieuwe woorden" (p. 49), maar in de Woordenlijst is op geen enkele manier aangetekend welke woorden het betreft. Ook bij de woorden die wel uit het corpus afkomstig zijn is het overigens voor taalkundig onderzoek een manco dat geen frequentie-informatie wordt gegeven.6

Het derde bezwaar tegen het gebruik van de Woordenlijst is dat bij de samenstelling van deze lijst op verschillende plaatsen van het corpusmateriaal is afgeweken. Hierboven hebben we al een passage uit de inleiding geciteerd waaruit blijkt dat op basis van opmerkingen van deskundigen woorden aan de lijst zijn toegevoegd. In dezelfde inleiding (pp. 49--51) worden nog enkele categorieën van woorden genoemd die op advies van deskundigen aan de lijst zijn toegevoegd of er juist uit zijn verwijderd. De criteria die deze deskundigen hebben gebruikt worden helaas niet expliciet gemaakt. Hierdoor is de relatie tussen de Woordenlijst en de gebruikte corpora ondoorzichtig.

Het tweede en het derde bezwaar kunnen natuurlijk worden opgeheven als de onderzoeker rechtstreeks de gebruikte INL-corpora raadpleegt (Kruyt 1998). Het eerste bezwaar blijft dan bestaan. Een zoektocht op het Internet kan ook dit bezwaar opheffen.

Om de relatieve waarde van de Woordenlijst en het Internet te meten hebben we een pilot-onderzoek uitgevoerd. In dit onderzoekje hebben we de lemma's van drie willekeurige bladzijden uit de Woordenlijst (de bladzijden 100, 500 en 1000) ingevoerd in twee zoekmachines op het Internet: de zoekmachine AltaVista die webpagina's indexeert, en de zoekmachine DejaNews die berichten in enkele tienduizenden nieuwsgroepen indexeert.7 In beide gevallen hebben we alleen gezocht op Nederlandstalige documenten; allebei de zoekmachines bieden deze mogelijkheid.

We gingen hierbij als volgt te werk. De lemma's van de genoemde pagina's van de Woordenlijst werden een voor een opgezocht met AltaVista. Het ging hierbij alleen om de onverbogen vormen (vetgedrukt in de Woordenlijst). Woorden die niet met AltaVista gevonden werden, werden vervolgens gezocht met DejaNews.

In totaal bevatten de drie pagina's van de Woordenlijst 331 woorden. 311 woorden (94%) werden gevonden met alleen AltaVista. AltaVista en DejaNews vonden er samen 314 (95%). De volgende woorden werden in het geheel niet gevonden:

(3) architectuurtaal, are,8 arendsneus, argentaan, armbestuur, armoriaal, armworp, lease-activiteit, lebaal, lebbe, lectuurgids, leedgevoel, leefmileuverordening, waterstofsuperoxide, waterverdrag,9 waterzuiveringstablet, watjekouw

Bij wijze van curiosum kunnen we vermelden dat de inleiding van de Woordenlijst drie woorden noemt die geschrapt zijn sinds de vorige uitgave van het Groene Boekje (uit 1954) omdat ze niet langer in gebruik zouden zijn: zwamp, zwirrelen en afbiljoenen. Het eerste van deze drie woorden hebben we echter nog op meerdere pagina's aangetroffen.10

Ons onderzoek richtte zich voorts op de tussenklanken. Zoals uit bovenstaand lijstje blijkt, hebben we het woord armbestuur niet gevonden op het Internet. Wel vonden we meerdere Internet-pagina's waarop de vorm armenbestuur werd gebruikt, die beter overeenkomt met onze eigen intuïties, maar niet vermeld staat in de Woordenlijst.

Een aparte categorie in onze steekproef vormen de samenstellingen met leeftijd- als eerste lid. De Woordenlijst geeft voor sommige samenstellingen zowel een vorm mét als een vorm zónder de tussenklank -s-: leeftijdgenoot/leeftijdsgenoot. Ook van de afgeleide vorm op -loos geeft de lijst beide vormen: leeftijdloos/leeftijdsloos. Van de meeste vormen geeft de Woordenlijst echter slechts één variant: de vorm met de tussenklank. Het resultaat van onze zoekopdrachten rechtvaardigde deze restrictie niet. In alle gevallen troffen we ook de variant zonder tussenklank op meerdere websites aan (al was deze altijd minder frequent dan de vorm met de tussenklank). De volgende varianten zijn daarom naar onze mening ten onrechte niet in de Woordenlijst opgenomen:11

(4) armenbestuur, leeftijdafhankelijk, leeftijdbewust, leeftijdcategorie, leeftijdcriterium, leeftijddiscriminatie, leeftijdfase, leeftijdgebonden, leeftijdgroep, leeftijdklasse, leeftijdopbouw, leeftijdverschil

Op zijn minst kunnen we dus concluderen dat al op dit moment een reeks eenvoudige zoekhandelingen op het Internet de onderzoeker waardevolle aanvullende informatie kan verstrekken bij de Woordenlijst Nederlandse taal. De corpora van het INL hebben natuurlijk enkele aantrekkelijke eigenschappen die het Internet-corpus mist. De prominentste eigenschap hiervan is dat het door het INL aangeboden materiaal statisch is, zodat vragen herhaald en dus ook gecontroleerd kunnen worden. Omgekeerd kunnen volgens ons echter ook redacteuren van toekomstige edities van de Woordenlijst hun voordeel doen met het Internet als corpus.

4 Voorbeeld 3: nieuwe woorden

Elke gedrukte woordenlijst is het product van selectieve woordopname. Vanwege de productiviteit van sommige morfologische regels van het Nederlands worden er vermoedelijk in de Nederlandstalige publieke ruimte elke dag wel enkele woorden gebruikt die nooit eerder gebruikt werden. De meeste van deze woorden zijn gelegenheidssamenstellingen; zij zullen waarschijnlijk ook niet terugkeren in latere publicaties. De maker van een woordenlijst ziet zich over het algemeen gedwongen om een selectie te maken. Bovendien moet de lijst op een bepaalde dag worden afgesloten; de actueelste informatie kan daarom niet worden opgenomen.

In enkele recente populair-wetenschappelijke publicaties (Jansen 1997, 1998, Van der Horst 1998) is de vraag gesteld hoeveel nieuwe woorden er per dag in het Nederlands bijkomen. Jansen kwam uit op een informele schatting van ongeveer zestig, Van der Horst hield het op één per dag. Interessant in dit verband is dat in een van de bijdragen aan de discussie (Jansen 1998) 54 woorden worden genoemd die in de kolommen van enkele kranten zijn afgedrukt op 14 november 1997 en die niet in de 12^e druk van het Van Dale Groot Woordenboek der Nederlandse Taal te vinden zijn. Het betreft de volgende woorden:

(5) rijstzaak/rijst-zaak, relizapper/reli-zapper, D66-fractieleider, HMG-directie, SRV-bende, EU-minister, VN-ambassadeur, VN-chef, VN-commissie, VN-contributie, VN-gebouw, VN-inspecteur, VN-resolutie, VN-tribunaal, Vestdijk-lezer, goede-in-het-algemeen, Nederlands-Surinaams, Turks/Koerdische, zuid-zuidrelatie, ad-hocgezelschap, tripletherapie, branche-exclusiviteit, mediacontract, segmentsponsoring, sponsorpot, STER-blok, WK-wedstrijd, afscheidsgrap, arbo-kritiek, bewust-coma, ex-veteranendienstplichtige, letselschade-advocaat, St. Maarten-cadeau, zelfhelpboek, losstraat, vlammenmelder, VN-wapeninspecteur, box-butler, unit-eigenaar, verwenunit, vip-box, vip-boxhouder, hetero-stel, heterosamenleving, homonest, elandtest, lijkenhond, zwaan-kleef-aan-dynamiek, transdisciplinair, Aziatisch-economisch, ex-B-verpleegkundige, A2000-partner, thuisservice, herhalingsdader

Eerder heeft Van Oostendorp (1998) laten zien dat met een eenvoudige speurtocht met enkele zoekmachines op het Internet kon worden aangetoond dat 23 van deze 54 woorden op 14 november 1997 al op het Internet te vinden waren.12 Een vernieuwde zoekopdracht in augustus 198813 toonde ditzelfde voor nog eens vier woorden aan. In totaal staat dus voor precies 50% van de door Jansen genoemde woorden vast dat deze eerder dan op de door hem genoemde datum op het Internet te vinden waren.

Vervolgens kunnen we de eendagsvliegen wegfilteren. Als we dit doen door alleen de woorden in beschouwing te nemen die ook in documenten van ná 14 november 1997 op het Internet te vinden zijn, houden we het volgende lijstje over:

(6) segmentsponsoring, losstraat, elandtest

Dit zijn dus de woorden die we volgens onze methode voor 14 november 1997 niet op het Internet vinden, en daarna wel. Aangetekend moet worden dat 25 van de door Jansen genoemde woorden door ons helemaal niet zijn teruggevonden, ook niet in de archieven van de kranten die Jansen als bronnen noemt. De reden hiervoor is vermoedelijk dat de elektronische archieven van kranten op het Internet bij lange na niet volledig zijn. Dit betekent echter wel dat degene die beweerde dat de woorden in (6) op bijvoorbeeld 13 of 15 november 1997 voor het eerst zijn gebruikt met een onderzoek volgens de hier gevolgde methode ook niet weersproken zou kunnen worden. Meer bronnenonderzoek - bijvoorbeeld op de corpora van het INL, maar ook met gebruikmaking van andere zoekmachines op het Internet - is nodig om vast te stellen of de woorden in (6) inderdaad alledrie op 14 november 1997 gevormde nieuwvormingen zijn. In ieder geval kunnen we vaststellen dat de schatting van Van der Horst (1997) meer steun vindt in het Corpus Internet dan die van Jansen (1998).

5 Voorbeeld 4: best wel

De combinatie best wel staat in geschreven teksten niet erg hoog aangeschreven. Zie, bijvoorbeeld, de column "op het scherpst van de snede" van Jan Beijert, Nieuwsblad van het Noorden 21 juni 1997:14

Ergens best wel een hele fijne avond. ``Best wel'' is ook zo'n plaag. Je hoort het ministers zeggen, tienermeisjes, talkshowleuteraars en heroïnehoertjes die door de burgemeester van hun stek zijn gejaagd. Vanwege de openbare orde. "Het is best wel een zwaar beroep weet je wel, vooral 's winters, en dan heb je zo'n afwerkplek best wel nodig." Een Kamerlid van de PvdA deze week: "Kijk, ik heb best wel begrip voor de nood van bijstandsmoeders en zo, maar weet je, het moet wel beheersbaar blijven. Er hangt een kostenplaatje aan."

Wie de collega-taalkundigen vraagt naar oordelen over zinnen met best wel, ontmoet vooral gegiechel (Van der Wouden 1997). Stel nu eens dat we toch een idee van de typische gebruikers van best wel willen krijgen, hoe pakken we dat dan aan? Schoolmeisjes en welzijnswerkers afluisteren in het openbaar vervoer is één manier om bepaalde vooroordelen bevestigd te krijgen, maar weinig systematisch.

In het Eindhoven-corpus vonden we drie gevallen van best onmiddellijk gevolgd door wel. Dat is natuurlijk veel te weinig om conclusies aan te verbinden. Toelaten dat er nog enig materiaal tussen staat (best nog wel zal ook geen genade kunnen vinden in de ogen van de best wel-haters) geeft alleen maar meer rommel. Ter illustratie geven we twee gevallen -- die, wellicht niet toevallig, beide afkomstig zijn uit het subcorpus gesproken taal:

(7) a 29058 o , ze weet best wel wat haar moeder bedoelt.

b 1300 dat vond hij best , al zei hij wel dat er geen sprake van was dat het hondje gek was.

Niet alleen is dit corpus voor onze doeleinden te klein, bovendien ontbreken sociale gegevens over auteurs en gesprekspartners, zodat we hiermee de sociolinguïstische vraag over de gebruikers van best wel niet kunnen beantwoorden.

Ook in het INL-corpus kan naar best wel gezocht worden. Het is aan te bevelen om naar de woordvormen best en wel te zoeken, en niet naar de gelijkluidende lemma's. De lemmatisering van de INL-corpora heeft namelijk automatisch plaatsgevonden (Kruyt 1998), en waar automatische lemmatisering bij inhoudswoorden tegenwoordig redelijk betrouwbaar is, is die (nog) beneden de maat als het gaat om polyfunctionele functiewoorden als best en wel.

(8) a [wv='best'][wv='wel']

b [wv='best'][?/0..3][wv='wel']

(8a), "de woordvorm best onmiddellijk gevolgd door de woordvorm wel", levert in het 38 miljoen-corpus 130 voorkomens op, terwijl (8b), "de woordvorm best gevolgd door tussen 0 en 3 willekeurige woorden gevolgd door de woordvorm wel" 143 vindplaatsen geeft. We geven een paar van de gevonden voorbeelden, waarvan het laatste natuurlijk juist een voorbeeld is van wat we niet zochten:

(9) a Bron: LR93-4.SGZ (Liberaal Reveil)
[...] Europa mag immers BEST WEL wat meer verantwoordelijkheid nemen voor de veiligheid van haar eigen continent.

b Bron: RVM94-1.SGZ (Rooie Vrouwen Magazine)
[...] dat is interessant, werken met vrouwen en met Ribbius Peletier als hoofd, dat kan BEST NOG WEL eens wat worden met die bond.

c Bron: tknov95.SGZ (Handelingen Tweede Kamer)
aangezien zij hier toch de volgende week bijna de hele week rondsport, is er misschien BEST WEL een gaatje te vinden

d Bron: MCAPR94SPO.SGZ (Meppeler Courant)
[...] we verloren met 5-3 en 8-0. We zullen BEST NOG WEL moeite hebben om ons te handhaven in deze klasse.

e Bron: MCAPR94SPO.SGZ (Meppeler Courant)
[...] Hoewel Dwingeloo niet BEST SPEELDE KREEG HET WEL veel scoringskansen, die echter door Jan Schipper en Bert Boers teniet werden gedaan.

De vindplaatsen van deze voorbeelden zijn wel voldoende argument voor de onhoudbaarheid van het idee dat best wel uitsluitend door pubermeisjes en dergelijken gebruikt wordt.

Nadere inspectie van de vindplaatsen wijst evenwel uit, dat zo'n 110 van de 140 gevallen afkomstig is uit de Meppeler Courant. Hoe komt dat? Zou best wel vooral in het oosten van Nederland gebruikt worden, of voert men bij die krant een ander redactioneel beleid waar het gaat om het vermijden van modieus taalgebruik? Het INL-corpus kan geen antwoord bieden op die vraag, maar het Internet biedt aanwijzingen dat de tweede genoemde mogelijkheid waarschijnlijker is dan de eerste.15 Via zoekmachines als Ilse en Hotbot vinden we gemakkelijk honderden vindplaatsen van best wel, en ook zonder uitgebreid telwerk te verrichten, krijgt de onderzoeker al snel de indruk dat de combinatie vooral te vinden is in informeel taalgebruik, met name dat van jongeren. In (10) staan een paar extreme voorbeelden van dat soort taalgebruik - allemaal gevonden via het Internet.

(10) a Bas z'n gitaar was kapot, dus dat was best wel lullig. Het eerste nummer was best wel rustig. Het tweede nummer was best wel heftach. Dat was namelijk wat sneller. We moesten eigenlijk op het podium headbangen. Maar dat durfde we niet echt. Dus gingen we maar een beetje staan klooien.
(padvindertje)

b Mijn leukste sport is tennis. Ik vindt het zo leuk omdat ik het best wel leuk vindt om met een tennisracket te zwaaien en omdat ik het gewoon heel erg leuk vindt om het zelf te doen, op de televisie vindt ik het minder leuk maar nog wel heel leuk.
(meisje, 9 jaar)

c Daar hebben we even uitgerust en daarna hebben we ons bed opgemaakt en zijn boodschappen gaan doen in het winkeltje dat daar zat. Het was best wel een soort supermarkt of zo, en daar hebben we wat inkopen gedaan voor ons huisje.
(zwakzinnige)

En voorbeelden als de volgende laten zien dat de uitdrukking bij sommige jonge vrouwen in elk geval niet taboe is:

(11) a Nou, ik vind dat zoiets... Ik weet niet wat ik ermee moet. Ik denk vaak dat ik het eigenlijk hele smerige blaadjes vind, en aan de andere kant denk ik dat het misschien best wel grappig is... Om ze te neppen met de een of andere fotoserie waar je helemaal niks op ziet, of zo.
(Candy Dulfer)

b Maar even terugkomen op dat tongzoenen: destijds had ik dat best wel kunnen doen.
(Katja Schuurman in Viva)

c Het heeft best wel moeite gekost door de jaren heen, maar ze zijn gewoon heel goed met elkaar om blijven gaan.
(Trijntje Oosterhuis in Oor)

d Maar ze kunnen best wel ondeugend zijn, dat geloof ik best wel, maar ze uiten zich anders. Da's een heel groot verschil.
(Tatiana Simic)

Het vooroordeel dat best wel inderdaad iets is voor kinderen, vrouwen en welzijnswerkers leeft onder meer bij de schrijvende pers. Daar vinden we het gebruik van de uitdrukking regelmatig geparodieerd. Sommige kranten drukken best wel alleen af tussen aanhalingstekens.16

(12) a Maar, toegegeven, men kan het vieren van de verjaardag ook zien als een warm gebeuren, waarin het gegeven dat de mens een integraal wezen is, waarbij het van een bepaalde kunstmatigheid getuigt om de thuis- en de werksituatie te scheiden, waarbij vorm gegeven kan worden aan een positieve uitwisseling van gevoelsstromen tussen collega's onderling, waarbij de algemene werk-sfeer daar best wel als het ware dus van kan meeprofiteren.
(Column in Delta, mededelingenblad van de TU Delft)

b Directielid J. Doorn van het Olympus College in IJsselmonde noemt de toilettruc op zich `eeuwenoud' maar kan er `best wel' waardering voor opbrengen dat leerlingen tegenwoordig moderne elektronica inzetten bij het spieken.
(Rotterdams Dagblad)

c Dan wilden EO en Teleac "best wel met wat uren schuiven": de programma's van de Tros rond prime time en de stichtende ...
(INL-Corpus: NRC DEC 1994)

Toch is het niet helemaal waar dat best wel alleen gebruikt wordt door vrouwen, kinderen, en tuinbroekdragende welzijnswerkers, getuige de eerdere voorbeelden uit het INL-corpus (9) en de volgende voorbeelden:

(13) a We kunnen best wel wat dynamiek in ons leven hebben.
(Johan Stekelenburg, voorzitter van de FNV, 31 oktober 1996 te Utrecht)

b En kinderen van de Here hebben net zulke hormonen als iedereen, dus wij hebben daar ook allemaal best wel mee te maken.
(Preek van ds. G. Treurniet, gehouden in de Gereformeerde kerk (Vrijgemaakt) te Heemse op zondag 6 april 1997)

Al met al kunnen we aan onze naspeuringen betreffende het gebruik van best wel slechts de volgende genuanceerde conclusie verbinden:17

(14) Best wel is gestigmatiseerd. Desondanks wordt het gebruikt, en wel door alle lagen van de bevolking heen.

6 Hoe groot is het Internet-corpus?

Het eerder besproken verschil tussen 3 vindplaatsen voor weeral in het 38-miljoencorpus van het INL en de 229 die we er vonden via het Internet suggereert dat het Internet als corpus fors groter moet zijn. Laten we eens proberen ons een idee te vormen van de omvang ervan.

Uit een omvangrijke dataverzameling van modale partikels is ons bekend dat de frequentie van eens niet bijzonder varieert tussen verschillende auteurs, teksttypes en dergelijke.18 Dit kunnen we bijvoorbeeld laten zien aan de hand van de frequenties van eens in de verschillende subcorpora van het Eindhoven-corpus:19

(15) Voorkomens van eens in de verschillende Eindhoven-subcorpora

dagbladen 104 0,8 promille

opiniebladen 128 1 promille

gezinsbladen 156 1,3 promille

romans en novellen 194 1,6 promill

populair wetenschappelijk 78 0,7 promille

gesproken taal 306 2,6 promille

Het totaal aantal voorkomens bedraagt 966. Gegeven dat het hele corpus zo'n 720.000 woorden beslaat, komen we uit op een frequentie van eens in het Eindhoven-corpus van ruim één promille. Gesproken taal zit duidelijk hoger, met twee promille, maar ook dat valt nog steeds in dezelfde orde van grootte. Eenzelfde frequentie van ongeveer een promille vonden we ook in aanzienlijke fragmenten literair proza uit de negentiende en twintigste eeuw.

Dit beeld wordt nog eens bevestigd door de data van het INL: de verschillende corpora geven wel verschillende, en ook iets lagere, frequenties voor h, maar die bevinden zich allemaal in de al gevonden grootte-orde van één promille:

(16) De frequentie van eens in de verschillende INL-corpora

5-miljoencorpus 3131 0.6 promille

27-miljoencorpus 17553 0.65 promille

38-miljoencorpus 16613 0.4 promille

Wat zijn de scores op het Internet? Op 4 augustus 1998 vond de Nederlandse zoekmachine Vindex 144329 voorkomens van eens. Als we ervan uitgaan dat Internet-teksten zich in eens-frequentie niet op een interessante manier onderscheiden van andere contemporaine teksten, dan mogen we uit dit aantal afleiden dat Vindex gekeken heeft in een virtueel tekstcorpus dat op dat moment in totaal zo'n 144329 x 1000 = minstens een kleine 150 miljoen woorden groot was. Vindex is slechts een van de vele zoekmachines op het Internet: de totale omvang van het via Internet bereikbare corpus moet dus enkele malen groter zijn.

7 Conclusie

De ene taalkundige onderzoeksvraag is de andere niet: verschillende corpora kunnen verschillende doelen dienen. Een naar moderne maatstaven relatief klein corpus als het Eindhoven-corpus kan voor bepaalde onderzoeksdoelen nog steeds zeer nuttig zijn, omdat het op een nauwkeurige en zorgvuldige manier verrijkt is met taalkundige informatie. De corpora die de verschillende zoekmachines op Internet bieden, zijn zo groot dat ze zelfs zonder extra informatie succesvol gebruikt kunnen worden om bepaalde andere vragen te beantwoorden. De corpora van het INL staan in het midden: ze zijn een stuk groter dan het Eindhoven-corpus, maar een stuk kleiner dan de Internet-corpora; ze bieden minder nauwkeurige taalkundige informatie dan het Eindhoven-corpus, maar veel meer dan het Internet.

De kracht van de corpora die gedefinieerd worden door de zoekmachines op het Internet is dat ze zo groot zijn.20 Deze grootte neemt bovendien letterlijk dagelijks toe. Op het moment dat dit artikel verschijnt zijn de hier beschreven corpora waarschijnlijk alweer een stuk groter dan op het moment van schrijven. Het moment is waarschijnlijk niet ver meer dat de onderzoeker vanachter zijn bureau vragen kan stellen aan corpora van enkele miljarden woorden. Het is belangrijk dat taalkundigen dit beseffen, want die situatie móét wel belangrijke gevolgen hebben voor de methoden van onderzoek.

Marc van Oostendorp en Ton van der Wouden 21

Bibliografie

Booij, Geert (1992).Compounding in Dutch. Revista di Linguistica 37-59.
Bouma, Gosse & Ineke Schuurman (1998). De positie van het nederlands in taal- en spraaktechnologie. Rapport voor de nederlandse taalunie, Augustus 1998. Toegankelijk via http://odur.let.rug.nl/~gosse/taalunie/.
Eeden, Ed van (1996). Om maar eens een cliché te gebruiken: over de platgetreden paden van de taal. Bloemendaal: Aramith.
Jong, Eveline de (red.) (1979). Spreektaal. Woordfrequenties in gesproken Nederlands. Utrecht: Bohn, Scheltema & Holkema.
Geerts, G. & H. Heestermans (red.) (1995). Van Dale Groot woordenboek der Nederlandse taal. Utrecht: Van Dale Lexicografie.
Gessel, Han van et al. (red.) (1997). de Volkskrant: Het nieuwe stijlboek. Den Haag: Sdu Uitgevers. Haas, Wim de & Mieke Trommelen(1993). Morfologisch handboek van het Nederlands: een overzicht van de woordvorming. Den Haag: SDU.
Haeseryn, Walter et al. (red.) (1997). Algemene Nederlandse Spraakkunst. Groningen en Deurne: Martinus Nijhoff en Wolters Plantyn. 2e, geheel herz. dr.
Horst, Joop van der (1997). Ik mankeer niets. In: Peter Burger en Jaap de Jong (red.), Taalalmanak. 's-Gravenhage [etc.]: SDU Uitgevers/Standaard, 205-208.
Jansen, Frank (1997). Remmend vlees in het flikkergroen: Nieuwe woorden van 1996. Onze Taal 66, 15-18.
Jansen, Frank (1998). Hoeveel nieuwe woorden staan er dagelijks in de krant? Onze Taal 67, 39-41.
Kruyt, Truus (1998). Valkuilen bij corpusonderzoek. Nederlandse Taalkunde 3, 137-140.
Laar, Felix van de (1993). Qua Nederlands: taalvervlakking of taalverrijking?. Utrecht: Kosmos.
Mattens, W. (1998). De jongste spellingswijzigingen: Een beknotting van de creatieve vrijheid van de taalgebruiker. In: E. Hoekstra & C. Smits (red.), Morfologiedagen 1996; Lezingen gehouden tijdens de Morfologiedagen op donderdag 19 en vrijdag 20 september 1996 in Amsterdam. Amsterdam: Meertens Instituut.
McEnery, Tony & Andrew Wilson (1996). Corpus linguistics. Edinburgh: Edinburgh University Press.
Oostendorp, Marc van (1998). Nieuwe woorden. Neder-L 9803.01. URL: http://baserv.uci.kun.nl/~salemans/bulletin/1998/03/980301.html.
Renkema, Jan (1981). De taal van 'Den Haag': een kwantitatief-stilistisch onderzoek naar aanleiding van oordelen over taalgebruik. 's-Gravenhage: Staatsuitgeverij.
Uit den Boogaart, P.C. (red.) (1975). Woordfrequenties in geschreven en gesproken Nederlands. Utrecht: Oosthoek, Scheltema & Holkema.
Wouden, Ton van der (1997). Best wel een aardig onderwerp voor een lezing op de tabu-dag. Lezing TABU-dag, Juni 1997, Groningen.
Wouden, Ton van der (1998). Verboden op het werk te komen. Klein woordenboek van Vlaamse taal- en andere eigenaardigheden. Enschede: SIWU.
Wouden, Ton van der, Frans Zwarts, Inge Callebaut en Piet Van de Craen (1998). Once upon a time in Dutch. Ms. Leiden/Groningen/Brussel, 1998, URL: http://www.let.rug.nl/~vdwouden. Woordenboek der Nederlandsche taal.
M. de Vries & L.A. te Winkel [et al.] (red.) (1882-1998). 's-Gravenhage [etc.]: Martinus Nijhoff [etc.]. Woordenlijst Nederlandse taal. 1995. Den Haag / Antwerpen: Sdu Uitgevers / Standaard Uitgeverij.

Noten

1. In sommige gevallen wordt hierbij verschil gemaakt tussen Nederlands-, Engels-, Frans- en Duitstalige (enz.) pagina's. Dat verschil wordt over het algemeen gemaakt door statistische software die de verschillen in woordfrequentie, letterfrequentie e.d. tussen talen kan herkennen. Naar onze ervaring zijn als Nederlandstalig herkende pagina's vrijwel altijd inderdaad in het Nederlands gesteld.

2. Zie de appendix.

3. We gebruiken de (elektronische) VU-versie van het Eindhoven-corpus.

4. Een tweede zoektocht geeft extra steun aan deze hypothese. Op 21 augustus 1998 vond de Belgische zoekmachine Ilse 163 voorkomens van alweer en 40 van weeral: een verhouding 80:20, dus. De Nederlandse versie van Ilse vond 30 keer weeral - deels duidelijk Belgische teksten, getuige een citaat als Geeuwende gezichten liters koffie en ettelijke nachtelijke uren voor de Engelse kijkbuis als Vlaams filmredacteur moet je er wat voor over hebben om de Oscar-uitreiking live te volgen. - en 4495 keer alweer, dus de frequentie van weeral op Nederlandse adressen is minder dan 1 procent van die van alweer.

5. Een andere mogelijkheid is om de database van CELEX te raadplegen, maar deze database is gebaseerd op dezelfde corpora als de Woordenlijst, namelijk die van het INL.

6. Zoekmachines geven wel frequentie-informatie, maar deze is over het algemeen van een tamelijk 'ruwe' soort. Wie bijvoorbeeld op 'arme' zoekt krijgt informatie over de hoeveelheid documenten waarin deze string voorkomt, maar hierbij wordt geen verschil gemaakt tussen het zelfstandig naamwoord 'arme' en de verbogen vorm van het adjectief `arm'. Ditzelfde bezwaar zou, in ieder geval in theorie, niet moeten gelden voor de corpora van het INL.

7. AltaVista hebben we geraadpleegd via de URL http://www.altavista.digital.com/; een controle op deze gegevens is vervolgens uitgevoerd via de Zweedse spiegelsite http://www.altavista.telia.com/. DejaNews is bereikbaar via http://www.dejanews.com/. Men kan er hier voor kiezen om alleen de recente berichten te doorzoeken, of alle berichten die ooit geïndexeerd zijn. Wij hebben de laatste mogelijkheid gekozen. De zoekopdrachten werden uitgevoerd op 15 en 17 augustus 1998. De volledige resultaten van de speurtocht zijn na te slaan in de digitale appendix bij dit artikel.

8. Vermoedelijk is dit woord niet opgenomen in de indexen van AltaVista en DejaNews, omdat het homograaf is met een hoogfrequent Engels woord; dergelijke woorden worden door de meeste zoekmachines niet geïndexeerd.

9. Dit woord werd wel aangetroffen in de meervoudsvorm waterverdragen.

10. Enkele van deze pagina's hadden het Groene Boekje zélf tot onderwerp, en citeerden het woord daarbij, maar minstens twee pagina's gebruikten het woord in een gewone context. Verwijzingen naar dergelijke pagina's zijn te vinden in de elektronische appendix bij dit artikel.

11. Het enige woord waarvan ook wij geen tussenklankloze variant hebben aangetroffen is leeftijdsontslag.

12. De zoekopdrachten werden uitgevoerd in februari 1998. Elk woord werd in dit geval ingevoerd in drie zoekmachines: AltaVista, HotBot, en Vindex. Gekeken werd naar de laatste datum waarop een Internet-pagina ververst werd. Dit is een tamelijk 'streng' criterium: ook als na 14 november 1997 alleen de opmaak veranderd is, of een typefout stilzwijgend is verbeterd, viel een pagina af.

13. Voor deze nieuwe zoekopdracht werd alleen gebruik gemaakt van AltaVista. De zoekopdrachten werden uitgevoerd op 23 augustus 1998. Van het gevonden aantal pagina's werd bij deze zoekopdracht telkens 1 afgetrokken, omdat Van Oostendorp (1998) intussen ook door AltaVista in de index werd opgenomen. Alle daar genoemde woorden werden dus minstens één maal gevonden. Alle gegevens over deze onderzoeken zijn na te slaan op de digitale appendix bij dit artikel.

14. De reden voor de depreciatie van best wel is ons onbekend. Feit is dat het een relatief jonge combinatie is - onze oudste vindplaats tot nu toe dateert van 1961 - en dat geen van de door ons geraadpleegde woordenboeken haar opneemt. Van Eeden (1996) schrijft: "Hoe gemakkelijk is het niet om het bij uitstek wollige taalgebruik van welzijnswerkers te ironiseren [...] Roer slechts een paar van de volgende termen door uw gesprekken: Best wel; Naar de mensen tóe; Een heel stuk [...]; Daar heb ik een heel goed gevoel over." Van de Laar (1993:85) karakteriseert best wel als "een bijwoordelijke bepaling die de scherpe kantjes er afhaalt'', wat niet noodzakelijkerwijs negatief is, maar even later blijkt de combinatie toch ook in de categorie taalvervlakking te vallen. En de flaptekst opent met "Is het Nederlands er best wel een beetje slecht aan toe, of valt het qua taalvervlakking ergens wel mee?".

15. Gosse Bouma maakt ons attent op andere vormen van geautomatiseerd zoeken op het Internet die Gertjan van Noord en hij ontwikkeld hebben. Meer informatie hierover is te vinden in de digitale appendix bij dit artikel.

16. Overigens ontbreekt best wel (nog?) in de lijst "vreselijke uitdrukkingen" van Van Gessel et al. (1997)

17. Daar kunnen we nog aan toevoegen dat de tellingen uitwijzen dat best wel tamelijk Hollands is. Vlaamse informanten bevestigen deze observatie.

18. Het WNT onderscheidt maar liefst acht betekenissen van eens, maar naar onze ervaring is dat voor dit soort grove schattingen niet van belang (Van der Wouden et al. 1998). Zie ook McEnery en Wilson (1996).

19. Zie voetnoot 3 voor informatie over dit corpus. De gebruikte versie bevat ook nog een klein corpus ambtenarenjargon, materiaal van Renkema (1981). De frequentie van eens daarin lijkt met 11 dramatisch lager, maar dit deelcorpus is slechts ongeveer 50.000 woorden groot, dus een derde van de andere subcorpora.

20. Ook wat betreft de spreiding van de teksten over verschillende teksttypes en -genres worden we door het Internet waarschijnlijk nog beter bediend dan door het INL: met één zoekopdracht worden harde porno en levensberichten van de Maatschappij der Nederlandsche Letterkunde doorzocht, het dagboek van een gabber en een gereformeerde preek, informatie over een universitaire wiskundecursus en bespiegelingen over de nagellaktrends voor het najaar van 1998.

21. Adres van de auteurs: Marc van Oostendorp, HIL/NWO, Universiteit Leiden. Postbus 9515, 2300 RA Leiden. E-mail: oostendorp@rullet.leidenuniv.nl. Ton van der Wouden: VNC-project 'Partikelgebruik in Nederland en Vlaanderen', gefinancierd door NWO en FWO. Universiteit Leiden, Postbus 9515, 2300 RA Leiden. E-mail: vdwouden@let.rug.nl. Dank aan Arie Verhagen en de VU voor het beschikbaar stellen van het Eindhoven-corpus; het INL voor de corpora; Gosse Bouma, Jack Hoeksema, Matthias Hüning, Truus Kruyt en Ruben van de Vijver voor discussie en commentaar op een eerdere versie van dit artikel.

Appendix

informatie over gebruik van INL-corpora via email helpdesk@rulxho.LeidenUniv.nl
STDH (Stichting Tekstcorpora en Databestanden in de Humaniora): http://CandL.let.ruu.nl/stdh/index.htm
Ilse België (zoekmachine) http://www.ilse.be
Ilse Nederland (zoekmachine) http://www.ilse.nl
Hotbot (zoekmachine) http://www.hotbot.com
Altavista (zoekmachine) http://www.altavista.com
Yahoo (zoekmachine) http://www.yahoo.com
Infoseek (zoekmachine) http://www.infoseek.com
Lycos (zoekmachine) http://www.lycos.com
Vergelijking zoekmachines: onder andere op http://www.best.be/inside/nl/som2_6_4.html
Copernic is een Windows-programma. Het is gratis te verkrijgen via http://www.copernic.com. Vergelijkbare programma's, ook voor bijvoorbeeld Macintosh, zijn onder meer te vinden via tucows http://www.tucows.com. Gertjan van Noord heeft een aantal Perl-scripts gemaakt voor Unix-gebruikers: zie http://www.let.rug.nl/~vannoord/College/9798/Corpus/
Vindex (zoekmachine) http://www.vindex.nl/
Het huis van Laurens Janszoon Coster: http://www.dds.nl/~ljcoster/

Zie voor meer gegevens over de onderzoekjes die in deze bijdrage worden besproken ook onze digitale appendix.

[ Naar het begin van deze pagina ] [ Naar de DigiTaal-openingspagina ]

Pagina aangemaakt op 26/10/1998 door Marc van Oostendorp