Nederlandse
Taalkunde Driemaandelijks tijdschrift nummer 4, 1998 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Corpus InternetMarc van Oostendorp en Ton van der Wouden
InleidingDe ene taalkundige vraag is de andere niet; verschillende soorten vragen vragen om verschillende soorten hulpmiddelen. Sommige vragen laten zich uitstekend beantwoorden vanuit de leunstoel, in de bibliotheek, of in samenspraak met collega-taalkundigen tijdens de koffiepauze. Voor andere vragen kan de onderzoeker gebruik maken van computercorpora (zie Bouma en Schuurman 1998 voor een overzicht). Voor sommige van die vragen is zelfs het grootste huidige corpus van het Nederlands - de verzamelde corpora van het Instituut voor Nederlandse Lexicologie - nog niet groot genoeg. Onder bepaalde voorwaarden is het Internet in deze gevallen bruikbaar, zoals we in dit artikel met een viertal voorbeelden laten zien. Het artikel opent met een korte inleiding over zoekmachines op het Internet. Het wordt afgesloten met een appendix waarin meer informatie over Internet-adressen en dergelijke te vinden is.
1 ZoekmethodenHet Nederlandstalige deel van het Internet bestaat uit enkele tientallen miljoenen pagina's. Deze pagina's zijn echter niet onmiddellijk als corpus raadpleegbaar, onder andere omdat ze verspreid staan over vele duizenden computers. Voor de in dit artikel beschreven onderzoekjes hebben we dan ook gebruik gemaakt van zogenoemde 'zoekmachines'. Dit zijn computerprogramma's die zoveel mogelijk pagina's van het Internet opvragen en alle woorden op deze pagina's registreren in een index.1 Bij elk lemma in de index worden verwijzingen opgenomen naar de documenten op het Internet waar instanties van het lemma gevonden kunnen worden. Bij de door ons gebruikte zoekmachines gaat het over twee soorten documenten: de meeste zoekmachines, met namen als AltaVista en Ilse, indexeren pagina's op het gedeelte van het Internet dat World Wide Web, kortweg web, genoemd wordt; de zoekmachine DejaNews indexeert berichten in de zogenaamde discussie- of nieuwsgroepen.De indexen van een bepaalde zoekmachine worden bewaard op een centrale computer die een permanente verbinding heeft met het Internet. Iemand die iets op wil zoeken in de index, vult een formulier in op een webpagina. De gegevens van het formulier worden vervolgens verzonden naar de centrale computer die de zoekopdracht uitvoert en het resultaat ervan verwerkt in een informatiepagina die naar de computer van de gebruiker wordt verzonden. Alleen de door een bepaalde zoekmachine geïndexeerde pagina's zijn te achterhalen. De index van elke zoekmachine definieert aldus zijn eigen corpus. Het Corpus Internet bestaat niet, omdat het op geen enkele manier direct te onderzoeken is, maar wel bestaat er bijvoorbeeld een corpus DejaNews, een corpus AltaVista en een corpus Ilse. Wie een eenvoudig computerprogramma kan schrijven, kan deze corpora bovendien gemakkelijk aan elkaar knopen. Er is ook een nadeel aan het werken met deze corpora. Alle door ons geraadpleegde zoekdiensten zijn niet in de eerste plaats bestemd voor taalkundig onderzoek. De bedoeling ervan is de gebruiker zo snel mogelijk naar een pagina te leiden waar hij informatie kan vinden over door hemzelf opgegeven steekwoorden. Veel taalkundige vragen kunnen op dit moment nog niet gesteld worden. Voorbeelden van onbeantwoordbare vragen zijn:
Een ander probleem met de bestaande zoekmachines is dat hun interface
niet gericht is op het tegelijkertijd onderzoeken van veel documenten.
Wie zoekopdrachten wil uitvoeren met behulp van AltaVista of een andere
'reguliere' zoekmachine, moet veel handwerk verrichten. Voor wie het
proces
wat wil automatiseren bestaan er echter ook zogenaamde "intelligent
agents",
programma's die een aantal zoekrobots tegelijk aansturen en handige
dingen
doen met de zoekresultaten. Een voorbeeld van een dergelijk programma is
het Copernic 98.2 Copernic slaat de zoekresultaten op
in een (leesbaar) HTML-bestand. Niet alleen kan de gebruiker van daaruit
doorklikken naar alle teksten met het gezochte erin, hij kan er ook, al
of niet automatisch, berekeningen op uitvoeren. Zoeken naar de string best
wel via dit programma gaf op 19 augustus 1998 bijvoorbeeld de
volgende
resultaten:
De relevantie van dit resultaat wordt uiteengezet in paragraaf 5. Copernic biedt dan vervolgens ook nog de mogelijkheid om alle resultaten naar je eigen machine over te halen. Wie voor die mogelijkheid kiest, moet wel voor voldoende schijfruimte zorgen en een snelle verbinding met het Internet.
2 Voorbeeld 1: weeralIn de literatuur wordt beweerd dat weeral de Belgische tegenhanger zou zijn van alweer (Van der Wouden 1998). Om deze stelling te toetsen kan de onderzoeker haar aan bevriende Belgische taalkundigen voorleggen, maar hij weet dan nooit zeker of hij taalattitudes dan wel taalgebruik meet. Een alternatieve methode is om - als eertijds professor Kloeke - het degelijke zwarte rijwiel te bestijgen en door het Nederlandse taalgebied te fietsen om de mensen op straat te vragen of ze alweer dan wel weeral gebruiken. De onderzoeker kan ook nog te rade gaan bij een van de dialectcentrales in Nederland en Vlaanderen, maar het is vrijwel zeker dat er in de recente dialectenquêtes niet systematisch naar alweer vs. weeral gevraagd is, zodat hij daar ook al niet gemakkelijk een antwoord op zijn vraag krijgt. Nog weer een andere mogelijkheid is om in de bibliotheek stapels kranten en ander drukwerk uit Nederland en Vlaanderen door te nemen.In feite zijn de genoemde methodes allemaal vormen van corpusonderzoek, als we de notie 'corpus' ruim opvatten en laten verwijzen naar iedere verzameling van taalmateriaal die in de taalkunde wordt gebruikt. Dan is de stap naar een computercorpus niet groot meer. Welk corpus is het meest geschikt voor deze vraag? Relatief oud (jaren '70) en naar moderne begrippen ook erg klein (zes subcorpora van elk ongeveer 120.000 woorden, dus in totaal minder dan een miljoen woorden) is het Eindhoven-corpus, ook bekend als het Corpus-Uit den Boogaart, waarop de tellingen in Uit den Boogaart (1975) en De Jong (1979) gebaseerd zijn. Voor beantwoording van de vraag naar weeral is het te klein en misschien te Noord-Nederlands: alweer komt er 44 keer in voor, al weer (met spatie) 45 keer, weeral en weer al in het geheel niet.3 Veel groter zijn de corpora van het Instituut voor Nederlandse lexicologie. Via het Internet zijn drie van de INL-corpora gratis toegankelijk, waarvan het 5-miljoencorpus aan de kleine kant is, en het 27-miljoencorpus alleen materiaal uit NRC Handelsblad bevat. Voor de beantwoording van de vraag naar de geografische distributie van weeral is dus vooral het 38-miljoencorpus interessant. Dat lijkt een indicatie te bieden voor een positief antwoord: alle drie voorkomens van weeral zijn afkomstig uit het Belgische dagblad De Standaard van 1995. Daarnaast, en veel frequenter, komt in België ook alweer voor: daarvan vonden we 955 voorkomens, waarvan 137 uit De Standaard. Een veel overtuigender antwoord krijgen we echter pas door het
Internet
als corpus te gebruiken. Verschillende zoekmachines vonden samen maar
liefst
229 Internet-documenten waarin weeral voorkwam; slechts vijf
daarvan
(2%) waren kennelijk afkomstig uit Nederland, de overgrote meerderheid
daarentegen, 196 documenten (meer dan 85%), was Belgisch. De overige 12
of 13 procent van de documenten was niet zo gemakkelijk te localiseren,
maar zelfs als die allemaal puur Nederlands zouden zijn, dan moeten we
toch vaststellen dat weeral vooral in België aangetroffen wordt.
Gecombineerd met de data uit het INL-corpus is er geen andere conclusie
mogelijk dan de volgende:4
3 Voorbeeld 2: tussenklankenEen bekend probleem in de Nederlandse morfologie vormen de zogenoemde tussenklanken /e(n)/ en /s/ in samenstellingen. De precieze semantische, fonologische en morfologische factoren waaronder deze klanken worden tussengevoegd in een Nederlands woord zijn niet bekend. Bovendien is er in sommige gevallen individuele en geografische variatie (Booij 1992; De Haas en Trommelen 1993; Haeseryn et al. 1997; Mattens 1998). Een mogelijke recente bron van gegevens over de factoren die een rol spelen is de Woordenlijst Nederlandse taal (1995), het "Groene Boekje"5 . Hoewel de Woordenlijst niet gemaakt is met het oog op taalkundig onderzoek, is het momenteel een van de bekendste producten van corpuslinguïstisch onderzoek over het Nederlands. Aan het gebruik van deze bron voor een onderzoek naar het reële gebruik van tussenklanken in samenstellingen kleven echter minstens drie bezwaren.In de eerste plaats is de Woordenlijst gebaseerd op drie betrekkelijk kleine corpora. De inleiding van de Woordenlijst meldt zelf (p. 48): "Er is allereerst het grote zogenaamde 50-miljoencorpus, opgebouwd uit ongeveer tweeduizend verschillende gedrukte bronnen uit bijna alle denkbare domeinen. Daarnaast is er gebruik gemaakt van het 5-miljoencorpus: een corpus van voornamelijk dag- en weekbladen, journaalteksten en magazines. Als derde corpus [...] heeft een krantencorpus gefungeerd van 27 miljoen woorden met materiaal dat afkomstig is uit NRC Handelsblad uit de periode 1992 en 1993, en ander recent digitaal materiaal dat voorhanden is bij het INL.'' In totaal omvatte het gebruikte corpus dus 82 miljoen woorden, en dit is naar onze indruk kleiner dan het corpus van via het Internet beschikbaar materiaal (zie paragraaf 7). De geringe omvang van het INL-corpus wordt overigens in de inleiding van de Woordenlijst ook erkend (p. 48). Het tweede bezwaar is dat de Woordenlijst geen frequentie-informatie bevat. De inleiding van de Woordenlijst meldt dat een woord in minstens twee verschillende bronnen moest voorkomen om voor opname in aanmerking te komen. Hierbij wordt echter opgemerkt dat er ook woorden zijn opgenomen die niet of niet volgens de eigen criteria in voldoende mate in het corpus zijn aangetroffen. Deze woorden zijn "opgetekend door mensen die een ruime ervaring hebben in het opsporen van nieuwe woorden" (p. 49), maar in de Woordenlijst is op geen enkele manier aangetekend welke woorden het betreft. Ook bij de woorden die wel uit het corpus afkomstig zijn is het overigens voor taalkundig onderzoek een manco dat geen frequentie-informatie wordt gegeven.6 Het derde bezwaar tegen het gebruik van de Woordenlijst is dat bij de samenstelling van deze lijst op verschillende plaatsen van het corpusmateriaal is afgeweken. Hierboven hebben we al een passage uit de inleiding geciteerd waaruit blijkt dat op basis van opmerkingen van deskundigen woorden aan de lijst zijn toegevoegd. In dezelfde inleiding (pp. 49--51) worden nog enkele categorieën van woorden genoemd die op advies van deskundigen aan de lijst zijn toegevoegd of er juist uit zijn verwijderd. De criteria die deze deskundigen hebben gebruikt worden helaas niet expliciet gemaakt. Hierdoor is de relatie tussen de Woordenlijst en de gebruikte corpora ondoorzichtig. Het tweede en het derde bezwaar kunnen natuurlijk worden opgeheven als de onderzoeker rechtstreeks de gebruikte INL-corpora raadpleegt (Kruyt 1998). Het eerste bezwaar blijft dan bestaan. Een zoektocht op het Internet kan ook dit bezwaar opheffen.
Om de relatieve waarde van de Woordenlijst en het Internet te meten hebben we een pilot-onderzoek uitgevoerd. In dit onderzoekje hebben we de lemma's van drie willekeurige bladzijden uit de Woordenlijst (de bladzijden 100, 500 en 1000) ingevoerd in twee zoekmachines op het Internet: de zoekmachine AltaVista die webpagina's indexeert, en de zoekmachine DejaNews die berichten in enkele tienduizenden nieuwsgroepen indexeert.7 In beide gevallen hebben we alleen gezocht op Nederlandstalige documenten; allebei de zoekmachines bieden deze mogelijkheid. We gingen hierbij als volgt te werk. De lemma's van de genoemde pagina's van de Woordenlijst werden een voor een opgezocht met AltaVista. Het ging hierbij alleen om de onverbogen vormen (vetgedrukt in de Woordenlijst). Woorden die niet met AltaVista gevonden werden, werden vervolgens gezocht met DejaNews. In totaal bevatten de drie pagina's van de Woordenlijst 331
woorden.
311 woorden (94%) werden gevonden met alleen AltaVista. AltaVista en
DejaNews
vonden er samen 314 (95%). De volgende woorden werden in het geheel niet
gevonden:
Bij wijze van curiosum kunnen we vermelden dat de inleiding van de Woordenlijst drie woorden noemt die geschrapt zijn sinds de vorige uitgave van het Groene Boekje (uit 1954) omdat ze niet langer in gebruik zouden zijn: zwamp, zwirrelen en afbiljoenen. Het eerste van deze drie woorden hebben we echter nog op meerdere pagina's aangetroffen.10 Ons onderzoek richtte zich voorts op de tussenklanken. Zoals uit bovenstaand lijstje blijkt, hebben we het woord armbestuur niet gevonden op het Internet. Wel vonden we meerdere Internet-pagina's waarop de vorm armenbestuur werd gebruikt, die beter overeenkomt met onze eigen intuïties, maar niet vermeld staat in de Woordenlijst. Een aparte categorie in onze steekproef vormen de samenstellingen
met
leeftijd- als eerste lid. De Woordenlijst geeft voor sommige
samenstellingen
zowel een vorm mét als een vorm zónder de tussenklank -s-:
leeftijdgenoot/leeftijdsgenoot. Ook van de afgeleide vorm op -loos
geeft de lijst beide vormen: leeftijdloos/leeftijdsloos. Van de
meeste vormen geeft de Woordenlijst echter slechts één variant:
de vorm met de tussenklank. Het resultaat van onze zoekopdrachten
rechtvaardigde
deze restrictie niet. In alle gevallen troffen we ook de variant zonder
tussenklank op meerdere websites aan (al was deze altijd minder frequent
dan de vorm met de tussenklank). De volgende varianten zijn daarom naar
onze mening ten onrechte niet in de Woordenlijst opgenomen:11
Op zijn minst kunnen we dus concluderen dat al op dit moment een reeks eenvoudige zoekhandelingen op het Internet de onderzoeker waardevolle aanvullende informatie kan verstrekken bij de Woordenlijst Nederlandse taal. De corpora van het INL hebben natuurlijk enkele aantrekkelijke eigenschappen die het Internet-corpus mist. De prominentste eigenschap hiervan is dat het door het INL aangeboden materiaal statisch is, zodat vragen herhaald en dus ook gecontroleerd kunnen worden. Omgekeerd kunnen volgens ons echter ook redacteuren van toekomstige edities van de Woordenlijst hun voordeel doen met het Internet als corpus.
4 Voorbeeld 3: nieuwe woordenElke gedrukte woordenlijst is het product van selectieve woordopname. Vanwege de productiviteit van sommige morfologische regels van het Nederlands worden er vermoedelijk in de Nederlandstalige publieke ruimte elke dag wel enkele woorden gebruikt die nooit eerder gebruikt werden. De meeste van deze woorden zijn gelegenheidssamenstellingen; zij zullen waarschijnlijk ook niet terugkeren in latere publicaties. De maker van een woordenlijst ziet zich over het algemeen gedwongen om een selectie te maken. Bovendien moet de lijst op een bepaalde dag worden afgesloten; de actueelste informatie kan daarom niet worden opgenomen.In enkele recente populair-wetenschappelijke publicaties (Jansen
1997,
1998, Van der Horst 1998) is de vraag gesteld hoeveel nieuwe woorden er
per dag in het Nederlands bijkomen. Jansen kwam uit op een informele
schatting
van ongeveer zestig, Van der Horst hield het op één per dag.
Interessant in dit verband is dat in een van de bijdragen aan de
discussie
(Jansen 1998) 54 woorden worden genoemd die in de kolommen van enkele
kranten
zijn afgedrukt op 14 november 1997 en die niet in de 12e druk
van het Van Dale Groot Woordenboek der Nederlandse Taal te vinden zijn.
Het betreft de volgende woorden:
Eerder heeft Van Oostendorp (1998) laten zien dat met een eenvoudige speurtocht met enkele zoekmachines op het Internet kon worden aangetoond dat 23 van deze 54 woorden op 14 november 1997 al op het Internet te vinden waren.12 Een vernieuwde zoekopdracht in augustus 198813 toonde ditzelfde voor nog eens vier woorden aan. In totaal staat dus voor precies 50% van de door Jansen genoemde woorden vast dat deze eerder dan op de door hem genoemde datum op het Internet te vinden waren. Vervolgens kunnen we de eendagsvliegen wegfilteren. Als we dit
doen
door alleen de woorden in beschouwing te nemen die ook in documenten van
ná 14 november 1997 op het Internet te vinden zijn, houden we het
volgende lijstje over:
Dit zijn dus de woorden die we volgens onze methode voor 14 november 1997 niet op het Internet vinden, en daarna wel. Aangetekend moet worden dat 25 van de door Jansen genoemde woorden door ons helemaal niet zijn teruggevonden, ook niet in de archieven van de kranten die Jansen als bronnen noemt. De reden hiervoor is vermoedelijk dat de elektronische archieven van kranten op het Internet bij lange na niet volledig zijn. Dit betekent echter wel dat degene die beweerde dat de woorden in (6) op bijvoorbeeld 13 of 15 november 1997 voor het eerst zijn gebruikt met een onderzoek volgens de hier gevolgde methode ook niet weersproken zou kunnen worden. Meer bronnenonderzoek - bijvoorbeeld op de corpora van het INL, maar ook met gebruikmaking van andere zoekmachines op het Internet - is nodig om vast te stellen of de woorden in (6) inderdaad alledrie op 14 november 1997 gevormde nieuwvormingen zijn. In ieder geval kunnen we vaststellen dat de schatting van Van der Horst (1997) meer steun vindt in het Corpus Internet dan die van Jansen (1998).
5 Voorbeeld 4: best welDe combinatie best wel staat in geschreven teksten niet erg hoog aangeschreven. Zie, bijvoorbeeld, de column "op het scherpst van de snede" van Jan Beijert, Nieuwsblad van het Noorden 21 juni 1997:14Ergens best wel een hele fijne avond. ``Best wel'' is ook zo'n plaag. Je hoort het ministers zeggen, tienermeisjes, talkshowleuteraars en heroïnehoertjes die door de burgemeester van hun stek zijn gejaagd. Vanwege de openbare orde. "Het is best wel een zwaar beroep weet je wel, vooral 's winters, en dan heb je zo'n afwerkplek best wel nodig." Een Kamerlid van de PvdA deze week: "Kijk, ik heb best wel begrip voor de nood van bijstandsmoeders en zo, maar weet je, het moet wel beheersbaar blijven. Er hangt een kostenplaatje aan."Wie de collega-taalkundigen vraagt naar oordelen over zinnen met best wel, ontmoet vooral gegiechel (Van der Wouden 1997). Stel nu eens dat we toch een idee van de typische gebruikers van best wel willen krijgen, hoe pakken we dat dan aan? Schoolmeisjes en welzijnswerkers afluisteren in het openbaar vervoer is één manier om bepaalde vooroordelen bevestigd te krijgen, maar weinig systematisch. In het Eindhoven-corpus vonden we drie gevallen van best
onmiddellijk
gevolgd door wel. Dat is natuurlijk veel te weinig om conclusies
aan te verbinden. Toelaten dat er nog enig materiaal tussen staat (best
nog
wel zal ook geen genade kunnen vinden in de ogen van de best
wel-haters) geeft alleen maar meer rommel. Ter illustratie geven we
twee gevallen -- die, wellicht niet toevallig, beide afkomstig zijn uit
het subcorpus gesproken taal:
Niet alleen is dit corpus voor onze doeleinden te klein, bovendien ontbreken sociale gegevens over auteurs en gesprekspartners, zodat we hiermee de sociolinguïstische vraag over de gebruikers van best wel niet kunnen beantwoorden. Ook in het INL-corpus kan naar best wel gezocht worden. Het is
aan te
bevelen om naar de woordvormen best en wel te zoeken, en
niet naar de gelijkluidende lemma's. De lemmatisering van de INL-corpora
heeft namelijk automatisch plaatsgevonden (Kruyt 1998), en waar
automatische
lemmatisering bij inhoudswoorden tegenwoordig redelijk betrouwbaar is,
is die (nog) beneden de maat als het gaat om polyfunctionele
functiewoorden
als best en wel.
(8a), "de woordvorm best onmiddellijk gevolgd door de woordvorm
wel", levert in het 38 miljoen-corpus 130 voorkomens op, terwijl
(8b), "de woordvorm best gevolgd door tussen 0 en 3 willekeurige
woorden gevolgd door de woordvorm wel" 143 vindplaatsen geeft. We
geven een paar van de gevonden voorbeelden, waarvan het laatste
natuurlijk
juist een voorbeeld is van wat we niet zochten:
De vindplaatsen van deze voorbeelden zijn wel voldoende argument voor de onhoudbaarheid van het idee dat best wel uitsluitend door pubermeisjes en dergelijken gebruikt wordt. Nadere inspectie van de vindplaatsen wijst evenwel uit, dat zo'n
110
van de 140 gevallen afkomstig is uit de Meppeler Courant. Hoe
komt
dat? Zou best wel vooral in het oosten van Nederland gebruikt
worden,
of voert men bij die krant een ander redactioneel beleid waar het gaat
om het vermijden van modieus taalgebruik? Het INL-corpus kan geen
antwoord
bieden op die vraag, maar het Internet biedt aanwijzingen dat de tweede
genoemde mogelijkheid waarschijnlijker is dan de eerste.15
Via zoekmachines als Ilse en Hotbot vinden we gemakkelijk honderden
vindplaatsen
van best wel, en ook zonder uitgebreid telwerk te verrichten,
krijgt
de onderzoeker al snel de indruk dat de combinatie vooral te vinden is
in informeel taalgebruik, met name dat van jongeren. In (10) staan een
paar extreme voorbeelden van dat soort taalgebruik - allemaal gevonden
via het Internet.
En voorbeelden als de volgende laten zien dat de uitdrukking bij sommige
jonge vrouwen in elk geval niet taboe is:
Het vooroordeel dat best wel inderdaad iets is voor kinderen, vrouwen en
welzijnswerkers leeft onder meer bij de schrijvende pers. Daar vinden we
het gebruik van de uitdrukking regelmatig geparodieerd. Sommige kranten
drukken best wel alleen af tussen aanhalingstekens.16
Toch is het niet helemaal waar dat best wel alleen gebruikt wordt
door vrouwen, kinderen, en tuinbroekdragende welzijnswerkers, getuige de
eerdere voorbeelden uit het INL-corpus (9) en de volgende voorbeelden:
Al met al kunnen we aan onze naspeuringen betreffende het gebruik van best
wel
slechts de volgende genuanceerde conclusie verbinden:17
6 Hoe groot is het Internet-corpus?Het eerder besproken verschil tussen 3 vindplaatsen voor weeral in het 38-miljoencorpus van het INL en de 229 die we er vonden via het Internet suggereert dat het Internet als corpus fors groter moet zijn. Laten we eens proberen ons een idee te vormen van de omvang ervan.Uit een omvangrijke dataverzameling van modale partikels is ons bekend dat de frequentie van eens niet bijzonder varieert tussen verschillende auteurs, teksttypes en dergelijke.18 Dit kunnen we bijvoorbeeld laten zien aan de hand van de frequenties van eens in de verschillende subcorpora van het Eindhoven-corpus:19
Het totaal aantal voorkomens bedraagt 966. Gegeven dat het hele corpus zo'n 720.000 woorden beslaat, komen we uit op een frequentie van eens in het Eindhoven-corpus van ruim één promille. Gesproken taal zit duidelijk hoger, met twee promille, maar ook dat valt nog steeds in dezelfde orde van grootte. Eenzelfde frequentie van ongeveer een promille vonden we ook in aanzienlijke fragmenten literair proza uit de negentiende en twintigste eeuw. Dit beeld wordt nog eens bevestigd door de data van het INL: de
verschillende
corpora geven wel verschillende, en ook iets lagere, frequenties voor h,
maar die bevinden zich allemaal in de al gevonden grootte-orde van één
promille:
Wat zijn de scores op het Internet? Op 4 augustus 1998 vond de Nederlandse zoekmachine Vindex 144329 voorkomens van eens. Als we ervan uitgaan dat Internet-teksten zich in eens-frequentie niet op een interessante manier onderscheiden van andere contemporaine teksten, dan mogen we uit dit aantal afleiden dat Vindex gekeken heeft in een virtueel tekstcorpus dat op dat moment in totaal zo'n 144329 x 1000 = minstens een kleine 150 miljoen woorden groot was. Vindex is slechts een van de vele zoekmachines op het Internet: de totale omvang van het via Internet bereikbare corpus moet dus enkele malen groter zijn.
7 ConclusieDe ene taalkundige onderzoeksvraag is de andere niet: verschillende corpora kunnen verschillende doelen dienen. Een naar moderne maatstaven relatief klein corpus als het Eindhoven-corpus kan voor bepaalde onderzoeksdoelen nog steeds zeer nuttig zijn, omdat het op een nauwkeurige en zorgvuldige manier verrijkt is met taalkundige informatie. De corpora die de verschillende zoekmachines op Internet bieden, zijn zo groot dat ze zelfs zonder extra informatie succesvol gebruikt kunnen worden om bepaalde andere vragen te beantwoorden. De corpora van het INL staan in het midden: ze zijn een stuk groter dan het Eindhoven-corpus, maar een stuk kleiner dan de Internet-corpora; ze bieden minder nauwkeurige taalkundige informatie dan het Eindhoven-corpus, maar veel meer dan het Internet.De kracht van de corpora die gedefinieerd worden door de zoekmachines op het Internet is dat ze zo groot zijn.20 Deze grootte neemt bovendien letterlijk dagelijks toe. Op het moment dat dit artikel verschijnt zijn de hier beschreven corpora waarschijnlijk alweer een stuk groter dan op het moment van schrijven. Het moment is waarschijnlijk niet ver meer dat de onderzoeker vanachter zijn bureau vragen kan stellen aan corpora van enkele miljarden woorden. Het is belangrijk dat taalkundigen dit beseffen, want die situatie móét wel belangrijke gevolgen hebben voor de methoden van onderzoek. Marc van Oostendorp en Ton van der Wouden 21
Bibliografie
Noten1. In sommige gevallen wordt hierbij verschil gemaakt tussen Nederlands-, Engels-, Frans- en Duitstalige (enz.) pagina's. Dat verschil wordt over het algemeen gemaakt door statistische software die de verschillen in woordfrequentie, letterfrequentie e.d. tussen talen kan herkennen. Naar onze ervaring zijn als Nederlandstalig herkende pagina's vrijwel altijd inderdaad in het Nederlands gesteld.3. We gebruiken de (elektronische) VU-versie van het Eindhoven-corpus. 4. Een tweede zoektocht geeft extra steun aan deze hypothese. Op 21 augustus 1998 vond de Belgische zoekmachine Ilse 163 voorkomens van alweer en 40 van weeral: een verhouding 80:20, dus. De Nederlandse versie van Ilse vond 30 keer weeral - deels duidelijk Belgische teksten, getuige een citaat als Geeuwende gezichten liters koffie en ettelijke nachtelijke uren voor de Engelse kijkbuis als Vlaams filmredacteur moet je er wat voor over hebben om de Oscar-uitreiking live te volgen. - en 4495 keer alweer, dus de frequentie van weeral op Nederlandse adressen is minder dan 1 procent van die van alweer. 5. Een andere mogelijkheid is om de database van CELEX te raadplegen, maar deze database is gebaseerd op dezelfde corpora als de Woordenlijst, namelijk die van het INL. 6. Zoekmachines geven wel frequentie-informatie, maar deze is over het algemeen van een tamelijk 'ruwe' soort. Wie bijvoorbeeld op 'arme' zoekt krijgt informatie over de hoeveelheid documenten waarin deze string voorkomt, maar hierbij wordt geen verschil gemaakt tussen het zelfstandig naamwoord 'arme' en de verbogen vorm van het adjectief `arm'. Ditzelfde bezwaar zou, in ieder geval in theorie, niet moeten gelden voor de corpora van het INL. 7. AltaVista hebben we geraadpleegd via de URL http://www.altavista.digital.com/; een controle op deze gegevens is vervolgens uitgevoerd via de Zweedse spiegelsite http://www.altavista.telia.com/. DejaNews is bereikbaar via http://www.dejanews.com/. Men kan er hier voor kiezen om alleen de recente berichten te doorzoeken, of alle berichten die ooit geïndexeerd zijn. Wij hebben de laatste mogelijkheid gekozen. De zoekopdrachten werden uitgevoerd op 15 en 17 augustus 1998. De volledige resultaten van de speurtocht zijn na te slaan in de digitale appendix bij dit artikel. 8. Vermoedelijk is dit woord niet opgenomen in de indexen van AltaVista en DejaNews, omdat het homograaf is met een hoogfrequent Engels woord; dergelijke woorden worden door de meeste zoekmachines niet geïndexeerd. 9. Dit woord werd wel aangetroffen in de meervoudsvorm waterverdragen. 10. Enkele van deze pagina's hadden het Groene Boekje zélf tot onderwerp, en citeerden het woord daarbij, maar minstens twee pagina's gebruikten het woord in een gewone context. Verwijzingen naar dergelijke pagina's zijn te vinden in de elektronische appendix bij dit artikel. 11. Het enige woord waarvan ook wij geen tussenklankloze variant hebben aangetroffen is leeftijdsontslag. 12. De zoekopdrachten werden uitgevoerd in februari 1998. Elk woord werd in dit geval ingevoerd in drie zoekmachines: AltaVista, HotBot, en Vindex. Gekeken werd naar de laatste datum waarop een Internet-pagina ververst werd. Dit is een tamelijk 'streng' criterium: ook als na 14 november 1997 alleen de opmaak veranderd is, of een typefout stilzwijgend is verbeterd, viel een pagina af. 13. Voor deze nieuwe zoekopdracht werd alleen gebruik gemaakt van AltaVista. De zoekopdrachten werden uitgevoerd op 23 augustus 1998. Van het gevonden aantal pagina's werd bij deze zoekopdracht telkens 1 afgetrokken, omdat Van Oostendorp (1998) intussen ook door AltaVista in de index werd opgenomen. Alle daar genoemde woorden werden dus minstens één maal gevonden. Alle gegevens over deze onderzoeken zijn na te slaan op de digitale appendix bij dit artikel. 14. De reden voor de depreciatie van best wel is ons onbekend. Feit is dat het een relatief jonge combinatie is - onze oudste vindplaats tot nu toe dateert van 1961 - en dat geen van de door ons geraadpleegde woordenboeken haar opneemt. Van Eeden (1996) schrijft: "Hoe gemakkelijk is het niet om het bij uitstek wollige taalgebruik van welzijnswerkers te ironiseren [...] Roer slechts een paar van de volgende termen door uw gesprekken: Best wel; Naar de mensen tóe; Een heel stuk [...]; Daar heb ik een heel goed gevoel over." Van de Laar (1993:85) karakteriseert best wel als "een bijwoordelijke bepaling die de scherpe kantjes er afhaalt'', wat niet noodzakelijkerwijs negatief is, maar even later blijkt de combinatie toch ook in de categorie taalvervlakking te vallen. En de flaptekst opent met "Is het Nederlands er best wel een beetje slecht aan toe, of valt het qua taalvervlakking ergens wel mee?". 15. Gosse Bouma maakt ons attent op andere vormen van geautomatiseerd zoeken op het Internet die Gertjan van Noord en hij ontwikkeld hebben. Meer informatie hierover is te vinden in de digitale appendix bij dit artikel. 16. Overigens ontbreekt best wel (nog?) in de lijst "vreselijke uitdrukkingen" van Van Gessel et al. (1997) 17. Daar kunnen we nog aan toevoegen dat de tellingen uitwijzen dat best wel tamelijk Hollands is. Vlaamse informanten bevestigen deze observatie. 18. Het WNT onderscheidt maar liefst acht betekenissen van eens, maar naar onze ervaring is dat voor dit soort grove schattingen niet van belang (Van der Wouden et al. 1998). Zie ook McEnery en Wilson (1996). 19. Zie voetnoot 3 voor informatie over dit corpus. De gebruikte versie bevat ook nog een klein corpus ambtenarenjargon, materiaal van Renkema (1981). De frequentie van eens daarin lijkt met 11 dramatisch lager, maar dit deelcorpus is slechts ongeveer 50.000 woorden groot, dus een derde van de andere subcorpora. 20. Ook wat betreft de spreiding van de teksten over verschillende teksttypes en -genres worden we door het Internet waarschijnlijk nog beter bediend dan door het INL: met één zoekopdracht worden harde porno en levensberichten van de Maatschappij der Nederlandsche Letterkunde doorzocht, het dagboek van een gabber en een gereformeerde preek, informatie over een universitaire wiskundecursus en bespiegelingen over de nagellaktrends voor het najaar van 1998. 21. Adres van de auteurs: Marc van Oostendorp, HIL/NWO, Universiteit Leiden. Postbus 9515, 2300 RA Leiden. E-mail: oostendorp@rullet.leidenuniv.nl. Ton van der Wouden: VNC-project 'Partikelgebruik in Nederland en Vlaanderen', gefinancierd door NWO en FWO. Universiteit Leiden, Postbus 9515, 2300 RA Leiden. E-mail: vdwouden@let.rug.nl. Dank aan Arie Verhagen en de VU voor het beschikbaar stellen van het Eindhoven-corpus; het INL voor de corpora; Gosse Bouma, Jack Hoeksema, Matthias Hüning, Truus Kruyt en Ruben van de Vijver voor discussie en commentaar op een eerdere versie van dit artikel.
Appendix
Zie voor meer gegevens over de onderzoekjes die in deze bijdrage worden besproken ook onze digitale appendix.
|
[ Naar het begin van deze pagina ] [ Naar de DigiTaal-openingspagina ]
© 1998, M. van Oostendorp & T. van der Wouden
Pagina aangemaakt op 26/10/1998 door Marc van Oostendorp