Frits Vaandrager. De Verleidingen van het Hitlijstdenken. Automatisering Gids 34(19):23, 12 Mei 2000. Voor aanvullingen/correcties zie http://www.cs.kun.nl/~fvaan/PAPERS/citatiescorrecties.txt -------------------------------------- De nieuwe citatie-index van het Nec Research Institute heeft tot zeer uiteenlopende reacties geleid. Op basis van de eerder gepubliceerde top-50 van Nederlandse informatica-onderzoekers (Automatisering Gids 25 februari 2000) zijn in sommige gevallen onzinnige conclusies getrokken, zegt prof. dr. Frits Vaandrager. Dat het Nec-systeem een belangrijke rol kan spelen bij het beoordelen van onderzoek, staat volgens hem echter niet ter discussie. In dit artikel komt Vaandrager met een verbeterde versie van de top-50 'Citeseer', de nieuwe citatie-index voor informatica-onderzoekers van het Nec Research Institute, heeft de afgelopen maanden nogal wat stof doen opwaaien. Het Nec-systeem, momenteel 's werelds grootste gratis toegankelijke index van online beschikbare wetenschappelijke literatuur, stelt onderzoekers in staat om razendsnel nieuwe publicaties te traceren die voortbouwen op eerder onderzoek. In mijn bijdrage over de Nec-index in de Automatisering Gids van 25 februari 2000 heb ik vooral gewezen op het nut van Citeseer als hulpmiddel bij het doen van onderzoek. Alle collega's die ik hierover heb gesproken onderschrijven deze conclusie en zijn ronduit enthousiast over het Nec-systeem. Ook in de pers, en dan met name in de universiteitsbladen, heeft Citeseer de nodige aandacht gekregen. Daarbij lag het accent echter vrijwel volledig op de door mij bij wijze van amusement opgestelde lijst van meest geciteerde Nederlandse informatici. Aan mijn kanttekeningen over de betrouwbaarheid van deze lijst werd in de meeste gevallen voorbij gegaan. In plaats daarvan werden vergaande en soms onzinnige conclusies getrokken zoals "Nederlandse informatici tellen wereldwijd niet". Mijn doel met deze bijdrage is om deze foutieve conclusies (die zeer schadelijk zijn voor het vakgebied) te weerleggen en nogmaals duidelijk te maken waarom het zo gevaarlijk is statistiek te bedrijven met dit soort lijstjes. Het is hiertoe nuttig om te kijken naar een geactualiseerde versie van de lijst van meest geciteerde informatica-onderzoekers werkzaam in of afkomstig uit Nederland. De tabel is gebaseerd op de nieuwe versie van de top-10000 (top-10K) die Nec in maart van dit jaar heeft gepubliceerd. De nieuwe lijst bevat een aantal namen van onderzoekers (vrijwel allen werkzaam in het buitenland en/of binnen andere disciplines) die ik in mijn eerste lijst gemist bleek te hebben. Andy Tanenbaum consolideert zijn positie als meest geciteerde Nederlandse onderzoeker en stijgt zelfs van plaats 91 naar plaats 79. Edsger Dijkstra zakt iets naar plaats 132. Van de nieuwe namen verrast in het bijzonder die van Bart Selman, een AI-onderzoeker werkzaam bij Cornell die zowaar op de derde plaats blijkt te staan. Ooit afgestudeerd in Delft en daarna naar Amerika vertrokken. Selman scoort vooral goed met zijn werk op het terrein van de complexiteitstheorie. Een recent artikel van hem in Nature is uitgebreid besproken in de New York Times, een eer die slechts heel weinig onderzoekers te beurt valt. Frans Kaashoek blijkt tweemaal in de top-10K van Nec voor te komen: eenmaal op plaats 296 als M. Kaashoek en eenmaal op plaats 6475 als F. Kaashoek. Citeseer realiseert zich niet dat het hier om dezelfde persoon gaat. In de nieuwe top-50 staan nog vier andere voorbeelden van 'gespleten persoonlijkheden': Robbert van Renesse (als R. van Renesse en R. Renesse), Paul Vitányi (als P. VitÁnyi en P. Vitanyi), Guus Schreiber (als G. Schreiber en A. Schreiber) en Rinus Plasmeijer (als M. Plasmeijer en R. Plasmeijer). Om vermeld te worden in de top-10K van Nec dient men minimaal 84 maal geciteerd te worden. Hiermee ontstaat een soort 'kiesdrempel voor gespleten persoonlijkheden'. Zo hoort mijn Nijmeegse collega Sjaak Smetsers met ver over de 100 citaties zeker in de top-10K thuis, maar het lijkt er op dat geen van zijn beide incarnaties S. Smetsers en J.E.W. Smetsers de kiesdrempel haalt. De bouwers van het Nec-systeem willen binnenkort functionaliteit aan het systeem toevoegen waarmee dit soort dubbele voorkomens bijeengevoegd kunnen worden. Hiermee zal dan tevens het kiesdrempelprobleem verdwijnen. Gecorrigeerd ------------ Citeseer heeft veel moeite met samengestelde namen. Zo kwam Henk van der Vorst, hoogleraar Numerieke Wiskunde in Utrecht, niet voor in de top-10K van februari. De twee voorvoegsels in zijn naam bleken teveel voor het Nec-systeem. Inmiddels is deze fout gecorrigeerd en staat hij op plaats 352. Hiermee is Van der Vorst in één klap de meest geciteerde Utrechtse informatica-onderzoeker. In de lijst van februari werd door gebrekkige kennis van de Nederlandse nomenclatuur iedere citatie van bijvoorbeeld Van Duin naar Van der Vorst gezien als een zelfcitatie, en derhalve niet meegeteld in het totaal. Deze fout is inmiddels gecorrigeerd en we kunnen vastellen dat naast Van der Vorst vrijwel alle onderzoekers waarvan de naam begint met 'Van' er flink op vooruit zijn gegaan. Twee andere Utrechtenaren die ten onrechte ontbraken in de vorige top-50, zijn de natuurkundigen Jan Koenderink en Andrea van Doorn. Vanwege hun werk op het terrein van beeldverwerking kunnen zij zeker als halve informatici worden gezien. Een bekende onderzoeker die ontbrak was Alexander Rinnooy Kan. Citeseer verbastert zijn naam tot A. Kan. Deze huidige topman van de ING Groep en voormalig voorzitter van VNO-NCW is al jaren niet meer echt actief als onderzoeker, maar zijn publicaties met Jan Karel Lenstra op het terrein van de combinatorische optimalisering (onder meer het handelsreizigerprobleem) worden nog steeds veel geciteerd. Nieuw in de lijst zijn verder een aantal Nederlanders die werkzaam zijn in het buitenland (Hans Kamp, Maarten van Emden, Guido van Rossum, Keith van Rijsbergen), twee AI-onderzoekers van de afdeling Psychologie van de UVA (Guus Schreiber en Joost Breuker), een Belgische onderzoeker met een deeltijdaanstelling in Eindhoven (Jan Paredaens) en als laatste Frank van Harmelen, een AI-onderzoeker verbonden aan de VU in Amsterdam. Broddelwerk ----------- De tabel maakt duidelijk dat de top-10K nog aan aanzienlijke fluctuaties onderhevig is, alleen al door alle verbeteringen die voortdurend worden doorgevoerd. Het zou mij niet verbazen wanneer Dijkstra bij een volgende editie van de lijst Tanenbaum verdringt van de eerste plaats. Het is duidelijk dat we de aantallen citaties die Citeseer levert met een flinke korrel zout moeten nemen en dat door fouten in het Nec-systeem individuele onderzoekers zwaar benadeeld kunnen worden. Henk van der Vorst gaat een stap verder en beschuldigt Nec Research van broddelwerk: 'Het programma waarmee de lijst is samengesteld is het zoveelste wanproduct waardoor de informatica een zeer slechte naam wordt bezorgd. In Utrecht worden hoge eisen aan informatici gesteld en een student die in zijn vrije tijd zo'n programma maakt, zet zichzelf te kijk', stelt hij in het U-blad van 23 maart. Wanneer Utrecht inderdaad zulke hoge eisen stelt aan studenten, dan vrees ik dat slechts bij zeer hoge uitzondering iemand daar de eindstreep zal passeren. Iedereen die gebruik maakt van Citeseer en de moeite neemt om publicaties over dit systeem door te lezen (verkrijgbaar via http://citeseer.nj.nec.com/cs) moet onder de indruk raken van dit ingenieuze en complexe stuk software. Dit is niet iets dat wie dan ook in zijn vrije tijd zomaar even kan verbeteren. Van der Vorst onderschat de immense complexiteit van de taak die het Nec-systeem uitvoert, waarbij bijvoorbeeld rekening gehouden moet worden met de nomenclatuur van alle landen ter wereld. De geloofwaardigheid van de lijst van Nec wordt zeer vergroot door het feit dat (na het bijeenvoegen van beide incarnaties van Paul Vitányi) (a) alle Nederlandse informatica-onderzoekers in de top-1000 deel uitmaken van een groep die door de VSNU als excellent is beoordeeld en door het feit dat (b) alle informaticagroepen die door de VSNU als excellent zijn beoordeeld een vertegenwoordiger hebben in de top-2000. Dit is opmerkelijk gezien het feit dat beide ordeningen op basis van geheel verschillende criteria tot stand zijn gekomen. Trots ----- Op basis van de top-50 in mijn eerdere AG-artikel kopte het Nijmeegse universiteitsblad KUnieuws op 3 maart: "Nederlandse informatici tellen wereldwijd niet". Deze conclusie is volstrekt onterecht, zeker in het licht van de 13 nieuwe namen in de gecorrigeerde top-50. De totale wereldbevolking bedraagt op dit moment omstreeks 6 miljard mensen. In veel landen wordt nauwelijks informatica-onderzoek gedaan, dus laten we ons beperken tot de bevolking van de EU, VS, Japan en nog wat rijke landen. Daar leven bij elkaar een kleine 1 miljard mensen. Met een bevolking van 15,6 miljoen vormt Nederland hier 1,6 procent van. Uit de tabel blijkt echter dat zowel in de top-1000 als in de top-2500 omstreeks 2 procent van de onderzoekers Nederlands is. De conclusie moet derhalve luiden dat Nederland het zelfs iets beter doet dan je redelijkerwijs mag verwachten. Op deelgebieden scoort ons land buitengewoon sterk. Dit beeld stemt overeen met de conclusies van de VSNU-visitatiecommissie. Die schrijft bijvoorbeeld: "The strength and quality of Theoretical Computer Science at the Dutch Universities is impressive. Several of the researchers are world class." Daar mogen we best trots op zijn. Overigens moet men met internationale vergelijkingen op basis van de Nec-lijst wel erg oppassen. Uitgaande van de veronderstelling dat het aantal verwijzingen naar auteurs van het eigen land boven het wereldgemiddelde ligt van verwijzingen naar auteurs van dat land, wordt het percentage van bronnen die wel of niet op Internet staan een belangrijke invloed: naarmate dat gebruik in een land sterker is wordt het meer bevoordeeld.In de VS is het al veel langer gebruik om artikelen op het web te zetten en ook afstudeerscripties zijn daar bijvoorbeeld standaard online beschikbaar. Dit verklaart voor een groot deel de op het eerste gezicht angstaanjagende dominantie van Amerikaanse onderzoekers in de top-10K. Hitlijstdenken -------------- Uit veel reacties blijkt dat mensen de Nec-lijst ook willen gebruiken om te komen tot een onderlinge rangschikking van Nederlandse universiteiten en onderzoeksinstellingen. Zo stuurde een collega mij een e-mail - en cc naar de decaan van zijn faculteit - waarin wordt betoogd dat bij een ruime interpretatie waarin ook ex-medewerkers en nog aan te stellen krachten worden meegeteld, zijn universiteit toch duidelijk tot de top behoort. Men hoeft niet eens het boek 'How to lie with statistics' gelezen te hebben om in te zien dat door de juiste keuze van het selectiecriterium de meeste onderzoeksinstellingen kunnen claimen de beste te zijn: * De afdeling informatica van de Vrije Universiteit Amsterdam heeft met Tanenbaum de meest geciteerde Nederlandse informaticus in huis. * Wanneer we onderzoekers van alle faculteiten meetellen scoren de Universiteit van Amsterdam (UVA) en de Universiteit van Utrecht als beste met 9 onderzoekers in de Nederlandse top-50. Utrecht heeft echter de meeste onderzoekers in de top-1000 en de UVA de meeste onderzoekers in de top-2000. Wanneer we ons beperken tot onderzoekers die werkzaam zijn bij een informatica-afdeling en verder deeltijdaanstellingen proportioneel laten meetellen (Apt, Bergstra, Vitányi en Klint hebben allemaal een deeltijdaanstelling bij de UVA) dan komt Utrecht weer als beste uit de bus. * Bij hetzelfde criterium maar dan beperkt tot de top-2100 (toegegeven, het wordt nu enigszins artificieel) komt Nijmegen als winnaar tevoorschijn. * Zeker 17 onderzoekers in de top-50 werken of werkten bij het CWI. Universiteiten die slecht scoren in de top-10K kunnen (vaak terecht) wijzen op de verhoudingsgewijs grote maatschappelijke impact van hun onderzoek. Ethisch ------- Je kunt je afvragen of Nec Research wel een lijst van meest geciteerde informatici op het web mag zetten, een lijst die via veel fouten en op niet-controleerbare wijze tot stand komt. Sommigen menen van niet. "Menig naam en faam wordt er mee te kijk gezet. Daardoor is enige zorgvuldigheid wel op zijn plaats," stelt Van der Vorst in het U-blad. Zoals duidelijk mag zijn, vind ik zelf het publiceren van dit soort lijsten verdedigbaar, zolang maar duidelijk wordt aangegeven hoe ze tot stand zijn gekomen. Op de Citeseer-site stelt het Nec Research Institute expliciet dat de top-10K mogelijk fouten bevat. Op basis van de citatie-index van Nec (die door iedereen als buitengewoon nuttig wordt ervaren) en een lijst met namen van informatica-onderzoekers (bijvoorbeeld de lijst met ruim 40.000 namen die wordt bijgehouden op http://hpsearch.uni-trier.de/ hp/) is het een triviale programmeer-exercitie om een top-10K samen te stellen. Het lijkt mij een onhoudbare positie om tegen publicatie van bepaalde informatie te zijn wanneer die informatie zeer eenvoudig berekend kan worden op basis van online gratis beschikbare informatie. Omdat iedereen toch graag zo hoog mogelijk in de top-10K staat, zorgt het online beschikbaar maken van deze lijst ervoor dat de bouwers van het Nec-systeem veel nuttige feedback krijgen, op basis waarvan ze het systeem verder kunnen verbeteren. Aangezien citatie-analyse slechts een van de vele indicatoren is waarmee wetenschappelijke kwaliteit kan worden gemeten (een indicator waar sowieso veel op aan te merken valt), hoeft geen enkele onderzoeker bang te zijn dat zijn naam of faam te kijk wordt gezet. Gegeven het grote aantal fouten zal verder geen enkele beleidsmaker het in zijn hoofd halen om op basis van de top-10K beslissingen te nemen. Op een meer kleinschalig niveau speelt het Nec-systeem echter wel degelijk een belangrijke rol bij het beoordelen van onderzoek. Zo schrijft een invloedrijke collega: "Ik maak deel uit van verschillende benoemingsadviescommissies voor hoogleraren. Ik heb de index losgelaten op alle kandidaten en mede op basis hiervan hebben we beslissingen genomen. Ik realiseer me dat het systeem verre van exact is, maar wanneer de ene kandidaat 500 keer geciteerd wordt en een andere 20 keer, dan is er een goede argumentatie nodig om mij ervan te overtuigen dat de tweede kandidaat beter is dan de eerste. Maar je zult mij nooit horen zeggen dat 300 beter is dan 200." Ik denk dat tegen een dergelijk gebruik van het Nec-systeem weinig in te brengen valt. Prof. dr. Frits W. Vaandrager is als hoogleraar informatica voor technische toepassingen verbonden aan het Computing Science Institute van de Katholieke Universiteit Nijmegen. Met dank aan Krzysztof Apt, Frans Birrer, Maarten Fokkinga, Rob van Glabbeek, Frank van Harmelen, Bart Jacobs, Mark Overmars, Robbert van Renesse, Andy Tanenbaum, Paul Vitányi en Henk van der Vorst. Frank van Harmelen heeft de top-10K neergezet in http://www.cs.vu.nl/~frankh/spool/ top10K.html in een wat handzamer formaat: één grote file (1Mb) in plaats van 50 aparte files met elk 200 namen, zoals bij Nec). ================== Top-50 Nederlandse Informatici (herziene versie) Plaats NL Plaats Wereld Onderzoeker Aantal Citaties Affiliatie maart (februari) maart (februari) (in maart lijst) 1 (1) 79 (91) Andy Tanenbaum 1716 (VUA) 2 (2) 132 (112) Edsger Dijkstra 1411 (U Texas, emeritus) 3 (-) 148 (158) Bart Selman 1336 (Cornell) 4 (3) 223 (240) Jan Willem Klop 1167 (KUN/CWI/VUA) 5 (5) 296+6475 (294+6500) Frans Kaashoek 1157 (MIT) 6 (4) 248 (246) Krzysztof Apt 1122 (CWI/UVA) 7 (8) 361+9327 (422) Robbert van Renesse 1024 (Cornell) 8 (-) 352 (-) Henk van der Vorst 952 (UU, wiskunde) 9 (6) 382 (303) Henk Barendregt 917 (KUN) 10 (7) 383 (382) Jan Bergstra 917 (UVA/UU, filosofie) 11 (-) 444 (427) Jan Koenderink 839 (UU, natuurkunde) 12 (10) 533 (537) Jan Karel Lenstra 768 (TUE, wiskunde) 13 (9) 600 (535) Lex Schrijver 719 (CWI/UVA, wiskunde) 14 (13) 650 (672) Henri Bal 692 (VUA) 15 (11) 651 (585) Grzegorz Rozenberg 691 (RUL) 16 (12) 681 (660) Mark Overmars 673 (UU) 17 (15) 700 (796) Emile Aarts 657 (TUE/Philips) 18 (16) 983 (985) Jos Baeten 533 (TUE) 19 (-) 1006 (986) Alexander Rinnooy Kan 526 (ING) 20 (14) 1052 (791) Gerard Holzmann 513 (Lucent) 21 (17) 1152 (1108) Thomas Ba"ck 482 (RUL) 22 (18) 1167 (1200) Sape Mullender 478 (UT/Lucent) 23 (-) 1214 (1652) Andrea van Doorn 467 (UU, natuurkunde) 24 (19) 1224 (1247) Owe Axelsson 464 (KUN) 25 (20) 1259 (1350) Frits Vaandrager 457 (KUN) 26 (21) 1325 (1383) Ed Brinksma 441 (UT) 27 (22) 1355 (1432) Rob van Glabbeek 436 (Stanford) 28 (50) 3121+4096 (3155+4207) Paul Vita'nyi 427 (CWI/UVA) 29 (25) 1423 (1724) Bob Wielinga 421 (UVA, SWI) 30 (24) 1513 (1569) Jan van Leeuwen 404 (UU) 31 (-) 1543 (1876) Maarten van Emden 400 (Univ. Victoria, Canada) 32 (-) 1562 (1567) Hans Kamp 397 (Stuttgart, letteren) 33 (23) 1666 (1568) Arjen Lenstra 381 (CityBank, NY) 34 (26) 1673 (1753) Paul Klint 380 (CWI/UVA) 35 (32) 1756 (2270) Nico de Bruijn 368 (TUE, wiskunde, emeritus) 36 (29) 1788 (1924) Pierre America 363 (Philips) 37 (28) 1821 (1899) Johan van Benthem 359 (UVA) 38 (-) 3597+5795 (3983+6428) Guus Schreiber 353 (UVA, SWI) 39 (27) 1896 (1834) Hendrik Lenstra 347 (Berkeley/RUL, wiskunde) 40 (-) 1960 (2768) Keith van Rijsbergen 338 (Glasgow) 41 (-) 2030 (2452) Joost Breuker 330 (UVA, SWI) 42 (42) 3146+9548 (3427+9887) Rinus Plasmeijer 325 (KUN) 43 (30) 2125 (1975) Jan Friso Groote 320 (CWI/TUE) 44 (-) 2150 (2335) Jan Paredaens 316 (Antwerpen/TUE) 45 (31) 2176 (2179) Mark de Berg 313 (UU) 46 (-) 2180 (2271) Guido van Rossum 313 (CNRI, USA) 47 (33) 2366 (2414) Aart Middeldorp 293 (Tsukuba) 48 (35) 2475 (2471) Erik Meijer 284 (UU) 49 (34) 2494 (2464) Hans Bodlaender 283 (UU) 50 (-) 2507 (3166) Frank van Harmelen 282 (VUA) De vijftig meest geciteerde Nederlandse informatica-onderzoekers volgens de citatie-index van het NEC Research Institute (http://citeseer.nj.nec.com/cs, lijst Maart 2000)