In: Automatisering Gids 34(8):19, February 25, 2000. Nieuwe Citatie-Index Voorkomt Dubbel Werk Het informatica-onderzoek heeft er een nieuw hulpmiddel bij: de citatie-index van het Nec Research Institute. Informatici kunnen hier volgens prof. dr. Frits Vaandrager hun voordeel mee doen. De Nec-index is actueler en vollediger dan de traditionele science citation index. Men komt er snel achter waar onderzoekers mee bezig zijn. De nieuwe index laat ook zien hoe goed het Nederlandse onderzoek is ten opzichte van de rest van de wereld. Frits Vaandrager Sinds kort is er voor informatica-onderzoekers een zeer relevante citatie-index die wordt bijgehouden door het Nec Research Institute en gratis toegankelijk is via http://citeseer.nj.nec.com/cs. Het innovatieve in de aanpak van het Nec Research Institute is dat een programma volledig automatisch het Internet afstruint op zoek naar artikelen op het terrein van informatica (in word, postscipt, pdf-formaat) en daar dan alle referenties uitvist. De index is momenteel gebaseerd op meer dan 250.000 documenten en bevat meer dan 3 miljoen citaties. Citatie-indices vormen een buitengewoon nuttig hulpmiddel bij het doen van onderzoek. Ze wijzen onderzoekers op belangrijke correcties op eerdere publicaties en op nieuwe resultaten die voortbouwen op eerder werk. Op deze manier helpen ze om zinloze duplicatie van onderzoek te voorkomen. Binnen de informatica heb je veel meer aan de index van het Nec Research Institute dan aan bijvoorbeeld de traditionele 'Science Citation Index', ondanks de veel grotere betrouwbaarheid van de laatste en de intransparantie van het Nec-selectiecriterium. Dit komt vanwege, ten eerste, de grotere actualiteitswaarde van de Nec-index. Binnen de informatica zit er (helaas) toch vaak een periode van een paar jaar tussen het moment waarop een artikel wordt geschreven (en op het web gezet) en het moment waarop dit artikel in een tijdschrift verschijnt. Ten tweede dringen niet veel relevante artikelen door tot de SC-index. In tegenstelling tot andere vakgebieden zoals fysica en geneeskunde, bestaat er niet echt een vaste lijst van toptijdschrijften waarin de belangrijke resultaten gepubliceerd worden. Informatici publiceren veelal in conferentieproceedings, omdat dit sneller is. Wanneer zich een nieuw belangrijk onderwerp aandient dan zullen er vrij snel nieuwe conferenties plaatsvinden. De beste onderzoekers zullen hun resultaten daar presenteren. Een verhoudingsgewijs zeer groot gedeelte van de informaticapublicaties is online beschikbaar en wordt opgenomen in de Nec-index. Ten derde vertelt de SC-index alleen welke artikelen een gegeven artikel citeren. De Nec-index geeft met e'e'n druk op de knop ook de context: de relevante paragrafen waarin de citaties voorkomen. Zo weet men bijvoorbeeld snel of hier sprake is van een citatie uit beleefdheid ('related work in this area is reported in [3,5,7-12,23,40]') of van een belangrijke verbetering van of kritiek op het geciteerde artikel. Als het artikel waarin wordt geciteerd relevant lijkt, kan men het vervolgens met e'e'n druk op de knop downloaden. Waar men vroeger dagen voor naar de bibliotheek moest en talloze collega's voor moest raadplegen, komt men nu binnen een kwartier achter met het Nec-systeem. Ten slotte is de Nec-index voor iedereen gratis toegankelijk. Top-20 Citatie-indices kunnen natuurlijk ook worden gebruikt voor het uitvoeren van citatie-analyses en voor het maken van 'hitlijsten'. Zo heeft het Nec Research Institute in november 1999 een lijst van meest geciteerde informatici opgesteld. Hierin bleken echter zelfcitaties te zijn meegenomen. Deze fout is inmiddels gecorrigeerd en begin deze maand is een nieuwe lijst op het web gezet. Jeffrey Ullman blijkt 's werelds meest geciteerde informaticus te zijn. Aan de top zien we verder bekende namen: Robin Milner, Jack Dongerra, Leslie Lamport, John Hennessy, Robert Tarjan, Ron Rivest, Donald Knuth en anderen. In de tabel heb ik naar beste vermogen de eerste vijftig onderzoekers in deze lijst die werken in of afkomstig zijn uit Nederland, op een rijtje gezet. Hiervan zal ik de top-20 globaal bespreken. Deze 'hitlijst' moet vooral worden gezien als een vorm van amusement. De aanname dat iemand die veel wordt geciteerd ook veel wetenschappelijke impact heeft, gaat lang niet altijd op. Op de eerste plaats treffen we Andy Tanenbaum van de VU in Amsterdam. Hij heeft deze positie voor een belangrijk deel te danken aan zijn boeken (Computer Networks, Operating Systems, Distributed Operating Systems). Die zijn niet alleen zeer populair binnen het onderwijs maar worden ook als gezaghebbend beschouwd in de wetenschappelijke wereld. Tanenbaums Minix was de directe voorganger van het momenteel zo succesvolle bedrijfssysteem Linux. Maar naast zijn tekstboeken wordt ook het eigen onderzoek (gedistribueerde bedrijfssystemen) ruim geciteerd. Tanenbaum is de enige Nederlandse onderzoeker die zich een plaats heeft weten te verwerven in de top-100 van de Nec-lijst. Waar hij verder ook trots op zal zijn is het feit dat vier van zijn vroegere promovendi (Kaashoek, Van Renesse, Bal en Mullender) behoren tot de twintig meest geciteerde Nederlanders. Bijzonder indrukwekkend is vooral de prestatie van Frans Kaashoek die, pas in 1992 gepromoveerd, toch al tot de vijfde plaats is doorgedrongen. Ik begrijp nu beter waarom het MIT Kaashoek indertijd per Concorde liet invliegen voor een sollicitatiegesprek. Op de tweede plaats staat Neerlands bekendste informaticus, Edsger Dijkstra. Zijn boek 'A Discipline of Programming' uit 1976 wordt nog steeds gretig geciteerd. Daarnaast verwijst men ook veel naar zijn fundamentele inzichten op het terrein van zelf-stabilisatie, graafalgoritmen en guarded commands. Sommige resultaten van Dijkstra zijn zozeer deel gaan uitmaken van de basiskennis van iedere informaticus (denk bijvoorbeeld aan zijn werk op het gebied van mutual exclusion en semaforen) dat men het veelal niet meer nodig acht om naar de oorspronkelijke artikelen te verwijzen. Misschien zou Tanenbaum, die een aantal van Dijkstra's resultaten uitvoerig bespreekt in zijn boeken, een paar van zijn citaties 'cadeau' moeten doen aan Dijkstra. Nederland staat internationaal bekend om zijn onderzoek op het gebied van de theoretische informatica. Dit blijkt ook uit de citatielijst. Zo is de Amsterdamse 'procesalgebra-school' met vier onderzoekers vertegenwoordigd in de top-20: Klop, Bergstra, Baeten en Vaandrager. Andere theoretici in de top-20 zijn Krzysztof Apt (programmacorrectheid, logisch programmeren), Barendregt (lambda calculus, typetheorie) en Rozenberg (formele talen, concurrency theorie, DNA computing). Dan zien we op plaats elf Mark Overmars (computationele geometrie), op veertien Gerard Holzmann (protocolverificatie), op vijftien Emile Aarts (Boltzman-machines, combinatorische optimalisering) en op zeventien Thomas B"ack (evolutionaire algoritmen). Weinig toppers In de Nec-citatielijst komen ook veel wiskundigen voor. Op het eerste gezicht misschien verrassend, maar als je er even over nadenkt toch ook weer niet. Veel fundamentele algoritmen binnen de informatica zijn gebaseerd op resultaten uit de wiskunde. Daarnaast speelt bijvoorbeeld de mathematische logica een essenti"ele rol bij het redeneren over de correctheid van programma's. De Amsterdamse wiskundige Lex Schrijver, bekend vanwege zijn werk op het gebied van lineaire programmering, staat op plaats negen, direct gevolgd op plaats tien door Jan Karel Lenstra uit Eindhoven, specialist op het gebied van combinatorische optimalisatie. Aardig is ook te zien dat twee broers van Jan Karel Lenstra, de wiskundigen Arjen en Hendrik, ook hoog genoteerd staan in de lijst (respectievelijk 23 en 27). Geheel terecht vanwege hun resultaten op het gebied van het factoriseren van grote getallen (relevant voor iedereen die RSA-codes wil kraken). De Nijmeegse numeriek wiskundige Owe Axelsson staat op plaats negentien en is daarmee de derde wiskundige die is doorgedrongen tot de top-20. Wanneer we kijken naar het aantal vertegenwoordigers in de top-50 bij de diverse informatica-onderzoeksinstellingen in Nederland, dan staan het Centrum voor Wiskunde en Informatica (CWI) en de Universiteiten van Amsterdam (UvA), Nijmegen en Utrecht aan kop. Opvallend is dat zowel de Technische Universiteit Delft als de Universiteit van Groningen niet vertegenwoordigd zijn. Verder doen de algemene universiteiten het wat beter dan de TU's. Bij elkaar staan er in de top-5000 van de Nec-citatielijst ruim vijftig onderzoekers die werkzaam zijn in of afkomstig zijn uit Nederland. Eigenlijk niet eens zoveel. Ook valt op dat we weinig echte toppers hebben. Veelschrijvers Wat zegt een citatie-analyse over wetenschappelijke impact? Of over wetenschappelijke kwaliteit? Voor Nederlandse informatici is dit een zeer actuele vraag nu het Gebiedsbestuur Exacte Wetenschappen van NWO serieus overweegt om regelmatig citatie-analyses te laten uitvoeren voor de aangesloten disciplines (waaronder informatica) en de uitkomsten van deze analyses een rol te laten spelen bij de besluitvorming over het honoreren van onderzoeksaanvragen. Wanneer we de Nec-citatielijst vergelijken met de resultaten van de laatste VSNU-visitatie van het wiskunde- en informatica-onderzoek bij Nederlandse universiteiten, dan zien we een verrassend hoge correlatie: 1. Van alle groepen die door de VSNU op een of meer criteria als 'excellent' zijn beoordeeld zitten er een of meer representanten in de top-50 van meest geciteerde Nederlanders. 2. Alle in Nederland werkzame onderzoekers in de top-16 maken deel uit van een groep die op een of meer criteria als 'excellent' is beoordeeld. Natuurlijk impliceert een hoge correlatie tussen de citatielijst en de uitslag van de VSNU-visitatie geenszins een hoge correlatie tussen de hitlijst en 'kwaliteit'. Zo menen sommigen van mijn collega's dat de VSNU veelschrijvers vaak iets te hoog heeft beoordeeld. En wie veel schrijft wordt in het algemeen ook veel geciteerd. Het grote gevaar van grootschalig gebruik van citatie-analyse bij de beoordeling van wetenschappelijke onderzoek is dat men, op basis van de toch duidelijk aanwezige correlatie tussen aantallen citaties en wetenschappelijke impact, blind gaat varen op citatie-analyses. In veel gevallen zal dit leiden tot onjuiste conclusies. Een VSNU-visitatiecommissie die in een zeer beperkt tijdsbestek al het Nederlandse informatica-onderzoek moet beoordelen, ziet zichzelf in wezen geplaatst voor een onmogelijke taak. Hoe bepaal je de kwaliteit van een onderzoeker wanneer je nauwelijks inzicht hebt in zijn specialisme en geen tijd hebt om je daar ook maar enigszins in te verdiepen? Noodgedwongen zal zo'n commissie zich verschuilen achter grootschalige kwantitatieve analyses. Gebruik van citatie-analyse hierbij is gevaarlijk. Fouten Wat kan er misgaan? Om te beginnen is duidelijk dat er in de Nec-citatielijst nog heel veel fouten zitten. Zo eindigt een zekere J. Smith maar liefst op plaats twintig in de lijst. Het gaat hierbij echter niet om een enkele persoon maar om een groep, om onderzoekers die op e'e'n hoop zijn geveegd. Verder gelooft natuurlijk niemand in het bestaan van de onderzoekers C Systems (1686) en C Programming (5816). Dan zijn er nog diverse andere meetfouten. Zo staat de Nijmeegse onderzoeker Rinus Plasmeijer op positie 42 in de top-50 met 223 citaties. Wanneer men het systeem echter vraagt naar de citaties waarbij Plasmeijer auteur is, dan levert dit 345 citaties op. Dit blijken inderdaad allemaal verwijzingen te zijn naar artikelen van Rinus Plasmeijer. Op grond hiervan hoort hij dus eigenlijk op plaats dertig thuis. Mogelijk heeft deze fout te maken met het feit dat Plasmeijer in plaats van de initiaal 'M' van Marinus tegenwoordig de 'R' van Rinus gebruikt in zijn publicaties. In technische rapporten van de vakgroep programmatuur van de Universiteit van Amsterdam staat aan het einde altijd een lijst met recente rapporten van de vakgroep. Het Nec-systeem denkt ten onrechte steeds dat het hier om referenties gaat. Deze fout levert bijvoorbeeld Jan Bergstra een flink aantal citaties op. Wanneer dit verdisconteerd zou worden, zou hij zeker een plaats zakken in de top-50. Bovengenoemde en andere fouten maken dat we de aantallen citaties die het Nec-systeem levert met een flinke korrel zout moeten nemen. Nog los van de problemen die samenhangen met persoonsidentificatie, lijkt een foutenmarge van 20 procent redelijk. Nuttig Zelfs wanneer het Nec-systeem perfect zou zijn, zou men nog niet zomaar een verband mogen leggen tussen aantallen citaties en wetenschappelijke impact. Ik noem een paar bekende argumenten (er zijn er meer): 1. Een groepsleider die zijn naam systematisch op alle publicaties zet, zal hoger eindigen dan een groepsleider die alleen co-auteur is van publicaties waar hij een substanti"ele bijdrage aan heeft geleverd. (Een consequentie hiervan is dat je in citatie-analyses eigenlijk nooit personen mag beoordelen, maar alleen onderzoeksgroepen.) 2. Het komt voor dat clubjes onderzoekers elkaar uitbundig citeren en prijzen, terwijl hun onderzoek wetenschappelijk gezien volledig irrelevant is, een verschijnsel dat door sommigen aangeduid wordt als 'wederzijdse citeermasturbatie'. 3. In sommige deelgebieden citeert men vaker naar elkaar dan in andere. Zo zullen theoretische informatici dikwijls meer artikelen schrijven en elkaar vaker citeren dan meer toegepaste onderzoekers. 4. Sommige onderzoekers zijn 'de troepen ver vooruit'. Er wordt nog nauwelijks verwezen naar hun werk maar de wetenschappelijke impact is er wel degelijk. Insiders kunnen voorspellen dat het in de toekomst citaties zal regenen. 5. Meer nog dan de kwantiteit zegt de kwaliteit van citaties iets over wetenschappelijke impact. Toch denk ik dat op een meer kleinschalig niveau systemen zoals dat van het Nec Research Institute een heel nuttige rol kunnen spelen bij het beoordelen van de kwaliteit van onderzoek. Wanneer een sollicitatiecommissie een keuze moet maken tussen kandidaten A, B en C, of een beoordelingscommissie moet besluiten of de Pionier-aanvraag van D of E gehonoreerd moet worden, dan kan het heel veel helpen om eens in detail te kijken naar hoe er geciteerd wordt naar het werk van de betrokken onderzoekers. Naast de kwantiteit is de kwaliteit van de citaties hierbij zeker even belangrijk. Prof. dr. Frits W. Vaandrager is als hoogleraar informatica voor technische toepassingen verbonden aan het Computing Science Institute van de Katholieke Universiteit Nijmegen. ---- Tabel top-50 ---- Top-50 Nederlandse informatici Plaats Plaats Onderzoeker Aantal Affiliatie NL Wereld citaties 1 91 Andy Tanenbaum 1669 (VU) 2 112 Edsger Dijkstra 1580 (U Texas, emeritus) 3 240 Jan Willem Klop 1155 (KUN/CWI/VU) 4 246 Krzysztof Apt 1135 (CWI/UVA) 5 294 Frans Kaashoek 1046 (MIT) 6 303 Henk Barendregt 1035 (KUN) 7 382 Jan Bergstra 921 (UVA/UU, filosofie) 8 422 Robbert van Renesse 882 (Cornell) 9 535 Lex Schrijver 773 (CWI/UVA, wiskunde) 10 537 Jan Karel Lenstra 769 (TUE, wiskunde) 11 585 Grzegorz Rozenberg 740 (RUL) 12 660 Mark Overmars 691 (UU) 13 672 Henri Bal 685 (VU) 14 791 Gerard Holzmann 615 (Lucent) 15 796 Emile Aarts 612 (TUE/Philips) 16 985 Jos Baeten 541 (TUE) 17 1108 Thomas B"ack 503 (RUL) 18 1200 Sape Mullender 476 (UT/Lucent) 19 1247 Owe Axelsson 466 (KUN, wiskunde) 20 1350 Frits Vaandrager 442 (KUN) 21 1383 Ed Brinksma 434 (UT) 22 1432 Rob van Glabbeek 423 (Stanford) 23 1568 Arjen Lenstra 399 (CityBank, NY) 24 1569 Jan van Leeuwen 398 (UU) 25 1724 Bob Wielinga 376 (UVA, sociale wet) 26 1753 Paul Klint 372 (CWI/UVA) 27 1834 Hendrik Lenstra 358 (Berkeley/RUL, wiskunde) 28 1899 Johan van Benthem 349 (UVA) 29 1924 Pierre America 346 (Philips) 30 1975 Jan Friso Groote 340 (CWI/TUE) 31 2179 Mark de Berg 313 (UU) 32 2270 N.G. de Bruijn 305 (TUE, wiskunde, emeritus) 33 2414 Aart Middeldorp 291 (Tsukuba) 34 2464 Hans Bodlaender 286 (UU) 35 2471 Erik Meijer 285 (UU) 36 2514 Joost Engelfriet 282 (RUL) 37 2546 Jan Willems 279 (RUG, wiskunde) 38 2659 Jan Rutten 271 (CWI) 39 2776 Anne Troelstra 262 (UVA) 40 3070 Peter Weijland 242 (KPN) 41 3140 Marko van Eekelen 238 (KUN) 42 3427 Rinus Plasmeijer 223 (KUN) 43 3534 Bart Jacobs 217 (KUN) 44 3659 Jan Heering 211 (CWI) 45 3818 Rob Gerth 202 (Intell) 46 3876 Harry Wijshoff 200 (RUL) 47 3879 Roland Bol 200 (Uppsala) 48 3898 Max Viergever 199 (UU) 49 4174 Nico Habermann 188 (CMU, Pittsburgh, USA, overleden) 50 4207 Paul Vitanyi 186 (CWI) De vijftig belangrijkste Nederlandse informatica-onderzoekers volgens de citatie-index van het Nec Research Institute (http://citeseer.nj.nec.com/cs). Bij het schrijven van dit artikel heb ik veel profijt gehad van discussies met en tips van collega's. Ik heb mijn best gedaan om de top-50 kloppend te krijgen. Mocht ik toch nog fouten hebben gemaakt dan stel ik het zeer op prijs om hiervan op de hoogte te worden gesteld. Voor correcties en aanvullingen, zie http://www.cs.kun.nl/~fvaan/PAPERS/citatiescorrecties.txt.