Webothèque

Report on the pilot exercise to develop bibliometric indicators for the Research Excellence Framework [en]

Les nombres entre crochets renvoient aux paragraphes du document original. Les lettres entre crochets renvoient aux annexes.

Le contexte

Depuis 1986, les 4 conseils de financements de la recherche britannique (HEFCE, SHEFC, HEFCW, DELNI) correspondant aux quatre nations d'origine, ont mis leurs efforts en commun pour évaluer la qualité de la recherche dans les établissements d'enseignement supérieur du Royaume-Uni. Cette évaluation par les pairs s'est déroulée sur une base quinquennale jusqu'en 2008 sous le titre de Research Assessment Exercise (RAE). L'impact du RAE sur la recherche britannique est généralement jugé comme positif : le gouvernement y a trouvé un outil de gouvernance, les universités quand à elles ont pu justifier de leur qualité et de l'utilité des fonds qui leur étaient alloués. Toutefois, le RAE atteint ses limites, principalement en terme financiers et en charge de travail pour les évaluateurs.
Le RAE de 2008 sera donc le dernier. Il sera remplacé par un exercice aux buts similaires intitulé Research Excellence Framework (REF) qui débutera en 2013. Le REF allègera la tâche des évaluateurs en leur fournissant des données bibliométriques, combinées avec des informations sur les fonds levés ainsi que sur les doctorants formés.

Le HEFCE (Higher Education Funding Council for England) a donc commandé une étude préliminaire pour évaluer la qualité des outils bibliométriques dont il pourrait disposer pour le REF. Celle-ci a été réalisée sur 35 domaines de recherche dans 22 universités [4, 18-22].
Les buts de cette étude étaient, entre autres, de :
- déterminer quels domaines scientifiques devraient utiliser les indicateurs bibliométriques dans le REF
- déterminer quelles catégories de personnel et de publications devraient être incluses dans le REF
- tester les bases de données Web of Science (WoS) et Scopus
- identifier les indicateurs à préférer
- faire des propositions sur l'usage les indicateurs bibliométriques dans l'évaluation
[17]

Principales conclusions

Il existe un large consensus parmi le groupe d'experts pour juger que la bibliométrie n'est pas suffisamment mure pour pouvoir être utilisée de manière automatique pour évaluer la recherche. Mais la portée des indicateurs bibliométriques pour soutenir les évaluations menées par les experts peut être très vaste [8, 98].
La robustesse des outils bibliométriques varie considérablement d'une discipline à l'autre et décline fortement pour les disciplines dont les publications sont mal couvertes par les bases de données [9]
Plusieurs modèles ont été testés pour évaluer la recherche d'une université dans une discipline [6, 24-31]. La première, la moins chère, consiste à chercher les articles en fonctions de l'adresse de l'institution et des catégories des journaux. Cette méthode n'est toutefois pas très fiable car des physiciens peuvent publier dans des revues de chimie et réciproquement. La deuxième méthode consiste à demander aux universités la liste du personnel permanent d'une unité donnée et à regarder l'ensemble de ses publications. Beaucoup plus fiable, cette méthode à toutefois l'inconvénient de demander un effort considérable de collecte des données. La dernière méthode consiste à ne prendre que les 6 meilleures publications de chaque membre d'une unité. Les résultats sont aussi bons que pour la deuxième méthode mais le coût bien moindre. Les experts et les universités s'accordent également pour juger cette méthode comme la plus informative des trois. [99, 105]

Remarques techniques

La définition d'un champ scientifique est un problème crucial [C 2-84]. Cette définition est nécessaire pour calculer les facteurs de normalisation permettant de comparer une unité avec le reste de la recherche mondiale [54]. Mais, si les champs sont définis de manière trop large, la comparaison devient peu pertinente : le nombre de citations attendues est très différent pour un article de physique théorique et pour un article de physique des particules. S'ils sont définis de manière trop étroite, on ne compare plus qu'une unité avec elle-même et les recherches multidisciplinaires deviennent difficiles à classer. Le choix du degré de granularité dans la définition d'un champ est donc un choix qui doit être fait par l'instance d'évaluation [C 3]. Il peut être différent pour le calcul des facteurs de normalisation et pour le compte-rendu fait à l'instance d'évaluation [C 83].
Bien que les distributions de citations aient une longue traîne qui rend la moyenne instable, l'utilisation de la médiane est rendue impossible par le trop grand nombre d'articles récents n'ayant encore reçu aucune citation [C 85-93]. Par ailleurs, la présentation des données en quantiles (top 10%, top 20%, etc.) est jugée plus utile pour l'évaluation que ne l'est une comparaison à la moyenne [97]
Cette étude présente par ailleurs de nombreux détails techniques très utiles à la construction d'indicateurs bibliométriques [notamment dans les annexes I et J, mais aussi B, H et L].

Avis des experts sur la bibliométrie

Une septentaine d'experts furent réunis pendant deux jours pour discuter de la bibliométrie [annexe D]. Leurs principales conclusions sont :
- Le modèle "top 6 papers" produit des résultats raisonnables dans de nombreuses disciplines. Les autres modèles sont à éviter. Aucun modèle n'est satisfaisant pour certaines disciplines (SHS, mathématiques) [D 5-6]
- Plusieurs raisons ont été évoquées pour expliquer cette différence de robustesse selon les disciplines [D 7]. Elles sont reproduites ci-dessous.
- Plusieurs utilisations possibles de ces indicateurs ont été proposées [D 10]. Elles sont reproduites ci-dessous. Les indicateurs les plus intéressants sont aussi présentés [D 11].
- Il existe un large consensus pour estimer que les avantages de l'utilisation de ces indicateurs l'emportent sur les inconvénients. [D 13]

Discussion sur la variabilité de la robustesse des indicateurs selon les disciplines [G 7]

A number of reasons for the variations in robustness between disciplines, and for the discrepancies in the results within a discipline, were identified:
Different sets of papers were looked at in the RAE and in the pilot. Some members suggested repeating the citation analysis using only those outputs assessed in the RAE.
The volume of citations and the time taken to accumulate citations varies between disciplines; citation indicators are more robust in disciplines that publish and cite more frequently.
The coverage of citation databases is limited in a number disciplines, particularly where non-journal outputs are common.
Citations measure impact on the academic community; this is only one aspect of quality, whereas the RAE results represent a rounded view of quality.
Citations do not provide a good measure of applied research and cannot take into account non-academic impact.
Other limitations of bibliometrics that could distort some of the results, such as negative citations.
Some of the sample sizes were small and these tend to be less stable.
More recent papers have had less time to accumulate citations. Even though publication year is taken into account in the analysis, the results were less robust for papers published in the more recent years.
Limitations with the normalisation process. In particular:
- The categorisation of journals into fields was felt to be problematic in a number of fields (for example where diverse journals are used, such as in Statistics), and for a number of journals (particularly broad journals that cover several sub-fields such as the Lancet, British Medical Journal or Physical Review).
- Citation rates were normalised against a worldwide "mean" for the field; yet the distribution of citations is highly skewed.
Differences in the two commercial citation databases (Web of Science and Scopus) led to some marked differences in the results. A few members noted that other databases were more widely used by their disciplines (such as arXiv and Google Scholar).
The way items are categorised within the databases as "articles", "review papers" and so on can differ from the way institutions or researchers would classify them. Some material on the databases (for example in "trade" journals) would not be considered research.
The mix of sub-fields within a submission can affect citation indicators; for example a submission can be dominated by a highly cited sub-field within Physics.
In a few cases members reported discrepancies between RAE outcomes and citation indicators, where the RAE scores appeared to reflect the prestige of the journals papers were published in, whereas the citation rates for the papers provided a different picture.

Discussion sur les utilisations possibles des indicateurs bibliométriques [G 10]

Members discussed a number of ways in which panels could make use of citation data to enhance the reliability and consistency of expert review and/or to reduce panels' workloads. There was no clear consensus on a single approach and members felt that the particular ways in which panels could make use of the data should vary as appropriate to the discipline. The range of possible uses included:
To inform the reading of individual outputs (most groups supported this approach although some were concerned about using citation data in this way).
As indicators for each submission as a whole, to sense check or provide a "challenge" to the panel's scores based on reviewing the outputs.
To inform "borderline" decisions.
To provide benchmarks against international standards and aid calibration against the quality descriptors.
To inform discussions about consistency between panels, or enable comparisons across disciplines.
To enable panels to sample and reduce the number of outputs to be reviewed in detail. Some suggested that bibliometrics could form part of a stratified random sampling procedure; however some members were sceptical about this and many generally doubted that bibliometrics would enable panels to read fewer outputs.

Discussion sur le type d'informations utiles [G 11]

Members discussed the type of citation information that would be useful to panels:
Many agreed that all panels that make use of citation data should be provided with the same types of data, but that they could use or interpret the data differently as appropriate.
Limitations with the normalisation method were raised. Members generally agreed that panels would want the "raw" citation count, in addition to data that enable them to interpret this within an international context. This could be a benchmark for the field, or an indication of where the citation count falls within the worldwide distribution for the field (a centile). Panels would also be interested in a benchmark or centile for all papers submitted to the UOA.
There was also interest in the kinds of contextual data provided from the pilot, relating to the sources of citation (local, national and international) and international co-authorship.
There was some discussion about which citation database(s) should be used and many felt that the REF should not be limited to using a single database across all panels.