Capture et recapture : reconnaissance d'une technique démographique en épidémiologie

Sauter toute navigation -touch directe z

Sauter au menu vertical -touch directe x

Sauter au menu principal -touch directe m

Volume 18, N^o 4- 2000

[Table des matières]

Capture et recapture : reconnaissance d'une technique démographique en épidémiologie

Résumé

Cette étude porte sur la méthode de recensement par capture et recapture et sur son utilité en épidémiologie. Le recensement par capture et recapture est une technique d'échantillonnage bien établie et communément admise dans les études sur la faune. Il pourrait être rentable d'y faire appel dans le cadre des recensements. Toutefois, avant d'appliquer cette technique au domaine de l'épidémiologie, il faut tenir compte de facteurs pertinents comme la nature de l'affection étudiée, la définition de cas, les caractéristiques des patients, l'origine des rapports et les risques d'erreurs de diagnostic et de sous-déclaration. Au cours des 10 dernières années, cette méthode a gagné du terrain en épidémiologie, et il ne fait aucun doute que cette tendance se maintiendra. Bien qu'elle ait un rôle à jouer en surveillance de la santé publique, il semble plus avantageux dans certains cas d'adopter une stratégie plus classique de surveillance de la maladie.

Mots clés : Capture-recapture; epidemiologic methods; population surveillance

Introduction

Pour élaborer et mettre en oeuvre des stratégies efficaces d'amélioration de la santé publique, axées sur la prévention et la lutte, il faut posséder suffisamment de données sur la maladie : répartition géographique et temporelle, modalités de survenue et sujets atteints. L'épidémiologie est la science qui étudie, dans une population donnée, les tendances d'une maladie déterminée et les divers facteurs susceptibles d'en influencer l'apparition, la fréquence, la distribution et l'évolution¹. L'observation et la surveillance des tendances relatives à la santé et aux comportements supposent un système de surveillance qui permette de saisir des données utiles sur des sujets bien choisis en fonction de la caractéristique étudiée et à partir desquelles un profil épidémiologique descriptif peut être tracé. Ces éléments d'information permettent de définir des priorités et de déterminer, selon leur profil, les groupes à cibler dans le cadre d'interventions précises. Ils permettent aussi d'évaluer des interventions et d'exploiter au mieux les ressources pour gérer le phénomène de santé étudié. Dans cette optique, il importe de bien cerner l'affection (et les divers stades de son évolution) et de faire appel à un système de surveillance valide et fiable, assorti d'un mécanisme de contrôle exhaustif, précis et rapide.

Quel que soit le système de surveillance, la question de la qualité des données recueillies se pose, notamment le niveau de déclaration des cas. Même si la prévalence de certaines affections et des facteurs de risque connexes peut être élevée au sein d'une population, le nombre de cas signalés peut être très inférieur au nombre réel de sujets atteints. Diverses raisons peuvent expliquer un tel phénomène, par exemple, les critères de diagnostic mal définis, les erreurs de diagnostic, les systèmes de surveillance mal conçus, l'absence de sensibilisation à l'importance de la déclaration ou l'absence de comportement favorisant la santé chez les personnes atteintes ou à risque.

C'est pourquoi, si l'on veut déterminer l'utilité de tout système de surveillance, il importe de trouver un moyen d'évaluer la qualité des données et l'exhaustivité du dénombrement des cas. Le recensement par capture et recapture est un des moyens dont on dispose pour atteindre cet objectif.

Le recensement par capture et recapture

Genèse

La méthode de base, qui ne date pas d'hier, a été appliquée à différents domaines scientifiques. Elle a été introduite par les écologistes comme moyen d'estimer la taille de populations fauniques^2-4. En démographie, elle a servi à compenser le sous-dénombrement dans les recensements, et à estimer les taux de natalité et de mortalité ainsi que les taux d'enregistrement dans les pays en développement⁵.

Aux États-Unis, des approches analogues ont été utilisées dans les recensements décennaux pour évaluer l'ampleur du sous-dénombrement. Le recensement de 1950 a été le premier à faire appel à la méthode par capture et recapture, appelée «estimation de système dual», pour évaluer le sous-dénombrement⁶. Le principe est le suivant : une fois le recensement a été effectué, un second échantillon plus complet est prélevé pour une enquête dite «postcensitaire» et est apparié aux données du recensement. On a recours à des techniques statistiques pour corriger les erreurs d'appariement, les omissions et les erreurs de dénombrement, par exemple les doubles comptes. Même si le sous-dénombrement touche à des degrés divers tous les sous-groupes de la population, il est relativement plus important chez certains groupes minoritaires et chez les pauvres que dans la population blanche.

En 1990, une enquête postcensitaire a été réalisée et comparée au recensement de 1990, aux États-Unis. Bien que la méthode ait permis de réviser les estimations, le Secrétaire du commerce américain s'est opposé à son application, en dépit de sa validité statistique (1991). La décision a été maintenue par la Supreme Court (1996) à l'égard d'une poursuite intentée par la ville de New York (1980) qui voulait utiliser la méthode pour augmenter les prestations fédérales versées à la ville⁷.

Le bureau du recensement américain préconise une nouvelle stratégie pour l'évaluation de la taille de la population, en vue du recensement de l'an 2000. La nouvelle formule ferait appel à des techniques d'échantillonnage et d'analyse statistiques par capture et recapture pour remédier au sous-dénombrement et réduire les coûts associés aux enquêtes de porte en porte. Un des arguments invoqués par le bureau du recensement est que la population américaine est trop nombreuse et trop mobile pour justifier un dénombrement physique. Toutefois, le House Committee on Government Reform and Oversight est réfractaire à ce changement, craignant apparemment que les rajustements n'entraînent une nouvelle répartition des sièges à la House of Representatives.

Le recensement par capture et recapture peut se faire de deux façons : l'utilisation de deux sources de données distinctes ou d'au moins trois sources de données (approche axée sur les sources multiples).

Approche fondée sur un double échantillonnage

Le recours au recensement par capture et recapture repose sur quatre hypothèses de base⁸.

La fermeture : La population étudiée est fermée. Autrement dit, elle n'est affectée par aucun changement sur les plans des naissances, des décès, de l'immigration ou de l'émigration pendant le processus d'échantillonnage (fermeture démographique).
L'indépendance : Les sources sont indépendantes les unes des autres. C'est-à-dire que la probabilité de faire partie d'une liste n'a aucune incidence sur la probabilité de figurer sur une autre.
L'homogénéité : Toutes les personnes qui font partie de la population étudiée ont les mêmes chances d'être observées («capturées») dans n'importe quel échantillon.
L'appariement parfait : Les personnes désignées par une source peuvent être parfaitement appariées à celles signalées par une autre source, sans qu'il y ait risque d'erreur (données mal assorties ou non assorties).

Tel qu'il est utilisé dans les études sur la faune, le recensement par capture et recapture repose sur le principe suivant : des échantillons séquentiels indépendants d'animaux sont capturés à des postes différents; les animaux sont marqués et peuvent évoluer librement parmi ceux qui ne sont pas marqués; et l'estimation de la taille de l'échantillon est fondé sur le nombre d'animaux capturés lors d'échantillonnages successifs et sur la proportion d'animaux capturés qui sont marqués.

Voici un exemple de l'approche fondée sur un double échantillonnage utilisée pour évaluer la taille d'une population².

Premier échantillon : 1 000 animaux sont capturés et marqués et sont relâchés dans la population.
Second échantillon : 500 animaux sont recapturés; on observe que 450 d'entre eux ne sont pas marqués et 50 le sont.
La probabilité de la capture, soit la valeur p, est estimée à partir du second échantillon, soit p = 50/500, ce qui donne 0,1.
Si l'on part du principe que la probabilité de capture est la même pour les deux échantillons, on évalue la population totale à N = 1 000/0,1, soit 10 000. (En prélevant plus de deux échantillons, on améliorerait la précision de N.)

En général, la plupart des méthodes d'estimation semblent très sensibles à la ventilation de certaines conditions théoriques d'application. Autrement dit, elles ne sont pas «robustes». Même lorsqu'on a affaire à des populations d'animaux sauvages, on reconnaît maintenant que le postulat classique voulant que tous les membres d'une population donnée sont également «susceptibles d'être capturés» en tout temps se vérifie rarement, et on s'est beaucoup employé, ces dernières années, à nuancer cette hypothèse, ce qui a donné lieu à la construction de modèles qui tiennent compte de la variation des probabilités de capture. On dénombre trois grandes sources de variation².

Les probabilités de capture varient en fonction du temps.
Les probabilités de capture varient selon le comportement.
Les probabilités de capture varient selon l'individu (l'hétérogénéité des individus).

Approche fondée sur la multiplicité des sources

Lorsqu'on fait appel à trois sources, on obtient 2³ cellules (sous-groupes), qui renvoient au nombre de combinaisons possibles d'observations qui peuvent être enregistrées simultanément à partir de chacune des trois sources, p. ex., une observation peut être signalée par la première et la troisième source, mais non par la deuxième. Lorsqu'on utilise k sources, on obtient 2^k cellules. Dans tout tableau croisé, il existe une cellule dans laquelle ne figure aucune observation, ce qui correspond aux personnes qui n'ont été enregistrées par aucune source. L'objectif consiste à estimer le nombre d'observations qui devrait figurer dans cette cellule, donnée qui sert ensuite à l'estimation de la taille de l'ensemble de la population.

L'approche fondée sur des sources multiples est plus souple, ce qui permet de tenir compte de variables pouvant influer sur la déclaration et de déterminer les tendances relatives à la déclaration, applicables aux différentes sources. L'hypothèse de la population fermée demeure valable ici. Toutefois, le postulat de l'indépendance peut être écarté, et on peut tenir compte de l'interdépendance des ensembles de données en utilisant les techniques de recensement de Bernoulli et en appliquant des modèles log-linéaires pour évaluer les liens de dépendance entre les sources.

L'approche utilisée dans le recensement de Bernoulli consiste à établir toutes les comparaisons par paire possibles entre des estimations faites à partir de deux échantillons. Lorsqu'on soupçonne un lien de dépendance entre deux sources, il arrive qu'on combine les deux et qu'on les considère comme une seule source⁹. Selon l'approche fondée sur les modèles log-linéaires, les modèles sont ajustés au tableau de contingence 2^k (décrit plus haut). Une estimation peut être faite à partir du modèle le mieux adapté aux données ou par une pondération des résultats obtenus de différents modèles^10,11.

On peut parfois atténuer l'effet de l'hétérogénéité des individus, qui fait ressortir une apparente dépendance, en stratifiant la population étudiée selon un facteur connu susceptible d'influer sur les probabilités de capture. On doit toutefois faire en sorte que chaque cellule comporte suffisamment d'observations (voir ci-après). Une autre approche consiste à faire appel à un modèle qui tient compte de l'hétérogénéité (p. ex., la régression logistique)^12,13.

Lorsqu'on a affaire à des populations humaines, l'appariement implique l'utilisation d'identificateurs applicables à toutes les sources (p. ex., la date de naissance, le nom, la race). Le couplage des enregistrements selon la méthode probabiliste permet d'apparier efficacement de vastes bases de données d'une manière statistiquement justifiable, tout en remédiant à la difficulté d'apparier deux dossiers en cas d'incertitude. Le couplage informatisé des enregistrements repose sur l'utilisation d'ensembles de programmes statistiques, qui tiennent également compte d'erreurs d'appariement¹⁴. Il s'agit aussi bien de logiciels généraux, comme le GLIM, que de logiciels plus spécialisés, comme le GIRLS^12,15,16. Lorsque la question de la confidentialité se pose, comme dans le cas de l'infection par le virus de l'immunodéficience humaine, la capacité d'appariement peut être réduite si l'on ne dispose pas de suffisamment de variables utiles.

Le recours à des sources multiples présente un inconvénient : il suppose que chaque cellule comporte un nombre suffisant d'observations; à défaut de quoi, l'estimation ne sera pas fiable. Dans certains cas, il peut être avantageux de regrouper les sources, ce qui peut toutefois entraîner une perte de données utiles («chevauchement»).

Applications actuelles en épidémiologie

En épidémiologie, l'expression «être capturé dans un échantillon» est remplacée par «figurer sur une liste». Ces «listes» renvoient aux sources d'information ou aux systèmes de surveillance. Les bases de données systématiquement recueillies, comme les registres de maladies, les données sur les sorties des hôpitaux, les certificats de décès et les ordonnances, peuvent être utilisées comme sources. Lorsque le système de surveillance repose sur des déclarations volontaires (comme c'est souvent le cas), la probabilité que le système comporte une forme de biais est très élevée. Lorsqu'il s'agit de populations humaines, il est peu probable que le postulat de base de l'indépendance se vérifie. Ainsi, il est plus probable que des individus figurant sur une liste comme utilisateurs de drogues injectables apparaissent sur des listes de bénéficiaires de traitements pour toxicomanie si les cas sont renvoyés à un service de traitement une fois qu'ils sont repérés¹⁷.

L'hypothèse de l'homogénéité est aussi sujette à caution lorsqu'il s'agit de populations humaines. La variabilité du dénombrement, d'une source à l'autre, dépend souvent de facteurs tels que la source, la gravité de la maladie, la qualité des soins, les exigences de la loi concernant la déclaration et les caractéristiques des patients. Autrement dit, certains déterminants ont pour effet d'accroître la probabilité qu'une personne souffrant d'une maladie donnée reçoive un diagnostic et figure sur une liste donnée. Par exemple, il est plus probable que des sujets à faible revenu auront recours aux services de santé du secteur public que des personnes qui ont les moyens de faire appel au secteur privé (qui se conforme moins systématiquement aux exigences relatives à la déclaration).

Comme ces principes ne sont pas respectés, on a rarement recours à l'approche fondée sur deux échantillons lorsqu'on a affaire à des populations humaines. Quoi qu'il en soit, l'utilisation du recensement par capture et recapture s'est répandue en épidémiologie, au cours des 10 dernières années¹⁸. Certaines de ces applications sont énumérées ci-dessous (classées par groupe d'affection).

Malformations congénitales : Les études sur les malformations congénitales (dues à la rubéole congénitale, au bec-de-lièvre et à la fissure palatine, au spina-bifida, au syndrome de Down et au syndrome d'alcoolisme fotal) ont appliqué les techniques du recensement par capture et recapture pour tenir compte du nombre de cas nouveaux ou existants et améliorer le taux de déclaration.
Cancer : Les méthodes de recensement par capture et recapture ont été utilisées pour estimer la sensibilité du dépistage du cancer du sein et les taux de faux négatifs. D'autres études y ont fait appel pour déterminer l'exhaustivité des données figurant dans les registres de cas de cancer.
Consommation de drogues : Les méthodes de recensement par capture et recapture ont été utilisées dans plusieurs études de prévalence et, dans un cas, pour évaluer les tendances relatives à l'utilisation de la méthicilline. La méthode a également servi à rectifier la prévalence de l'utilisation de drogues injectables et à estimer la taille de certains groupes d'utilisateurs.
Maladies infectieuses : Ces études portaient sur les maladies transmises sexuellement, surtout le syndrome d'immunodéficience acquise. La méthode a servi à estimer soit la prévalence des cas soit l'efficacité des systèmes de déclaration, soit les deux.
Blessures : Le recensement par capture et recapture a permis d'obtenir des estimations rajustées selon le dénombrement de blessures par morsure de chien, d'accidents de véhicules tout-terrain, d'accidents du sport et de décès consécutifs à des accidents de véhicules automobiles. La méthode a aussi été utilisée pour évaluer la rentabilité du recours à diverses combinaisons de sources.
Diabète insulinodépendant : À l'heure actuelle, la plupart des registres font appel à cette méthode pour vérifier le niveau de dénombrement et obtenir des taux redressés selon le dénombrement.
Autres : Les méthodes de recensement par capture et recapture ont aussi été utilisées pour estimer l'incidence ou la prévalence de l'hémophilie, de l'infarctus du myocarde, de la maladie de Huntington et de la maladie mentale. Leur champ d'application en épidémiologie s'étend à d'autres secteurs : évaluation de la taille de la population de sans-abri, du nombre d'enfants qui dépendent des services médicaux, de l'efficacité des systèmes de surveillance de la mortalité consécutive aux avortements, du nombre d'infections chez les patients hospitalisés et de cas de poliomyélite paralytique associés aux vaccins.

Actuellement, plusieurs projets multinationaux d'envergure qui font appel au recensement par capture et recapture sont en cours¹⁹. En voici quelques exemples.

Le projet multinational sur le diabète infantile de l'Organisation mondiale de la Santé, où 155 registres mis en place dans plus de 70 pays surveillent les cas de diabète insulinodépendant chez les enfants (projet DiaMond)
L'étude mondiale sur l'amputation des extrémités inférieures, qui doit permettre de comparer les taux d'incidence de ce genre d'amputations entre les pays et à l'intérieur d'un même pays, partout dans le monde
Le projet international sur les traumatismes crâniens et rachidiens, qui vise à déterminer l'incidence de ce type de traumatismes dans plus de 20 pays
Le projet de Taïwan sur les traumatismes crâniens, qui a pour objet de déterminer et de comparer les taux d'incidence de ce type de traumatismes dans la ville de Taipei et dans un district rural

Discussion

L'évaluation de bases de données sur une affection précise, qui font appel à une seule source ou à des sources multiples, vise généralement à déterminer la qualité des données et l'exhaustivité du dénombrement. Les méthodes de recensement par capture et recapture ont ceci d'avantageux qu'elles permettent de compenser les limites du recours à une seule source. Toutefois, ni l'emploi d'une seule source ni l'utilisation de sources multiples ne permet de tenir compte des personnes qui ne sont pas reconnues comme des cas, par exemple, les cas non diagnostiqués, les erreurs de diagnostic, les critères mal définis ou l'absence de recours aux soins de santé. Bien que la méthode permette de tenir compte des faux négatifs, il est possible qu'elle ne détecte pas les faux positifs. Ainsi, la méthode repose sur une définition de cas uniforme très sensible et très spécifique. Par exemple, le lupus érythémateux disséminé est une affection mal définie. Les risques de faux positifs sont plus élevés, ce qui donne lieu à une surestimation.

L'emploi d'un modèle log-linéaire implique la sélection du modèle le plus approprié, compte tenu des données réelles²⁰. Des modèles ont été construits pour décrire les erreurs d'appariement et peuvent être utilisés lorsqu'on s'attend à ce que le mésappariement et le non-appariement donnent lieu à des erreurs dans le couplage des enregistrements. Toutefois, la capacité d'appariement dépend de la qualité des données et de l'accessibilité d'identificateurs uniques.

Même lorsque l'appariement est parfait et que la sensibilité et la spécificité sont bonnes, l'information concernant les sujets atteints renvoie aux cas qui ont été déclarés, et partant, à une partie de la population visée. La capacité d'extrapoler les résultats dépendra de divers facteurs, comme les caractéristiques des cas déclarés, la rapidité de la déclaration ou la nature de l'affection.

Conclusion

Lorsqu'il conçoit des études, le chercheur doit être au courant des hypothèses de base et appliquer correctement les prémisses du modèle à la réalité des populations humaines. Cette précision étant faite, il semble que le recensement par capture et recapture ait essentiellement deux rôles à jouer en santé publique.

Évaluer le niveau de dénombrement pour une affection donnée à partir d'une source donnée
Accroître ou rajuster le niveau de dénombrement en ayant recours à un modèle qui fait appel à des sources multiples

Lorsqu'il existe des sources multiples, l'application de méthodes de recensement par capture et recapture peut entraîner des économies de temps, d'efforts et d'argent, comparativement à l'emploi de l'enquête traditionnelle sur le terrain, pour la détermination du niveau de dénombrement. Elle permet de recueillir des éléments d'information nouveaux sur l'emploi de services par des sous-groupes et les effets d'interaction. Comme on ne connaît ni la valeur réelle du paramètre à évaluer ni les hypothèses exactes concernant les probabilités de capture, toute estimation faite à partir du modèle choisi doit être assortie de limites de confiance, pour que l'on ait une idée de sa fiabilité. Dans les faits, cette pratique a donné lieu à des intervalles de confiance étendus, ce qui met en doute la fiabilité de l'estimation et le caractère réaliste du modèle.

Le recensement par capture et recapture est une approche qui demeure prometteuse pour la surveillance épidémiologique. Bien qu'il s'agisse d'une méthode utile pour l'amélioration des données de surveillance existantes, il y a lieu néanmoins de continuer de renforcer les systèmes de surveillance et les sources de collecte de données «traditionnels». Dans cette optique, il s'agit entre autres d'améliorer et de valider les définitions de cas, de promouvoir le diagnostic et la déclaration, d'élaborer des systèmes d'information et d'offrir de la formation dans l'utilisation des dossiers médicaux. En dernière analyse, il importe de déterminer la valeur du recensement par capture et recapture aux fins de la surveillance, à la lumière de son utilité pour la santé publique.

Références

1. Lillienfield A, Lillienfield DE. Foundations of epidemiology. 2^e éd. New York (NY): Oxford University Press, 1980.

2. Los Alamos National Laboratory. Capture-recapture and removal methods for sampling closed populations. Los Alamos (NM), 1982; Cat LA-8787-NERP UC1.

3. Cormack RM. The statistics of capture-recapture methods. Oceanog Mar Biol Ann Rev 1968;6:455-506.

4. Chapman, DG. The estimation of wildlife populations. Ann Math Stat 1954;25:1-15.

5. Sekar C, Deming EW. On a method of estimating birth and death rates and extent of registration. J Am Stat Assoc 1949;44:1059-68.

6. Himes CL, Clogg CC. An overview of demographic analysis as a method for evaluating census coverage in the US Popul Index 1992;58:587-607.

7. The Supreme Court on the adjustment of the US census. Popul Develop Rev 1996 juin:399-405.

8. Ding Y, Feinberg SE. Multiple sample estimation of population and census undercount in the presence of matching errors. Surv Methodol 1996;22:55-64.

9. Wittes JT, Colton T, Sidel VW. Capture-recapture models for assessing the completeness of case ascertainment when using multiple information sources. J Chronic Dis 1974;27:25-36.

10. Fienberg SE. The multiple-recapture census for closed populations and incomplete 2k contingency tables. Biometrika 1972;59:591-603.

11. Hook EB, Regal RR. Internal validity analysis: a method for adjusting capture-recapture estimates of prevalence. Am J Epidemiol 1995;142:48-52.

12. International Working Group for Disease Monitoring and Forecasting. Capture-recapture and multiple record systems estimation I: history and theoretical development. Am J Epidemiol 1995;142:1047-58.

13. Hook, EB, Regal RR. Effect of variation in probability of ascertainment by sources ("variable catchability") upon "capture-recapture" estimates of prevalence. Am J Epidemiol 1993;137:1148-66.

14. Jaro MA. Probabilistic linkage of large public health data files. Stat Med 1995;14:491-8.

15. Newcombe HB, Kennedy JM, Axford SJ, James AP. Automatic linkage of vital records. Science 1959;130:954-9.

16. Howe GR, Spasoff RA, rédacteurs. Proceedings of the Workshop on Computerized Record Linkage in Health Research; 1986 mai 21-23; Ottawa, Ontario. Toronto: University of Toronto, 1986.

17. Neugebauer R, Wittes J. Voluntary and involuntary capture-recapture samples-problems in the estimation of hidden and elusive populations [lettre]. Am J Public Health 1994;84:1068-9.

18. International Working Group for Disease Monitoring and Forecasting. Capture-recapture and multiple record systems estimation II: applications in human diseases. Am J Epidemiol 1995;142:1059-68.

19. Summary report: Capture-Recapture Injury Epidemiology Conference; 1996 sept. 9-10; University of Pittsburg [manuscrit non publié].

20. McCullagh P, Nelder JA. Generalized linear models. Dans: Cox DR, Hinkley DV, Rubin D, Silverman BW, rédacteurs. Monographs on statistics and applied probability, No 37. Londres: Chapman and Hall, 1983.

Références des auteurs

Debra Nanan, School of Public Health, George Washington University, Washington (DC) USA
Franklin White, Coordinateur des programmes, Maladies non-transmissibles, Organisation panaméricaine de la Santé, Bureau régional de l'Organisation mondiale de la Santé, 525 23rd Street NW, Washington (DC) USA 20037-2895

[Table des matières] [Prochaine]


	Dernière mise à jour : 2002-10-02		Avis importants