Agence de santé publique du Canada / Public Health Agency of Canada
Sauter toute navigation -touch directe z Sauter au menu vertical -touch directe x Sauter au menu principal -touch directe m Sauter toute navigation -touch directe z
English Contactez-nous Aide Recherche Site du Canada
Accueil - ASPC Centres Publications Lignes directrices Index A-Z
Santé - enfants Santé - adultes Santé - aînés Surveillance Santé Canada



Volume 20, No 2- 2000

 

  Agence de santé publique du Canada

Élaboration du couplage des données sur les congés d'hôpitaux pour l'étude des réadmissions chez les nouveau-nés

Shiliang Liu et Shi Wu Wen

 


Résumé

Les études épidémiologiques font de plus en plus appel au couplage de dossiers informatisés. Nous avons élaboré un algorithme d'appariement déterministe à plusieurs étapes qui utilise diverses combinaisons de variables clés. Puis à partir des dossiers pour la période s'étendant entre le 1er mars 1993 et le 31 mars 1996 versés dans la base de données sur les congés des patients de l'Institut canadien d'information sur la santé (ICIS), nous avons examiné la relation entre la durée de séjour à l'hôpital à la naissance et la réadmission des nouveau-nés. En combinant la province/territoire d'admission, le code postal de résidence à six chiffres, la date de naissance et le sexe (première étape), nous avons apparié 88,5 % des 26 629 dossiers de réadmission de nouveau-nés admissibles avec leur enregistrement de naissance. En ajoutant le code d'établissement et le numéro de dossier médical ou le numéro de carte d'assurance-maladie à la date de naissance et au sexe (étape 2 et étape 3), nous avons porté le taux d'appariement à 93,0 %. Comparativement à l'étalon de référence, l'étape 1 a permis d'apparier correctement 94,4 % des dossiers. Nous concluons que cet algorithme d'appariement déterministe est un moyen commode et faisable de coupler les données pour l'étude des réadmissions chez les nouveau-nés. Cette stratégie de couplage peut également être utile dans les études épidémiologiques portant sur d'autres événements s'étendant sur une courte période.

Mots clés : couplage des dossiers médicaux; méthode épidémiologique; réadmission des nouveau-nés; résumé à la sortie de l'hôpital



Introduction

Les études effectuées à partir de bases de données existantes présente beaucoup d'intérêt pour les épidémiologistes et d'autres chercheurs de la santé, car elles permettent d'examiner de façon efficiente des populations de grande taille. Par exemple, il est possible d'examiner le lien entre le poids de naissance, l'âge gestationnel, l'âge de la mère et la mortalité ou la morbidité infantile à l'échelle d'un pays en analysant les données existantes, qui sont recueillies systématiquement dans les statistiques de l'état civil et les statistiques hospitalières. Toutefois, le fait qu'on ne retrouve pas toute l'information dans une seule base de données constitue souvent un obstacle pour les chercheurs. Au cours des dernières années, le couplage de dossiers informatisés a permis de surmonter cet obstacle dans les études prenant appui sur les bases de données existantes1-17.

Il est possible de classer les méthodes de couplage de dossiers en trois grandes catégories : manuel, déterministe et probabiliste. L'appariement manuel est la méthode la plus ancienne, la plus laborieuse et la plus coûteuse, mais elle demeure la technique de référence. Cette solution n'est toutefois pas envisageable lorsqu'on a affaire à d'énormes bases de données. Le couplage probabiliste permet d'identifier et de coupler les dossiers dans un fichier avec les dossiers correspondants dans un autre fichier (ou deux dossiers situés à différents endroits dans un seul fichier) en calculant la probabilité statistique pour un ensemble de variables pertinentes (p. ex., nom, sexe, date de naissance). Le couplage déterministe apparie des dossiers dans deux fichiers (ou deux dossiers situés à des endroits différents dans un même fichier) à l'aide d'une variable unique (p. ex., numéro d'assurance sociale ou numéro de dossier de l'hôpital) ou par concordance complète d'un ensemble de variables communes (p. ex., nom, sexe, date de naissance).

Le couplage probabiliste est considéré comme la méthode privilégiée, parce que le calcul de la probabilité peut être raffiné à divers égards pour tenir compte des poids associés à la valeur des identificateurs et aux erreurs de codification, ce qui permet de tirer le maximum de renseignements1-3,16,17. Pour effectuer un couplage probabiliste, il faut cependant avoir une connaissance détaillée des diverses mesures de l'importance relative de la valeur de certains indicateurs - par exemple la fréquence - dans les deux fichiers qui sont couplés. Il arrive souvent que les enquêteurs n'aient pas cette connaissance préalable6.

Le présent article vise à illustrer le couplage déterministe des enregistrements de sortie de l'hôpital dans la base de données sur les congés des patients de l'Institut canadien d'information sur la santé (ICIS), en prenant les réadmissions de nouveau-nés comme exemple. L'une de nos études antérieures a révélé que la durée de séjour à l'hôpital des nouveau-nés après la naissance avait diminué de façon assez notable récemment18. Nous avons émis l'hypothèse que cette réduction pouvait entraîner une hausse des taux de réadmission des nouveau-nés. Pour pouvoir examiner la relation entre la durée de séjour des nouveau-nés à l'hôpital après la naissance et leur réadmission subséquente, il faut coupler le document de réadmission avec l'enregistrement de naissance du bébé.


Méthodes

Nous avons examiné les données de l'ICIS pour une période de trois ans (1993-1994 à 1995-1996). Il a fallu exclure les données de la Nouvelle-Écosse, du Québec et du Manitoba parce que l'ICIS n'a recueilli qu'une petite partie des enregistrements de sortie de l'hôpital dans ces provinces19. Les naissances vivantes ont été identifiées à l'aide d'un champ «unité d'âge» avec un code «NB». Les nourrissons pesant moins de 1 500 g, ceux qui ont obtenu leur congé de l'hôpital 21 jours après leur naissance et ceux qui sont décédés par la suite à l'hôpital où ils étaient nés ont été exclus. La réadmission d'un nouveau-né s'entend de l'admission d'un bébé à un hôpital dans les 28 jours qui suivent sa naissance. Les nourrissons qui ont été transférés d'un autre établissement n'ont pas été considérés comme des réadmissions. Les naissances multiples ont été exclues des enregistrements de naissance et de réadmission parce qu'elles partageaient des variables non identifiables.

Les enregistrements de naissance et de réadmission comportent des renseignements sur la province/territoire et l'établissement d'admission, le numéro de dossier de l'établissement, la date de naissance, le sexe, le numéro de carte d'assurance-maladie de la province, le code postal à six chiffres, la date d'admission, la date de congé et les codes de diagnostic. Le code d'établissement, le numéro de dossier de l'établissement et le numéro d'assurance-maladie sont brouillés pour des raisons de confidentialité (tableau 1).

 



TABLEAU 1

Accès aux variables d'appariement proposées pour le couplage des dossiers dans le fichier de naissance et le fichier de réadmission de nouveau-nés

Variable

Fichier de
naissance

Fichier de
réadmission

Nombre d'enregistrements

788 480

27 405

Province (%)

100,0

100,0

Numéro d'établissement (%)

100,0

100,0

Numéro de dossier (%)a

97,4

98,2

Numéro d'assurance-maladie (%)b

86,8

80,6

Code postal (%)c

97,9

98,0

Code de résidence (%)

70,1

71,0

Date de naissance (%)

100,0

100,0

Sexe (%)

100,0

100,0

Date d'admission (%)

100,0

100,0

Date de congé (%)

100,0

100,0

a Les séries de numéros de dossier diffèrent selon l'établissement. Seul un bébé qui est réadmis dans le même hôpital où il est né reçoit le même numéro de dossier.

b Nous avons constaté qu'une majorité de nourrissons se sont vu attribuer le numéro de carte d'assurance-maladie de leur mère à la naissance ou lors de leur réadmission

c Environ 1 % des enregistrements ne contenaient pas de renseignements sur le code postal; dans un autre 1 % des cas, le code postal à six chiffres était incomplet dans les deux fichiers.



En théorie, le numéro d'assurance-maladie et/ou de dossier d'établissement, même s'il est brouillé, peut être utilisé comme variable unique pour le couplage des enregistrements, parce qu'on utilise pour chaque personne le même numéro qui a été attribué par l'autorité provinciale/territoriale ou l'hôpital. Comme il faut du temps pour obtenir le numéro d'assurance-maladie de l'enfant, on attribue habituellement à ce dernier le numéro de la mère, ou ce champ est laissé en blanc à la naissance. Nous craignions que l'utilisation du numéro d'assurance-maladie uniquement pourrait créer de la confusion ou engendrer des erreurs si les bébés recevaient par la suite leur propre numéro ou partageaient le même numéro avec un frère ou une soeur. Le numéro de dossier de l'établissement n'est utile que lorsqu'un nourrisson est réadmis à l'hôpital où il est né; or seule une faible proportion des cas ont été réadmis à l'hôpital de leur naissance.

Par conséquent, nous avons jugé approprié d'utiliser une série de variables pour un couplage déterministe en plusieurs étapes. Après avoir évalué si les variables étaient présentes dans le registre des congés de l'ICIS et si elles étaient pertinentes, nous avons élaboré un algorithme d'appariement informatisé. Comme le montre la figure 1, les enregistrements de naissance et de réadmission ont été appariés tout d'abord en obtenant un accord parfait de la province/territoire, du code postal de résidence à six chiffres, de la date de naissance et du sexe (étape 1); deuxièmement, une concordance complète du code d'établissement, du numéro de dossier d'établissement, du sexe et de la date de naissance (étape 2); et troisièmement, une concordance complète du numéro de carte d'assurance-maladie de la province/territoire, du sexe et de la date de naissance (étape 3); et enfin, cet appariement a été complété par une vérification logique des cas appariés (étape 4). Cette vérification logique consistait à vérifier s'il y avait des conflits ou des contradictions entre la date de naissance, la date de congé de l'hôpital, la date de réadmission et l'âge au moment de la réadmission.

Pour évaluer l'exactitude du couplage de dossiers effectué à l'étape 1, qui a servi de base à la majorité des appariements obtenus, nous avons créé un fichier couplé en utilisant l'étape 2 uniquement pour identifier les nourrissons qui ont été réadmis à l'hôpital où ils étaient nés. Nous avons considéré ce fichier couplé comme l'étalon de référence, parce que le numéro de dossier d'établissement dans ces dossiers est unique. Nous avons ensuite séparé les enregistrements de naissance et de réadmission qui avaient été couplés et avons effectué l'étape 1 pour les coupler à nouveau afin d'évaluer l'exactitude de l'appariement par rapport à celle de l'étalon de référence.

Enfin, nous avons évalué le biais potentiel associé aux exclusions et aux couplages non réussis en comparant les distributions de variables qui nous intéressaient, telles que le poids de naissance, la durée de séjour à l'hôpital et les principales catégories diagnostiques pour les réadmissions, pour les cas couplés et non couplés. Pour les besoins de cette comparaison, les cas non couplés incluaient ceux qui avaient été exclus parce qu'ils ne satisfaisaient pas aux critères de sélection avant que le couplage n'ait été effectué. Le logiciel SAS pour Unix, version 6.12 (SAS Institute Inc., Cary, Caroline du Nord), a été utilisé dans tous les résumés analytiques de données et les opérations de couplage.


Résultats

Entre le 1er mars 1993 et le 31 mars 1996, en tout 817 351 naissances vivantes dans les hôpitaux des neuf provinces et territoires canadiens étudiés ont été recensées par l'ICIS. Après avoir exclu les nourrissons qui pesaient moins de 1 500 g, ceux qui ont obtenu leur congé de l'hôpital 21 jours après la naissance, ceux qui sont décédés par la suite à l'hôpital ainsi que les naissances multiples, nous avons trouvé 798 840 enregistrements de naissance vivante qui satisfaisaient aux critères d'inclusion. Durant la période correspondante, 27 405 nourrissons dans les neuf mêmes provinces et territoires canadiens ont été réhospitalisés dans les 28 jours qui ont suivi leur naissance. D'après les critères de sélection, 26 629 de ces réadmissions pouvaient être couplées avec des enregistrements de naissance.

L'étape 1 a permis d'apparier 23 571 nourrissons réadmis (après avoir exclus 26 entrées en double) avec leur enregistrement de naissance, soit 88,5 % des 26 629 réhospitalisations admissibles. Les étapes 2 et 3 ont accru le nombre d'appariements réussis, qui est passé à 24 766 réadmissions ou 93,0 % des réhospitalisations admissibles, après exclusion de deux paires à l'étape 4 (vérification logique). Les détails du processus d'appariement sont donnés à la figure 1.


FIGURE 1

Algorithme d'appariement pour le couplage des données sur les congés des hopitaux

Algorithme d'appariement pour le couplage des données
			sur les congés des hopitaux


   

Parmi les 7 430 cas dans le fichier couplé utilisé comme étalon de référence, 7 023 (94,5 %) n'ont pu être appariés à l'étape 1, comme le montre la figure 1. Sur ces 7 023 cas, deux ont été incorrectement appariés et sept étaient des entrées en double, leurs variables d'appariement n'étant pas identiques. Le taux d'appariement correct s'établissait à 94,4 % à l'étape 1, c'est-à-dire qu'il y avait concordance complète des données sur la province, le code postal de résidence à six chiffres, le sexe et la date de naissance.

La comparaison des cas couplés et non couplés a montré que ceux-ci étaient assez similaires du point de vue des caractéristiques principales et des diagnostics qui nous intéressaient (tableau 2). Toutefois, des proportions significativement plus élevées de bébés de faible poids à la naissance (6,4 % contre 5,6 %) et de réadmissions avec un diagnostic d'ictère (40,9 % contre 38,6 %) ont été observées parmi les cas non couplés. Le taux de couplage réussi a également augmenté de 1993-1994 à 1995-1996 (tableau 2).


TABLEAU 2

Comparaison des principales caractéristiques des cas couplés et non couplés dans une étude des réadmissions chez les nouveau-nés

Caractéristique

Cas couplés

Cas non couplésa

Valeur p

Nombre

24 766

2 639

 
% dans l'année financière 1993-1994

30,8

35,2

<0,01

% dans l'année financière 1994-1995

33,4

33,2

NS

% dans l'année financière 1995-1996

35,8

31,6

<0,01

% de sujets de sexe masculin

57,0

56,3

NS

% d'enfants dont le poids à la naissance <2 500 g

5,6

6,4

<0,01

Âge moyen lors de la réadmission (jours)

10,8

10,7

NS

% hospitalisés pendant <2 jours après leur naissance

25,6

25,8

NS

% d'enfants présentant un ictère

40,9

38,6

<0,05

% d'enfants déshydratés

5,9

6,1

NS

% d'enfants n'ayant pas pris assez de poids

2,8

2,4

NS

% d'enfants ayant des problèmes d'alimentation

9,8

10,2

NS

% d'enfants présentant une septicémie

5,4

5,3

NS

a Ce nombre inclut les cas qui ont été exclus avant le couplage d'après les critères de sélection de sujet.

NS = non significatif

   

Discussion

L'appariement probabiliste est une stratégie recommandée pour le couplage des dossiers informatisés. C'est la méthode privilégiée parce que le calcul de la probabilité peut être raffiné à plusieurs égards pour tenir compte des poids associés à la valeur des éléments d'identification et aux erreurs de codification, ce qui permet de tirer le maximum d'informations à partir des données1-3,16,17.

S'il existe dans les deux dossiers à coupler un code d'identification unique commun (p. ex., numéro d'assurance sociale) et si cet identificateur est assez bien consigné dans les données, un couplage déterministe peut être effectué facilement à l'aide d'un logiciel statistique courant tel que SAS. On ne dispose pas souvent cependant d'un code d'identification unique commun. Par exemple, les numéros d'assurance sociale ou d'autres éléments d'identification personnelle sont souvent utilisés uniquement pour les adultes; on ne peut donc s'en servir dans les études portant sur des nourrissons et des enfants. Pour des raisons de confidentialité, l'organisme qui recueille les données n'a souvent pas le droit de communiquer le nom du sujet. Même si le nom du sujet peut être divulgué aux enquêteurs, il arrive souvent que les noms soient mal épelés15.

Le code postal est un système bien développé à la Société canadienne des postes. Cette information est souvent complète dans les enregistrements et le risque d'erreur est relativement faible, car le code est en général plus court et plus simple que le nom et l'adresse. De plus, parce qu'il ne révèle pas l'identité du sujet, il peut être communiqué aux enquêteurs sans réserve et sans problème de confidentialité. Nous avons effectué un test de fréquence à partir de nos données brutes et avons constaté que la probabilité que deux individus aient le même sexe, la même date de naissance et le même code postal à six chiffres était très faible (données non illustrées). Si l'on associe le sexe, la date de naissance et d'autres renseignements, cette variable peut contribuer grandement à l'identification d'une même personne. C'est de cette manière (étape 1) que la majorité des dossiers ont été couplés dans notre étude des réadmissions de nouveau-nés (88,5 %); cette méthode était également assez exacte (94,4 % comparativement à l'étalon de référence). Au Canada, une faible proportion de naissances surviennent à l'extérieur de l'hôpital. Si nous avions accès aux données sur les accouchements à l'extérieur de l'hôpital, le taux d'appariement serait même plus élevé.

Comme dans le cas d'autres méthodes de couplage, le succès du couplage déterministe dépend pour une bonne part de l'exhaustivité et de l'exactitude des renseignements versés dans les dossiers qui doivent être couplés et d'une bonne combinaison de variables d'appariement. Dans nos techniques de couplage, les échecs d'appariement étaient principalement dus au fait qu'il manquait certains renseignements sur les variables utilisées, tels que le code postal, ou que ces renseignements étaient incomplets. Comme le montre l'augmentation des taux d'appariement réussi entre 1993-1994 et 1995-1996 (tableau 2), la qualité des données sur les congés des hôpitaux de l'ICIS s'est cependant améliorée, ce qui augure bien pour les études ultérieures qui feront appel au couplage déterministe.

Lorsqu'on n'arrive pas à effectuer un couplage, il importe d'évaluer l'impact éventuel sur les résultats de l'étude. Il se peut que la taille de l'échantillon disponible pour l'analyse en soit réduit. Comme la taille de l'échantillon ne pose pas habituellement de difficulté dans les études effectuées à partir des bases de données existantes, le problème associé au couplage incomplet tient surtout à l'introduction d'un biais potentiel. Notre comparaison des cas couplés et non couplés n'a pas mis en évidence de différences importantes dans les principales caractéristiques et catégories diagnostiques d'intérêt (malgré les différences statistiquement significatives dans la proportion d'enfants de faible poids à la naissance et dans les taux d'ictère), ce qui semble indiquer qu'aucun biais important n'a été introduit par ce couplage de dossiers.

Il convient de signaler une limite associée à l'utilisation du code postal comme principale variable d'appariement pour le couplage de dossiers. Dans nos sociétés modernes, les déménagements sont assez fréquents. Par conséquent, le couplage déterministe des dossiers à l'aide du code postal peut être moins fiable dans les études portant sur des événements s'étendant sur une longue période. Dans notre cas, la probabilité d'un déménagement dans les 28 jours suivant la naissance d'un enfant était faible, à moins que les patients aient donné des adresses différentes lors des différentes hospitalisations (p. ex., adresse des parents à l'accouchement mais adresse des grands-parents lors de la réadmission de l'enfant). De plus, le fait de ne compter que sur la concordance complète d'une série de variables d'appariement empêche souvent certains appariements ou réduit la sensibilité.

L'algorithme d'appariement déterministe est un moyen commode et faisable de coupler les données pour notre étude des réadmissions chez les nouveau-nés. Bien qu'il ait été mis au point pour une fin précise, il peut être utilisé dans les études épidémiologiques d'autres événements de courte durée, tels qu'une épidémie, les réhospitalisations, les réactions indésirables à des médicaments ou à des vaccins et l'agrégation familiale d'une maladie ou d'un facteur de risque. Par exemple, on peut apporter certaines modifications au programme de couplage et l'utiliser pour étudier les réadmissions chez les mères ou encore la relation entre les caractéristiques maternelles et l'état du nourrisson.


Remerciements

Cette étude a été réalisée sous les auspices du Système canadien de surveillance périnatale. Les auteurs tiennent à remercier la Dre Catherine McCourt, qui a lu et commenté le manuscrit.


Références

    1. Newcombe HB, Kennedy JM, Axford SJ. Automatic linkage of vital records. Science 1959;130:954-9.

    2. Howe GR, Lindsay J. A generalized iterative record linkage computer system for use in medical follow-up studies. Comput Biomed Res 1981;14:327-40.

    3. Newcombe HB. Handbook of record linkage: methods for health and statistical studies, administration, and business. Oxford, Angleterre: Oxford University Press, 1988.

    4. Miller AB, Howe GR, Sherman GJ. Mortality from breast cancer after irradiation during fluoroscopic examinations in patients being treated for tuberculosis. N Engl J Med 1989;321:1285-9.

    5. Herderson J, Goldacre MJ, Graveney MJ, Simmons HM. Use of medical record linkage to study readmission rates. Br Med J 1989;299:709-13.

    6. Van Den Brandt PA, Schouten LJ, Goldbohm RA, Dorant E, Hunen PMH. Development of a record linkage protocol for use in the Dutch Cancer Registry for epidemiological research. Int J Epidemiol 1990;19:553-8.

    7. Roos LL, Wajda A. Record linkage strategies. Part I: Estimating information and evaluating approaches. Meth Inform Med 1991;30:117-23.

    8. Goldberg MS, Carpenter M, Thériault G, Fair M. The accuracy of ascertaining vital status in a historical cohort study of synthetic textiles workers using computerized record linkage to the Canadian Mortality Data Base. Can J Public Health 1993;84:201-4.

    9. Nash JQ, Chandrakumar M, Farrington CP, Williamson S, Miller E. Feasibility study for identifying adverse events attributable to vaccination by record linkage. Epidemiol Infect 1995;114:475-80.

    10. The West of Scotland Coronary Prevention Study Group. Computerised record linkage: compared with traditional patient follow-up methods in clinical trials and illustrated in a prospective epidemiological study. J Clin Epidemiol 1995;48:1441-52.

    11. Jamieson E, Roberts J, Browne G. The feasibility and accuracy of anonymized record linkage to estimate shared clientele among three health and social service agencies. Meth Inform Med 1995;34:371-7.

    12. Howe GR. Lung cancer mortality between 1950 and 1987 after exposure to fractionated moderate-dose-rate ionizing radiation in the Canadian fluoroscopy cohort study and a comparison with lung cancer mortality in the atomic bomb survivors study. Radiat Res 1995;142:295-304.

    13. Howe GR, McLaughlin J. Breast cancer mortality between 1950 and 1987 after exposure to fractionated moderate-dose-rate ionizing radiation in the Canadian fluoroscopy cohort study and a comparison with breast cancer mortality in the atomic bomb survivors study. Radiat Res 1996;145:694-707.

    14. Herrchen B, Gould JB, Nesbitt TS. Vital statistics linked birth/infant death and hospital discharge record linkage for epidemiological studies. Comput Biomed Res 1997;30:290-305.

    15. Adams MM, Wilson HG, Casto DL, Berg CJ, McDermott JM, Gaudino JA, McCarthy BJ. Constructing reproductive histories by linking vital records. Am J Epidemiol 1997;145:339-48.

    16. Waien SA. Linking large administrative databases: a method for conducting emergencey medical services cohort studies using existing data. Acad Emerg Med 1997;4:1087-95.

    17. Howe GR. Use of computerized record linkage in cohort studies. Epidemiol Rev 1998;20:112-21.

    18. Wen SW, Liu S, Fowler D. Trends and variations in neonatal length of in-hospital stay in Canada. Can J Public Health 1998;89:115-9.

    19. Wen SW, Liu S, Marcoux S, Fowler D. Utilité et limites des dossiers d'hospitalisation courants pour la surveillance périnatale. Maladies chroniques au Canada 1997;18(3):125-32.


Références des auteurs

Shiliang Liu et Shi Wu Wen, Bureau de la santé génésique et de la santé de l'enfant, Laboratoire de lutte contre la maladie, Santé Canada, pré Tunney, Indice de l'adresse : 0601E2, Ottawa (Ontario) K1A 0L2

[Précédente][Table des matières] [Prochaine]

 
Dernière mise à jour : 2002-10-02 début