![]() |
|||||||||||||||||
![]() |
|||||||||||||||||
![]() ![]() ![]() |
![]() |
|
|||||||||||||||
![]() |
![]() Élaboration du couplage des données sur les congés d'hôpitaux pour l'étude des réadmissions chez les nouveau-nés
Résumé Les études épidémiologiques font de plus en plus
appel au couplage de dossiers informatisés. Nous avons élaboré
un algorithme d'appariement déterministe à plusieurs étapes
qui utilise diverses combinaisons de variables clés. Puis à
partir des dossiers pour la période s'étendant entre le
1er mars 1993 et le 31 mars 1996 versés dans la base
de données sur les congés des patients de l'Institut canadien
d'information sur la santé (ICIS), nous avons examiné la
relation entre la durée de séjour à l'hôpital
à la naissance et la réadmission des nouveau-nés.
En combinant la province/territoire d'admission, le code postal de résidence
à six chiffres, la date de naissance et le sexe (première
étape), nous avons apparié 88,5 % des 26 629 dossiers de
réadmission de nouveau-nés admissibles avec leur enregistrement
de naissance. En ajoutant le code d'établissement et le numéro
de dossier médical ou le numéro de carte d'assurance-maladie
à la date de naissance et au sexe (étape 2 et étape
3), nous avons porté le taux d'appariement à 93,0 %. Comparativement
à l'étalon de référence, l'étape 1
a permis d'apparier correctement 94,4 % des dossiers. Nous concluons que
cet algorithme d'appariement déterministe est un moyen commode
et faisable de coupler les données pour l'étude des réadmissions
chez les nouveau-nés. Cette stratégie de couplage peut également
être utile dans les études épidémiologiques
portant sur d'autres événements s'étendant sur une
courte période.
Les études effectuées à partir de bases de données existantes présente beaucoup d'intérêt pour les épidémiologistes et d'autres chercheurs de la santé, car elles permettent d'examiner de façon efficiente des populations de grande taille. Par exemple, il est possible d'examiner le lien entre le poids de naissance, l'âge gestationnel, l'âge de la mère et la mortalité ou la morbidité infantile à l'échelle d'un pays en analysant les données existantes, qui sont recueillies systématiquement dans les statistiques de l'état civil et les statistiques hospitalières. Toutefois, le fait qu'on ne retrouve pas toute l'information dans une seule base de données constitue souvent un obstacle pour les chercheurs. Au cours des dernières années, le couplage de dossiers informatisés a permis de surmonter cet obstacle dans les études prenant appui sur les bases de données existantes1-17. Il est possible de classer les méthodes de couplage de dossiers en trois grandes catégories : manuel, déterministe et probabiliste. L'appariement manuel est la méthode la plus ancienne, la plus laborieuse et la plus coûteuse, mais elle demeure la technique de référence. Cette solution n'est toutefois pas envisageable lorsqu'on a affaire à d'énormes bases de données. Le couplage probabiliste permet d'identifier et de coupler les dossiers dans un fichier avec les dossiers correspondants dans un autre fichier (ou deux dossiers situés à différents endroits dans un seul fichier) en calculant la probabilité statistique pour un ensemble de variables pertinentes (p. ex., nom, sexe, date de naissance). Le couplage déterministe apparie des dossiers dans deux fichiers (ou deux dossiers situés à des endroits différents dans un même fichier) à l'aide d'une variable unique (p. ex., numéro d'assurance sociale ou numéro de dossier de l'hôpital) ou par concordance complète d'un ensemble de variables communes (p. ex., nom, sexe, date de naissance). Le couplage probabiliste est considéré comme la méthode privilégiée, parce que le calcul de la probabilité peut être raffiné à divers égards pour tenir compte des poids associés à la valeur des identificateurs et aux erreurs de codification, ce qui permet de tirer le maximum de renseignements1-3,16,17. Pour effectuer un couplage probabiliste, il faut cependant avoir une connaissance détaillée des diverses mesures de l'importance relative de la valeur de certains indicateurs - par exemple la fréquence - dans les deux fichiers qui sont couplés. Il arrive souvent que les enquêteurs n'aient pas cette connaissance préalable6. Le présent article vise à illustrer le couplage déterministe des enregistrements de sortie de l'hôpital dans la base de données sur les congés des patients de l'Institut canadien d'information sur la santé (ICIS), en prenant les réadmissions de nouveau-nés comme exemple. L'une de nos études antérieures a révélé que la durée de séjour à l'hôpital des nouveau-nés après la naissance avait diminué de façon assez notable récemment18. Nous avons émis l'hypothèse que cette réduction pouvait entraîner une hausse des taux de réadmission des nouveau-nés. Pour pouvoir examiner la relation entre la durée de séjour des nouveau-nés à l'hôpital après la naissance et leur réadmission subséquente, il faut coupler le document de réadmission avec l'enregistrement de naissance du bébé.
Nous avons examiné les données de l'ICIS pour une période de trois ans (1993-1994 à 1995-1996). Il a fallu exclure les données de la Nouvelle-Écosse, du Québec et du Manitoba parce que l'ICIS n'a recueilli qu'une petite partie des enregistrements de sortie de l'hôpital dans ces provinces19. Les naissances vivantes ont été identifiées à l'aide d'un champ «unité d'âge» avec un code «NB». Les nourrissons pesant moins de 1 500 g, ceux qui ont obtenu leur congé de l'hôpital 21 jours après leur naissance et ceux qui sont décédés par la suite à l'hôpital où ils étaient nés ont été exclus. La réadmission d'un nouveau-né s'entend de l'admission d'un bébé à un hôpital dans les 28 jours qui suivent sa naissance. Les nourrissons qui ont été transférés d'un autre établissement n'ont pas été considérés comme des réadmissions. Les naissances multiples ont été exclues des enregistrements de naissance et de réadmission parce qu'elles partageaient des variables non identifiables. Les enregistrements de naissance et de réadmission comportent des renseignements sur la province/territoire et l'établissement d'admission, le numéro de dossier de l'établissement, la date de naissance, le sexe, le numéro de carte d'assurance-maladie de la province, le code postal à six chiffres, la date d'admission, la date de congé et les codes de diagnostic. Le code d'établissement, le numéro de dossier de l'établissement et le numéro d'assurance-maladie sont brouillés pour des raisons de confidentialité (tableau 1).
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Par conséquent, nous avons jugé approprié d'utiliser une série de variables pour un couplage déterministe en plusieurs étapes. Après avoir évalué si les variables étaient présentes dans le registre des congés de l'ICIS et si elles étaient pertinentes, nous avons élaboré un algorithme d'appariement informatisé. Comme le montre la figure 1, les enregistrements de naissance et de réadmission ont été appariés tout d'abord en obtenant un accord parfait de la province/territoire, du code postal de résidence à six chiffres, de la date de naissance et du sexe (étape 1); deuxièmement, une concordance complète du code d'établissement, du numéro de dossier d'établissement, du sexe et de la date de naissance (étape 2); et troisièmement, une concordance complète du numéro de carte d'assurance-maladie de la province/territoire, du sexe et de la date de naissance (étape 3); et enfin, cet appariement a été complété par une vérification logique des cas appariés (étape 4). Cette vérification logique consistait à vérifier s'il y avait des conflits ou des contradictions entre la date de naissance, la date de congé de l'hôpital, la date de réadmission et l'âge au moment de la réadmission. Pour évaluer l'exactitude du couplage de dossiers effectué à l'étape 1, qui a servi de base à la majorité des appariements obtenus, nous avons créé un fichier couplé en utilisant l'étape 2 uniquement pour identifier les nourrissons qui ont été réadmis à l'hôpital où ils étaient nés. Nous avons considéré ce fichier couplé comme l'étalon de référence, parce que le numéro de dossier d'établissement dans ces dossiers est unique. Nous avons ensuite séparé les enregistrements de naissance et de réadmission qui avaient été couplés et avons effectué l'étape 1 pour les coupler à nouveau afin d'évaluer l'exactitude de l'appariement par rapport à celle de l'étalon de référence. Enfin, nous avons évalué le biais potentiel associé aux exclusions et aux couplages non réussis en comparant les distributions de variables qui nous intéressaient, telles que le poids de naissance, la durée de séjour à l'hôpital et les principales catégories diagnostiques pour les réadmissions, pour les cas couplés et non couplés. Pour les besoins de cette comparaison, les cas non couplés incluaient ceux qui avaient été exclus parce qu'ils ne satisfaisaient pas aux critères de sélection avant que le couplage n'ait été effectué. Le logiciel SAS pour Unix, version 6.12 (SAS Institute Inc., Cary, Caroline du Nord), a été utilisé dans tous les résumés analytiques de données et les opérations de couplage.
Entre le 1er mars 1993 et le 31 mars 1996, en tout 817 351 naissances vivantes dans les hôpitaux des neuf provinces et territoires canadiens étudiés ont été recensées par l'ICIS. Après avoir exclu les nourrissons qui pesaient moins de 1 500 g, ceux qui ont obtenu leur congé de l'hôpital 21 jours après la naissance, ceux qui sont décédés par la suite à l'hôpital ainsi que les naissances multiples, nous avons trouvé 798 840 enregistrements de naissance vivante qui satisfaisaient aux critères d'inclusion. Durant la période correspondante, 27 405 nourrissons dans les neuf mêmes provinces et territoires canadiens ont été réhospitalisés dans les 28 jours qui ont suivi leur naissance. D'après les critères de sélection, 26 629 de ces réadmissions pouvaient être couplées avec des enregistrements de naissance. L'étape 1 a permis d'apparier 23 571 nourrissons réadmis (après avoir exclus 26 entrées en double) avec leur enregistrement de naissance, soit 88,5 % des 26 629 réhospitalisations admissibles. Les étapes 2 et 3 ont accru le nombre d'appariements réussis, qui est passé à 24 766 réadmissions ou 93,0 % des réhospitalisations admissibles, après exclusion de deux paires à l'étape 4 (vérification logique). Les détails du processus d'appariement sont donnés à la figure 1. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Parmi les 7 430 cas dans le fichier couplé utilisé comme étalon de référence, 7 023 (94,5 %) n'ont pu être appariés à l'étape 1, comme le montre la figure 1. Sur ces 7 023 cas, deux ont été incorrectement appariés et sept étaient des entrées en double, leurs variables d'appariement n'étant pas identiques. Le taux d'appariement correct s'établissait à 94,4 % à l'étape 1, c'est-à-dire qu'il y avait concordance complète des données sur la province, le code postal de résidence à six chiffres, le sexe et la date de naissance. La comparaison des cas couplés et non couplés a montré que ceux-ci étaient assez similaires du point de vue des caractéristiques principales et des diagnostics qui nous intéressaient (tableau 2). Toutefois, des proportions significativement plus élevées de bébés de faible poids à la naissance (6,4 % contre 5,6 %) et de réadmissions avec un diagnostic d'ictère (40,9 % contre 38,6 %) ont été observées parmi les cas non couplés. Le taux de couplage réussi a également augmenté de 1993-1994 à 1995-1996 (tableau 2). |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Discussion L'appariement probabiliste est une stratégie recommandée pour le couplage des dossiers informatisés. C'est la méthode privilégiée parce que le calcul de la probabilité peut être raffiné à plusieurs égards pour tenir compte des poids associés à la valeur des éléments d'identification et aux erreurs de codification, ce qui permet de tirer le maximum d'informations à partir des données1-3,16,17. S'il existe dans les deux dossiers à coupler un code d'identification unique commun (p. ex., numéro d'assurance sociale) et si cet identificateur est assez bien consigné dans les données, un couplage déterministe peut être effectué facilement à l'aide d'un logiciel statistique courant tel que SAS. On ne dispose pas souvent cependant d'un code d'identification unique commun. Par exemple, les numéros d'assurance sociale ou d'autres éléments d'identification personnelle sont souvent utilisés uniquement pour les adultes; on ne peut donc s'en servir dans les études portant sur des nourrissons et des enfants. Pour des raisons de confidentialité, l'organisme qui recueille les données n'a souvent pas le droit de communiquer le nom du sujet. Même si le nom du sujet peut être divulgué aux enquêteurs, il arrive souvent que les noms soient mal épelés15. Le code postal est un système bien développé à la Société canadienne des postes. Cette information est souvent complète dans les enregistrements et le risque d'erreur est relativement faible, car le code est en général plus court et plus simple que le nom et l'adresse. De plus, parce qu'il ne révèle pas l'identité du sujet, il peut être communiqué aux enquêteurs sans réserve et sans problème de confidentialité. Nous avons effectué un test de fréquence à partir de nos données brutes et avons constaté que la probabilité que deux individus aient le même sexe, la même date de naissance et le même code postal à six chiffres était très faible (données non illustrées). Si l'on associe le sexe, la date de naissance et d'autres renseignements, cette variable peut contribuer grandement à l'identification d'une même personne. C'est de cette manière (étape 1) que la majorité des dossiers ont été couplés dans notre étude des réadmissions de nouveau-nés (88,5 %); cette méthode était également assez exacte (94,4 % comparativement à l'étalon de référence). Au Canada, une faible proportion de naissances surviennent à l'extérieur de l'hôpital. Si nous avions accès aux données sur les accouchements à l'extérieur de l'hôpital, le taux d'appariement serait même plus élevé. Comme dans le cas d'autres méthodes de couplage, le succès du couplage déterministe dépend pour une bonne part de l'exhaustivité et de l'exactitude des renseignements versés dans les dossiers qui doivent être couplés et d'une bonne combinaison de variables d'appariement. Dans nos techniques de couplage, les échecs d'appariement étaient principalement dus au fait qu'il manquait certains renseignements sur les variables utilisées, tels que le code postal, ou que ces renseignements étaient incomplets. Comme le montre l'augmentation des taux d'appariement réussi entre 1993-1994 et 1995-1996 (tableau 2), la qualité des données sur les congés des hôpitaux de l'ICIS s'est cependant améliorée, ce qui augure bien pour les études ultérieures qui feront appel au couplage déterministe. Lorsqu'on n'arrive pas à effectuer un couplage, il importe d'évaluer l'impact éventuel sur les résultats de l'étude. Il se peut que la taille de l'échantillon disponible pour l'analyse en soit réduit. Comme la taille de l'échantillon ne pose pas habituellement de difficulté dans les études effectuées à partir des bases de données existantes, le problème associé au couplage incomplet tient surtout à l'introduction d'un biais potentiel. Notre comparaison des cas couplés et non couplés n'a pas mis en évidence de différences importantes dans les principales caractéristiques et catégories diagnostiques d'intérêt (malgré les différences statistiquement significatives dans la proportion d'enfants de faible poids à la naissance et dans les taux d'ictère), ce qui semble indiquer qu'aucun biais important n'a été introduit par ce couplage de dossiers. Il convient de signaler une limite associée à l'utilisation du code postal comme principale variable d'appariement pour le couplage de dossiers. Dans nos sociétés modernes, les déménagements sont assez fréquents. Par conséquent, le couplage déterministe des dossiers à l'aide du code postal peut être moins fiable dans les études portant sur des événements s'étendant sur une longue période. Dans notre cas, la probabilité d'un déménagement dans les 28 jours suivant la naissance d'un enfant était faible, à moins que les patients aient donné des adresses différentes lors des différentes hospitalisations (p. ex., adresse des parents à l'accouchement mais adresse des grands-parents lors de la réadmission de l'enfant). De plus, le fait de ne compter que sur la concordance complète d'une série de variables d'appariement empêche souvent certains appariements ou réduit la sensibilité. L'algorithme d'appariement déterministe est un moyen commode et faisable de coupler les données pour notre étude des réadmissions chez les nouveau-nés. Bien qu'il ait été mis au point pour une fin précise, il peut être utilisé dans les études épidémiologiques d'autres événements de courte durée, tels qu'une épidémie, les réhospitalisations, les réactions indésirables à des médicaments ou à des vaccins et l'agrégation familiale d'une maladie ou d'un facteur de risque. Par exemple, on peut apporter certaines modifications au programme de couplage et l'utiliser pour étudier les réadmissions chez les mères ou encore la relation entre les caractéristiques maternelles et l'état du nourrisson.
Cette étude a été réalisée sous les auspices du Système canadien de surveillance périnatale. Les auteurs tiennent à remercier la Dre Catherine McCourt, qui a lu et commenté le manuscrit.
1. Newcombe HB, Kennedy JM, Axford SJ. Automatic linkage of vital records. Science 1959;130:954-9. 2. Howe GR, Lindsay J. A generalized iterative record linkage computer system for use in medical follow-up studies. Comput Biomed Res 1981;14:327-40. 3. Newcombe HB. Handbook of record linkage: methods for health and statistical studies, administration, and business. Oxford, Angleterre: Oxford University Press, 1988. 4. Miller AB, Howe GR, Sherman GJ. Mortality from breast cancer after irradiation during fluoroscopic examinations in patients being treated for tuberculosis. N Engl J Med 1989;321:1285-9. 5. Herderson J, Goldacre MJ, Graveney MJ, Simmons HM. Use of medical record linkage to study readmission rates. Br Med J 1989;299:709-13. 6. Van Den Brandt PA, Schouten LJ, Goldbohm RA, Dorant E, Hunen PMH. Development of a record linkage protocol for use in the Dutch Cancer Registry for epidemiological research. Int J Epidemiol 1990;19:553-8. 7. Roos LL, Wajda A. Record linkage strategies. Part I: Estimating information and evaluating approaches. Meth Inform Med 1991;30:117-23. 8. Goldberg MS, Carpenter M, Thériault G, Fair M. The accuracy of ascertaining vital status in a historical cohort study of synthetic textiles workers using computerized record linkage to the Canadian Mortality Data Base. Can J Public Health 1993;84:201-4. 9. Nash JQ, Chandrakumar M, Farrington CP, Williamson S, Miller E. Feasibility study for identifying adverse events attributable to vaccination by record linkage. Epidemiol Infect 1995;114:475-80. 10. The West of Scotland Coronary Prevention Study Group. Computerised record linkage: compared with traditional patient follow-up methods in clinical trials and illustrated in a prospective epidemiological study. J Clin Epidemiol 1995;48:1441-52. 11. Jamieson E, Roberts J, Browne G. The feasibility and accuracy of anonymized record linkage to estimate shared clientele among three health and social service agencies. Meth Inform Med 1995;34:371-7. 12. Howe GR. Lung cancer mortality between 1950 and 1987 after exposure to fractionated moderate-dose-rate ionizing radiation in the Canadian fluoroscopy cohort study and a comparison with lung cancer mortality in the atomic bomb survivors study. Radiat Res 1995;142:295-304. 13. Howe GR, McLaughlin J. Breast cancer mortality between 1950 and 1987 after exposure to fractionated moderate-dose-rate ionizing radiation in the Canadian fluoroscopy cohort study and a comparison with breast cancer mortality in the atomic bomb survivors study. Radiat Res 1996;145:694-707. 14. Herrchen B, Gould JB, Nesbitt TS. Vital statistics linked birth/infant death and hospital discharge record linkage for epidemiological studies. Comput Biomed Res 1997;30:290-305. 15. Adams MM, Wilson HG, Casto DL, Berg CJ, McDermott JM, Gaudino JA, McCarthy BJ. Constructing reproductive histories by linking vital records. Am J Epidemiol 1997;145:339-48. 16. Waien SA. Linking large administrative databases: a method for conducting emergencey medical services cohort studies using existing data. Acad Emerg Med 1997;4:1087-95. 17. Howe GR. Use of computerized record linkage in cohort studies. Epidemiol Rev 1998;20:112-21. 18. Wen SW, Liu S, Fowler D. Trends and variations in neonatal length of in-hospital stay in Canada. Can J Public Health 1998;89:115-9. 19. Wen SW, Liu S, Marcoux S, Fowler D. Utilité et limites des dossiers d'hospitalisation courants pour la surveillance périnatale. Maladies chroniques au Canada 1997;18(3):125-32.
Références des auteurs Shiliang Liu et Shi Wu Wen, Bureau de la santé génésique et de la santé de l'enfant, Laboratoire de lutte contre la maladie, Santé Canada, pré Tunney, Indice de l'adresse : 0601E2, Ottawa (Ontario) K1A 0L2 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |
|||
![]() |
Dernière mise à jour : 2002-10-02 | ![]() |