Sauvegarde, réplication et archivage… Quelles mesures prendre pour préserver l’intégrité de vos données ?

L’intégrité des données réglementées (« data integrity ») est une préoccupation conjointe des autorités(1) et des industries de santé et ceci bien avant l’apparition des premières lignes directrices ou guides sur ce sujet ; si beaucoup d’experts s’accordent à reconnaître que la plupart des aspects liés à la « data integrity » ne sont pas des sujets nouveaux, le focus mis par les différentes instances réglementaires sur ce sujet a le mérite de remettre en question certaines pratiques qui ont pu varier avec le temps et les évolutions technologiques. 

Il appartient notamment aux laboratoires concernés de faire le point sur leurs pratiques de gestion des données et notamment de garantir leur exactitude (« accuracy »), contemporanéité (« contemporaneous »), leur origine (« attributable »), leur lisibilité (« legible »), d’en préserver les caractéristiques d’origine (« original »), leur exhaustivité (« complete ») et ceci pendant toute la durée de rétention réglementaire (« enduring » and « available »).

Les systèmes générant des données électroniques ne sont pas tous uniformes et homogènes dans la gestion de ces données ; certains d’entre eux disposent de modalités de stockage évoluées (base de données intégrée…) et de fonctionnalités natives de préservation de l’intégrité : somme de contrôle (« checksum »), sauvegarde, archivage… mais d’autres sont plus limités sur ces sujets et nécessitent l’ajout de composants externes pour sécuriser ces données pendant tout leur cycle de vie.

Cet article a pour objet de faire le point sur quelques pratiques courantes de conservation des données électroniques sur des systèmes isolés ou en réseau qui peuvent permettre en fonction des cas de répondre aux principales exigences réglementaires.

 

1. Contexte réglementaire
D’un point de vue pratique, nous prendrons comme définition de la donnée celle proposée par l’OMS(2) : « Tous les enregistrements originaux et les copies certifiées conformes des enregistrements originaux, y compris les données sources et métadonnées et toutes les transformations et rapports ultérieurs de ces données, qui sont enregistrées au moment de l’activité GxP et permettent une reconstruction complète de l’activité GxP. Les données doivent être enregistrées avec précision par des moyens permanents au moment de l’activité. Les données peuvent être contenues dans des documents papier (tels que feuilles de travail et cahier de laboratoire), des enregistrements électroniques et des journaux de vérification (« audit trail »), des photographies, des microfilms ou des microfiches, des fichiers audio ou vidéo ou tout autre support. »

 

 

S’agissant de leur stockage, le projet de guide PIC/S récemment publié(3) mentionne que « le stockage des données doit inclure la totalité des données et métadonnées originales, y compris les pistes d’audit (« audit trail »), en utilisant un processus sécurisé et validé. »

Si les données sont sauvegardées ou des copies de celles-ci sont faites, alors la sauvegarde et les copies doivent également avoir le même niveau de contrôle approprié afin d’interdire des accès non autorisés, des modifications et suppressions de données ou leur altération. Par exemple, une entreprise qui sauvegarde des données sur des disques durs portables doivent interdire la possibilité de supprimer des données du disque dur.

Quelques considérations supplémentaires pour le stockage et la sauvegarde des données indiquent que :

  • Des copies conformes des enregistrements électroniques dynamiques peuvent être faites, avec la garantie que le contenu entier (c’est-à-dire toutes les données et les métadonnées) sont incluses et que la signification des enregistrements originaux est conservée.
  • Les données stockées doivent être accessibles dans un format lisible ; les entreprises peuvent avoir besoin de maintenir un matériel et logiciel approprié pour accéder aux données stockées électroniquement sous forme de sauvegardes ou de copies au cours de la durée de conservation.
  • Les copies de sauvegarde de routine doivent être stockées dans un endroit éloigné (séparé physiquement) dans l’hypothèse d’une catastrophe.
  • Les données de sauvegarde doivent être lisibles pendant toute la période de rétention réglementaire définie, même si une nouvelle version de ce logiciel a été mise à jour ou remplacé par un autre disposant de meilleures performances.
  • Les systèmes doivent permettre la sauvegarde et la restauration de toutes les données, y compris les métadonnées et les pistes pour audit (« audit trail »).

Enfin, la FDA(4) utilise le terme sauvegarde au § 211.68 (b) pour désigner une copie conforme de l’enregistrement original maintenue de manière sécurisée tout au long de la période de conservation des enregistrements (par exemple, article 211.180). Les données sauvegardées doivent être exactes, complètes et préservées de toute altération, effacement ou de toute perte involontaire (article 211.68 b). Le fichier de sauvegarde doit contenir les données (y compris les métadonnées associées) dans leur format d’origine ou dans un format compatible avec ce format d’origine. L’utilisation du terme « sauvegarde » par la FDA est cohérente avec le terme « archive » utilisé dans le guide pour l’industrie et le personnel de la FDA General Principles of Software Validation.
Des copies de sauvegarde temporaires (créées, par exemple, en cas de panne d’ordinateur ou autre interruption de service) ne remplissent pas les exigences de l’article 211.68 (b) de conserver un fichier de sauvegarde des données originales.

Il ressort de ces différentes sources que la donnée est en pratique indissociable de son support d’enregistrement ; la législation américaine a d’ailleurs clarifié dans son guide publié en décembre 2018 que « lorsqu’elles sont générées pour répondre à une exigence réglementaire, toutes les données deviennent des enregistrements réglementés(5)« .

Par exemple, un donnée de pH enregistrée sur un support papier(6) dispose de métadonnées (ou données de contexte) spécifiques : date et heure de la mesure, identification de l’échantillon, température, identification de la sonde… ; si cette donnée est reportée sur un autre support d’enregistrement (électronique dans un système LIMS par exemple), la même donnée perdra potentiellement certaines métadonnées et en disposera probablement d’autres : identification de la personne à l’origine de la saisie, date et heure de la saisie et « audit trail » des éventuelles modifications sur cette donnée…

L’intégrité d’une donnée électronique dans une définition informatique se réfère à une propriété associée aux données qui, lors de leur traitement ou de leur transmission, ne subissent aucune altération ou destruction volontaire ou accidentelle, et conservent un format permettant leur utilisation.

S’agissant des données électroniques mémorisées sur un support durable (disque dur, mémoire flash…), les techniques de préservation des données et de leur intégrité sont connues et mises en œuvre depuis longtemps ; la réglementation européenne aborde également ces sujets dans l’annexe 11 principalement dans les articles suivants :

  • 7.1. Les données doivent être protégées d’éventuels dommages par des moyens physiques et électroniques. L’accessibilité, la lisibilité et l’exactitude des données stockées doivent être vérifiées. L’accès aux données doit être garanti tout au long de la période de conservation.
  • 7.2. Des sauvegardes régulières des données pertinentes doivent être réalisées. L’intégrité et l’exactitude des données sauvegardées, ainsi que la capacité à restaurer les données, doivent être vérifiées pendant la validation et contrôlées périodiquement.

Enfin l’article 17 traite de la problématique de l’archivage : « Les données peuvent être archivées. L’accessibilité, la lisibilité et l’intégrité de ces données doivent être vérifiées. Si des modifications significatives du système doivent être faites (par exemple, un changement d’équipement informatique ou de logiciel), alors la capacité à récupérer les données archivées doit être garantie et testée. »

 

2. Sauvegarde et archivage
Pour bien distinguer les termes, la sauvegarde (« backup » en anglais) est l’opération qui consiste à dupliquer et à sécuriser (le plus souvent dans un lieu distinct du lieu principal d’utilisation) les données contenues dans un système informatisé tandis que l’archivage consiste à déplacer certaines de ces données qui ont déjà fait l’objet d’un traitement complet sur un dispositif de stockage à long terme afin de libérer de l’espace dans le stockage principal pour des nouvelles données.

Plusieurs types de sauvegarde informatique existent :

  • La sauvegarde totale (« full backup »).
  • La sauvegarde incrémentale (« incremental backup »).
  • La sauvegarde différentielle (« differential backup »)…

Les données sauvegardées peuvent être récupérées depuis leur espace sécurisé et remontées (on parle alors de restauration) dans leur environnement d’origine.

L’objectif des sauvegardes régulières des données a bien pour objet de préserver l’intégrité des données en cas d’incident majeur sur le système informatisé (altération permanente du disque dur par exemple).

Le schéma ci-dessous donne une indication des principaux indicateurs de performance d’un processus de sauvegarde :

 

 

Le terme « recovery time objective » (RTO) désigne la durée nécessaire à un redémarrage partiel (dégradé) du service opérationnel tandis que le « recovery point objective » (RPO) quantifie la capacité de reprise sur sauvegarde de la ressource. L’ensemble permet de déterminer le temps total d’interruption d’une ressource après un incident majeur. Par exemple, pour un laboratoire travaillant de 8h à 18h, si un incident majeur a lieu à midi, que la dernière sauvegarde date de la veille au soir, celui-ci aura perdu les données équivalentes à 4 heures de travail (de 8h à 12h).

La sauvegarde confère également la capacité de restaurer sélectivement une donnée supprimée par erreur ; cette capacité est toutefois très relative et dépend principalement des modalités de stockage des données de chaque système. S’il est possible, d’un point de vue réglementaire, de supprimer des données, il est nécessaire de conserver la trace de la suppression de ces données : « Il doit être envisagé, sur la base d’une analyse de risques, l’inclusion au sein du système informatisé d’un journal (dit « audit trail ») permettant de conserver la trace de toute modification ou suppression survenue sur les données ayant un impact BPF. Toute modification ou suppression d’une donnée ayant un impact BPF doit être justifiée et documentée(7)« . La suppression d’une donnée électronique n’étant pas recommandée, il est souhaitable de disposer dans les différents systèmes d’une suppression logique plutôt que physique des enregistrements réalisés.

La suppression logique d’un enregistrement consiste à marquer l’enregistrement comme supprimé au regard de l’application ou du système d’exploitation mais à ne le supprimer physiquement (définitivement) qu’à l’issue d’une réorganisation ou défragmentation du support de stockage.

 

3. Réplication
En informatique, la réplication est un processus de partage d’informations pour assurer la cohérence de données entre plusieurs sources de données redondantes, pour améliorer la fiabilité, la tolérance aux pannes, ou la disponibilité. On parle de réplication de données si les mêmes données sont dupliquées sur plusieurs périphériques(8).

Il est possible de répliquer les données sur plusieurs disques de stockage d’un même serveur. On parle ainsi couramment de virtualisation du stockage en RAID (« Redundant Array of Independent Disks »).

 

 

Le stockage virtuel en RAID 5 constitue un ensemble à redondance N+1. La parité, qui est incluse avec chaque écriture se retrouve répartie circulairement sur les différents disques. Chaque bande est donc constituée de N blocs de données et d’un bloc de parité. Ainsi, en cas de défaillance de l’un des disques de la grappe, pour chaque bande il manquera soit un bloc de données soit le bloc de parité. Si c’est le bloc de parité, ce n’est pas grave, car aucune donnée ne manque. Si c’est un bloc de données, on peut calculer son contenu à partir des N-1 autres blocs de données et du bloc de parité. L’intégrité des données de chaque bande est préservée. Donc non seulement la grappe est toujours en état de fonctionner, mais il est de plus possible de reconstruire le disque une fois échangé à partir des données et des informations de parité contenues sur les autres disques.

 

 

 

Si ce système permet en théorie une disponibilité plus importante, sa mise en œuvre est coûteuse et les garanties de récupération des données ne sont pas absolues.
Ce mécanisme de réplication peut être réalisé à l’échelle d’une base de données sur plusieurs serveurs ou centre de données (« datacenter »).
Il faut par ailleurs noter que les principaux fournisseurs de stockage dans le Cloud propose dans leurs services standards la réplication des données sur plusieurs datacenters (« availability zones » chez AWS) et que les coûts de stockage des données à long terme sont particulièrement réduits (0,0045 USD par Go/mois, tarif AWS Paris à décembre 2018).

Ce mécanisme de réplication permet un taux de disponibilité élevé des services de stockage puisque le RTO et RPO sont en pratique égal à zéro par opposition aux systèmes de sauvegarde où comme nous l’avons vu le RTO/RPO est toujours positif et conditionne une indisponibilité plus ou moins grande du service.

Il faut néanmoins être attentif au fait qu’une donnée supprimée sur une instance le sera aussi dans les autres instances ce qui n’est pas un problème pour les systèmes disposant d’un mode de suppression logique mais qui peut l’être pour des systèmes plus rudimentaires.

 

En conclusion, les technologies de sauvegarde, archivage et réplication de données sont aujourd’hui largement disponibles ; elles peuvent être mises en œuvre par un administrateur informatique qualifié et indépendant qui devra sélectionner le moyen le mieux adapté en fonction du support d’enregistrement et de la technologie propre à chaque système. Il faut par ailleurs garder en mémoire que les données sauvegardées ou archivées sont également sujettes à revue notamment pour vérifier la capacité de restauration de ces données ; cette revue pouvant être réalisée en même temps que la revue périodique du système.

Partager l’article

Capture D’écran 2019 01 23 À 11.29.53

Jean-Louis JOUVE – COETIC

Depuis novembre 2004, Jean-Louis JOUVE est le gérant et consultant principal de COETIC, un société d’expertise et de conseil dédiée aux industries réglementées telles que l’industrie pharmaceutique et cosmétique, les fabricants de dispositifs médicaux, les sociétés de biotechnologie, les producteurs de principes actifs pharmaceutiques. Avant la création de COETIC, Jean- Louis JOUVE était le directeur général d’une société spécialisée dans l’information des processus qualité de sociétés réglementées : plus de 50 systèmes pour environ 30 clients nationaux et internationaux ont été mis en oeuvre dans cette période. Jean-Louis JOUVE possède un diplôme d’ingénieur de l’Ecole Supérieure de Chimie Industrielle de Lyon (CPE LYON) et un Diplôme d’Études Approfondies (DEA) en Chimie Analytique de l’université de Lyon I.

jean-louis.jouve@coetic.com

Références

(1) Statement from FDA Commissioner Scott Gottlieb, M.D., on the agency’s efforts to improve drug quality through vigilant oversight of data integrity and good manufacturing practice, December 12, 2018
(2) WHO, Annex 5, Technical Report Series; No 996 « Guidance on Good Data and Record Management Practices, » May 2016
(3) Good Practices for Data Management and Integrity in Regulated GMP/GDP Environments, PI 041-1 (Draft 3) 30 November 2018
(4) US FDA Data Integrity and Compliance With CGMP Guidance for Industry Questions and Answers December 2018
(5) En vertu de l’article 704 (a) du Food Drug & Cosmetic Act, les inspections des sites de fabrication par la FDA « s’appliquent à tous les éléments (y compris les enregistrements, dossiers, documents, processus, moyens de contrôle et installations) pouvant avoir un impact sur les médicaments sur ordonnance [et] les médicaments en vente libre destinés à la consommation humaine … en termes de falsification ou mauvaise identification… ou portant autrement sur une violation de ce chapitre ». En conséquence, la FDA demande et examine systématiquement les enregistrements qui ne sont pas forcément destinés à satisfaire une exigence CGMP mais qui contiennent néanmoins des informations CGMP (par exemple, des dossiers d’expédition ou autres pouvant être utilisés pour reconstruire une activité. ibid
(6) Si ce ticket est imprimé sur une imprimante à papier thermique (sensible à la chaleur), le support de l’enregistrement risque de ne pas être lisible (« legible ») pendant toute la durée de rétention réglementaire ; une « copie conforme » de cet enregistrement est alors nécessaire.
(7) EMA Annexe 11.9 Traçabilité des modifications
(8) Wikipedia