Le gouvernement britannique accorde une place majeure aux technologies dans le domaine de la santé. En juin, il décidait par exemple de la création d’un nouveau fonds de 21 millions de livres sterling pour investir dans les dernières technologies d’intelligence artificielle (IA) afin de diagnostiquer et traiter les patients plus rapidement.
Le National Health Service (NHS), le système de santé publique au Royaume-Uni, se consacre aussi à l’innovation dans le secteur du séquençage du génome. Si le sujet intéresse l’ensemble des chercheurs, c’est car le séquençage génomique vise à adapter le traitement à chaque patient. En clair, il est à la base de la médecine personnalisée.
La puissance de calcul n’est plus la seule préoccupation
Ce pan de la recherche requiert cependant d’importantes capacités de calcul, mais pas seulement, comme l’illustre le projet CLIMB (Cloud Infrastructure for Microbial Bioinformatics, ou Infrastructure Cloud pour la Bioinformatique Microbienne).
Le projet, au sein duquel collaborent les universités de Warwick, Birmingham, Cardiff, Swansea, Bath et Leicester, ainsi que le Quadram Institute Bioscience, vise à concevoir et déployer une infrastructure informatique de nouvelle génération capable d’accélérer l’identification d’options de traitement personnalisées pour les maladies infectieuses. Et donc le séquençage génomique.
Et comme le souligne le docteur Thomas Connor, chercheur principal de l’équipe CLIMB de l’université de Cardiff, les exigences du projet en matière de HPC dépassent celles des travaux habituels. Les besoins ont évolué avec la massification des données et les exigences de rapidité des cliniciens dans l’obtention des résultats. Les performances de calcul pures ne sont plus les seules préoccupations.
Des clusters sur-mesure à chaque étape
Le projet innovant CLIMB a nécessité de faire preuve de créativité pour surmonter les contraintes spécifiques à la génomique. L’analyse d’une maladie, le contrôle et les traitements ciblés constituent des étapes très distinctes dans le workflow CLIMB.
L’architecture devait tenir compte de cette réalité et cela s’est traduit par la constitution de plusieurs clusters distincts, dotés chacun de capacités différentes et capables de s’adapter de manière sûre et fiable. Une configuration qui a amené les équipes à repenser également leurs choix en matière de connectivité et de stockage.
Les clusters ont été interconnectés à un pool de 7 pétaoctets de stockage.
L’élément le plus critique de l’infrastructure déployée n’était en effet pas le calcul, mais le stockage, soumis à de fortes exigences en termes de performances. Les clusters ont donc été interconnectés à un pool de 7 pétaoctets de stockage basé sur Ceph avec une couche de gestion Red Hat.
Mais dans la plupart des environnements de laboratoire, les réseaux sur site sont limités et ne peuvent pas gérer des transferts massifs de données. Les spécificités de CLIMB ont donc par ailleurs nécessité l’installation d’un cluster HPC de 160 cœurs, à côté du système de séquençage, pour prendre en charge un premier niveau d’analyse et générer des premiers résultats qui eux pourront ensuite être transférés vers d’autres sites pour des traitements plus avancés.
Garantir la reproductibilité des résultats
La reproductibilité est également un critère fondamental de la recherche académique. Les chercheurs devaient être en mesure de reproduire exactement à l’identique tous les résultats transmis au NHS et à l’OMS (Organisation Mondiale de la Santé). Les équipes du CLIMB ont donc créé des pipelines verrouillés, en s’appuyant sur la technologie de gestion des flux NextFlow adossée à des conteneurs Singularity, afin de garantir la cohérence des différentes séquences.
Dernier point, et non des moindres : la disponibilité du HPC. Le cluster OpenStack est doté d’un système de sauvegarde et de résilience qui assure qu’en cas d’indisponibilité d’un des laboratoires, les données patients restent accessibles et les analyses possibles.
La sophistication de l’architecture n’a cependant pas été un frein à l’automatisation. Un nombre important d’étapes ont été automatisées grâce à l’utilisation d’outils avancés de gestion des ressources et des flux de travail.
Des séquençages par milliers !
L’automatisation des processus dans un environnement aussi complexe que le HPC est traditionnellement une tâche elle aussi complexe. Mais là encore, les équipes se sont employées à casser les codes en automatisant au maximum le worklfow via des playbooks Ansible.
Les apports de cette architecture HPC sont désormais très concrets. En 12 mois, les équipes CLIMB ont séquencé 8 000 à 9 000 génomes. Les ressources HPC sont largement mutualisées au sein du programme CLIMB puisqu’elles bénéficient à plus de 1 000 utilisateurs.
En 12 mois, les équipes CLIMB ont séquencé 8 000 à 9 000 génomes.
Les chercheurs se félicitent des progrès enregistrés en matière de rapidité du séquençage génomique et de la lutte contre les maladies infectieuses, permettant ainsi d’améliorer la santé publique et de contribuer au développement d’une médecine plus personnalisée.
Notons enfin que la France n’est pas en reste dans le domaine. Avec AURAGEN, le pays se dote d’une plateforme de séquençage du génome à très haut débit dans le cadre du plan France Médecine Génomique 2025. Et nous aurons très vite l’occasion d’en reparler !