Robustesse et résilience

26/10/23 15:20

Lorsqu’il s’agit de défendre un système au sens large, l’objectif est d’en assurer la stabilité en toute circonstance afin qu’il puisse délivrer les fonctions attendues. La défense consiste à procurer la capacité de résister aux désordres influant sur le fonctionnement du système. En général, pour assurer la capacité de résister aux perturbations et aux défis, deux concepts sont mis en œuvre : la robustesse et la résilience. Ces deux concepts sont complémentaires et agissent chacun dans un registre différent.
En matière de cyberdéfense, et bien que les chose changent, l’emphase était plutôt mise jusque-là sur la robustesse. La robustesse se réfère à la capacité d'un système à fonctionner de manière stable et prévisible face à des conditions changeantes ou des perturbations, sans être nécessairement capable de se rétablir rapidement en cas de défaillance ou de bouleversement. Dans le contexte qui nous intéresse la robustesse est la capacité d’un système d’information à résister à une attaque via des approches de protection, détection et réponse. En revanche, la résilience se réfère à la capacité d'un système à absorber un choc, à s'adapter et à se rétablir rapidement après une perturbation ou une défaillance. Dans notre domaine, la résilience est la capacité d’un système d’information à subir une attaque. La résilience implique souvent une certaine flexibilité et une capacité à se réorganiser en réponse à une perturbation. Ainsi, la robustesse vise à maintenir la stabilité du système, tandis que la résilience vise à permettre au système de se rétablir rapidement après une perturbation, elle fait intervenir les notions d’agilité, de flexibilité et d’adaptabilité.
Ainsi, de manière synthétique et en matière de cybersécurité, la robustesse est la capacité d’un système d’information à résister à une attaque alors que la résilience est la capacité d’un système d’information à subir une attaque.
Dans le cadre des systèmes d’information, la notion de résilience n’est pas nouvelle et fait en général appel au plan de continuité et de reprise d’activité. Ces notions existent depuis très longtemps et ont toujours existé de pair avec les systèmes de traitement de l’information. Malheureusement, et les personnes qui interviennent en réponse à incident cyber le constate régulièrement, souvent ces plans sont élaborés pour faire face à des situations bien différentes d’une cyberattaque et très souvent la possibilité d’un système d’information entièrement inutilisable n’a pas été pris en compte. Ces plans ont souvent à l’origine été créés pour faire face à des aléas accidentels ou naturels intenses mais limités géographiquement : incendie d’un centre de données, perte d’une unité de production par événement géopolitique, crash d’un avion de ligne sur un site, crue majeure, coupure électrique, événements sociaux bloquant une usine… Très souvent, ces événements graves, bien qu’invalidant fortement le système d’information ont une portée limitée sur celui-ci et la résilience a souvent été pensée en terme de redondance. Les mécanismes de cluster, site de backup, réplication à chaud, duplication, serveurs de secours sont d’une grande efficacité dans beaucoup de cas mais seront inopérant ou au mieux faiblement utile dans le cadre d’une cyberattaque.
De plus ces plans n’ont pas toujours intégrés la perte totale des moyens de communication de l’organisation touchée : plus de messagerie, plus de chat, plus de téléphone. Lorsque la crise majeure arrive, l’organisation doit disposer de moyens de communication prévus et fonctionnant indépendamment de son système d’information nominal. De plus, contrairement à un aléa accidentel ou climatique, dans le cas d’une cyberattaque, la question de la confiance dans les éléments du système d’information se pose. Même si un sous-ensemble semble non touché et fonctionnel, il n’est pas possible de le considérer par défaut comme étant de confiance et il doit être écarté dans un premier temps pour être analysé. Dans un premier temps, l’intégralité du système d’information est inutilisable, soit directement parce que les données et applications sont chiffrées, corrompues ou inaccessibles, soit parce qu’il n’est pas possible de leur faire confiance.
Bien évidemment une résilience complète, immédiate, totale et transparente est une utopie, ne serait-ce qu’à cause des montants à investir que cela implique, et c’est en cela que la résilience implique une capacité à se réorganiser. Souvent l’activité fonctionnera dans un premier temps en mode dégradé, par exemple en termes de capacité d’accès, ou de performance, ou encore de volume... De plus, il n’est pas non plus possible de redémarrer l’intégralité des services, applications et ressources dans un délai très court. Il est nécessaire de faire des arbitrages, de choisir ce qui sera privilégié dans un premier temps. Il est donc indispensable d’identifier au préalable les actifs (physiques et logiques) primordiaux qui seront les premiers à repartir. Ceux indispensables au fonctionnement et à la production du cœur de l’activité. D’autres fonctions, moins importantes, redémarreront différemment, en mode dégradé, à faible capacité et plus tard car non indispensables. Dans l’industrie, cette réorganisation des systèmes de production est parfois appelée résilience asymétrique : la capacité de production est maintenue mais pas en condition nominale. Cela se retrouve également dans le transport, notamment ferroviaire, en cas de défaillance des systèmes le train circulera toujours mais pas à la vitesse commerciale.
De plus en plus, cette notion de résilience est prise en compte par les organisations, notamment parce que le risque cyber est de plus en plus présents et que la probabilité d’une attaque importante ayant abouti augmente. Les organisations mettent ainsi en place des dispositifs, des procédures et des organisations à même d’assurer la résilience de leur système d’information et permettre ainsi de maintenir leur capacité de production y compris lors de la survenue d’un événement majeur comme une cyber-attaque réussie. Lorsque les fonctions de résilience sont activées, cela veut dire que l’organisation fait face à une cyberattaque réussie (au moins partiellement) , elle est donc en situation de crise et la cellule de crise a bien évidemment été activée. C’est pour cela, que la plupart du temps les procédures et mécanismes de mise en œuvre des fonctions de résilience sont pilotés par la cellule de crise cyber. La gouvernance des différentes phases de résiliences est indispensable et c’est un rôle naturel et logique pour la cellule de crise. Le point à retenir est que pas plus que les procédures de résilience ne s’improvisent, leur mise en œuvre et leur pilotage non plus. La préparation à la crise est essentielle, et la cellule de crise doit avoir été pensé avant, ses membres désignés ainsi que les mécanismes d’activation et de fonctionnement opérationnel. Et bien entendu, pour s’assurer que tout cela fonctionne réellement il faut tester régulièrement.

Dianoia Conseil

Robustesse et résilience