A ce jour, quelques organismes américains ont tenté de fournir une base suffisamment robuste pour initier la modélisation du risque cyber, comme PRC et VERIS (disponibles en accès libre), mais les données peuvent manquer de pertinence et de détail. Les rapports LUCY, bien qu’ils ne constituent pas des bases de données, offrent également une vue d’ensemble centrée sur le marché français. Ce sont d’ailleurs les seules données spécifiquement françaises disponibles. La situation reste donc complexe, mais le projet européen de constitution d’une base marché pourrait constituer un socle solide et inédit pour les marchés européens, même si les conditions de sa mise à disposition ne sont pas encore connues.

Base de données PRC : intérêt et limites

La base de données PRC (Privacy Rights Clearinghouse) est une base de données américaine qui référence les incidents cyber et principalement les violations de données. Claire dans sa construction et en accès libre sur le site PrivacyRights, elle est très utilisée dans la modélisation cyber et dans de nombreux travaux de recherche. Elle décrit les incidents en indiquant des informations essentielles telles que la date de survenance, le type d’attaque cyber utilisé. Elle livre aussi des renseignements sur l’entreprise attaquée : nom, localisation et secteur d’activité. 

données PRC sinistre cyber

Exemple de données extraites de la base PRC pour un sinistre cyber

Les variables Type de violation de données et Type d’organisation sont particulièrement intéressantes. Elles permettent de comprendre les types d’attaques perpétrées (piratage à l’aide de logiciel malveillants, divulgation non intentionnelle…) et le profil des victimes (établissement d’éducation, organisme de santé, commerce…). Cette base a permis d’établir un volume de données important (environ 9 000 sinistres répertoriés), mais en accès libre seulement pour la période de 2005 à 2019. Au vu des mutations rapides des risques cyber, l’absence de sinistres récents est assez problématique. De plus si le périmètre des données est clair, il manque des informations précieusescomme le coût des sinistres. Enfin, la base n’intègre que les dates de déclaration des sinistres, et non celles de survenance qui peuvent être assez éloignées.

proportion de la variable Type_of_organization

Proportion de la variable Type_of_organization dans la base PRC

VERIS, une base de données plus complète mais complexe

La base VERIS (Vocabulary for Event Recording and Incident Sharing), majoritairement américaine, est beaucoup plus complète mais moins référencée que PRC. Elle est disponible en libre accès sur le site Veris Community. Les sinistres y sont répertoriés de 2005 à 2023. Pourtant, la complexité de la base de données peut représenter un frein car elle nécessite un processus important de mise en forme et de structuration des données.

Nombre de déclarations de sinistres par an

Comparaison du nombre de déclarations des sinistres par année pour les deux bases de données

La base détaille les caractéristiques des sinistres segmentés en catégories Acteurs, Actions, Actifs et Attributs, elles-mêmes subdivisées à une maille plus fine. Par exemple, la catégorie Acteurs inclut les acteurs extérieurs qui regroupent toutes les menaces provenant d’en dehors de l’entreprise attaquée  : hackers, mais aussi anciens employés ou même gouvernements étrangers. Le motif de l’attaque est également disponible. 

Ainsi, bien plus détaillée que la base PRC, VERIS présente un nombre de variables important permettant une connaissance du risque plus approfondie. Elle contient aussi plus de sinistres (10 000, soit 1 000 de plus que PRC). 

Thomas Bastard a mené une comparaison approfondie entre les deux bases selon les critères de Solvabilité 2 : Exhaustivité, Exactitude et Pertinence. Il en ressort que la base VERIS se distingue comme étant meilleure pour chacun de ces critères.

Absence de date de survenance

Par conséquent, la base VERIS peut remplacer la base PRC. Cependant, elle comporte aussi certains défauts comme l’absence des dates de survenance et certaines erreurs sur les dates de déclaration. Ainsi, dans une segmentation très précise des sinistres, une erreur pourrait entraîner des conséquences plus importantes dans la précision des modèles. Il convient, à l’instar de PRC, de faire très attention à la qualité des données utilisées et d’implémenter des modèles correctifs. Il est également important de souligner que ces bases ne traitent que des violations de données. Elles ne peuvent donc pas être utilisées pour modéliser les autres types de risques cyber (cf. article 2 sur le lexique). 

Une dernière remarque : PRC et VERIS restent des bases américaines, elles peuvent donc ne pas refléter l’état des marchés européens. 

Les rapports LUCY

Les rapports LUCY offrent une ressource intéressante. Ils synthétisent les données globales du marché français de l’assurance cyber, comme le nombre de sinistres par année et par taille d’entreprises. Mais la base détaillée n’est pas disponible en accès libre, ce qui empêche le développement de modèles sur cette seule source. 

Dossier Assurance cyber 1/5 – Assurance cyber, un marché encore embryonnaire

Données des rapports Lucy (1/3)

Données des rapports Lucy (2/3)

Données des rapports Lucy (3/3)

Données issues du rapport LUCY 2024 

Vers une nouvelle base de données européenne ?

Une base de données européenne pourrait bientôt voir le jour grâce à l’initiative réglementaire Cyber Resilience Act (CRA), récemment adoptée par le Parlement Européen. Le CRA impose des exigences strictes en matière de cybersécurité, incluant un suivi approfondi des cyberattaques. Cette réglementation exige également une transparence accrue de la part des entreprises européennes quant à leur gestion des risques cyber. La base de données résultant de cette surveillance pourrait s’avérer très utile pour comprendre et gérer les menaces cyber. Néanmoins, les modalités d’utilisation et la qualité des données (accès libre, période de collecte, types de risques couverts), doivent encore être précisées.

Conclusion

La qualité et la pertinence des données sont cruciales pour modéliser efficacement les risques cyber. Malheureusement, il n’existe pas aujourd’hui de base de qualité suffisante pour une bonne appréhension de ces risques. 

Les bases PRC et VERIS, bien que précieuses, présentent des limites en termes de mises à jour et de contenu, et leur périmètre reste centré sur les Etats-Unis. Les rapports LUCY offrent une vue d’ensemble du marché français. Néanmoins, les données fournies sont trop macros pour permettre le développement de modèles. 

Ces défauts n’empêchent pas de construire des modèles cyber, ils nous obligent à une grande prise de recul sur les hypothèses et les résultats obtenus. La future base de données européenne représente une source d’espoir qui pourrait combler ces lacunes, sous réserve de ses contours et des conditions de sa disponibilité.

Dans notre prochain article, nous explorerons les différents modèles utilisés pour quantifier le risque cyber. Nous examinerons notamment les méthodologies et approches qui permettent de mieux évaluer et gérer ces menaces croissantes.

Tous les articles de notre dossier

  1. Assurance cyber, un marché encore embryonnaire
  2. Risque Cyber – de quoi parle-t-on ? Lexique
  3. Assurance cyber, un cadre législatif encore incomplet
  4. Les données disponibles, défi majeur dans la gestion des risques cyber