Les apports de l’intelligence artificielle en cybersécurité et cyberdéfense

Apparue dans les années 1950, l’Intelligence Artificielle (IA) bouleverse désormais l’ensemble des pratiques et des activités humaines. Sa diffusion rapide dans les infrastructures numériques transforme l’économie mondiale, supprime certains métiers tout en créant de nouveaux besoins (1).

Le secteur de la cybersécurité-­cyberdéfense n’échappe pas à cette révolution technologique et doit anticiper des mutations disruptives qui imposent l’intégration rapide de nouvelles approches. À court terme, les forces armées seront elles aussi confrontées à la montée en puissance de l’IA dans les systèmes d’armes et d’aide à la décision. Elles devront alors relever deux défis majeurs : tirer avantage de cette IA tout en contrant celle de l’ennemi.

Intelligence artificielle : de quoi parle-t-on ?

L’histoire de l’IA est récente. Apparu en 1956 durant la célèbre conférence du Darmouth College (États-Unis), le terme d’« intelligence artificielle » est attribué à Marvin Minsky (1927-2016) qui a été le premier à en donner une définition : « L’intelligence artificielle est la science qui consiste à faire faire à des machines ce que l’homme fait moyennant une certaine intelligence ». Formulée dans le contexte de l’époque, cette définition incomplète exclut aujourd’hui des domaines majeurs de l’IA contemporaine : la perception (vision et parole), la robotique, la compréhension du langage naturel et le sens commun. Elle souffre également d’une forte récursivité qui ne tient pas compte des différences de niveaux séparant la « complexité mentale » de la complexité informatique. Une définition plus opérationnelle et plus ouverte au progrès technologique a été proposée par Elaine Rich et Kevin Knight : « L’IA est le domaine de l’informatique qui étudie comment faire faire à l’ordinateur des tâches pour lesquelles l’homme est aujourd’hui encore le meilleur (2) ».

Historiquement, il existe quatre approches distinctes de l’IA qui doivent être entendues comme des tentatives pour amener un ordinateur à : 1) penser comme les humains, 2) penser rationnellement, 3) agir comme les humains, 4) agir rationnellement. Les deux premières approches relèvent de l’intellect et de l’hypothèse d’une IA forte : « Les machines seront intelligentes, posséderont une conscience, quel que soit le support physique de leur implémentation (3) ». Les deux dernières approches, quant à elles, sont associées au comportement et à l’hypothèse d’une IA faible : « Les machines pourront agir comme si elles étaient intelligentes, mais ne penseront pas, n’auront ni émotion ni conscience ». L’une des composantes les plus actives de l’IA concerne aujourd’hui l’apprentissage automatisé qui permet à un système d’apprendre de ses expériences pour devenir plus performant. Des progrès spectaculaires ont été réalisés, ces cinq dernières années, dans les techniques d’apprentissage profond (deep learning) qui investissent désormais de nombreux domaines civils et militaires. Ainsi, la simulation de combat aérien s’appuie sur l’apprentissage automatisé pour offrir aux élèves pilotes un environnement particulièrement réaliste. En juin 2016, Alpha, une IA de simulation de combat aérien développée par une équipe de chercheurs de l’université de Cincinnati (4), a surpassé plusieurs pilotes instructeurs « humains ». Le colonel Gene Lee (US Air Force), l’un des experts défaits par Alpha, déclarait à l’issue de son dernier combat : « Alpha semblait être au courant de mes intentions et réagissait instantanément à mes changements de tactique et à mes déploiements de missiles. Elle savait comment défaire mes moindres tentatives. Elle se déplaçait instantanément entre positions défensives et offensives. C’est l’intelligence artificielle la plus agressive, la plus réactive, la plus dynamique et la plus crédible que j’ai observée à ce jour ».

L’apprentissage artificiel au service de la cybersécurité-cyberdéfense

On attend d’une IA qu’elle soit suffisamment généraliste, autonome et auto-­apprenante. Elle doit devenir performante et adaptative dans des situations dynamiques, changeantes et singulières. Elle doit être capable d’assister l’apprentissage humain et de gérer des dialogues entre « agents » très hétérogènes. Il faut pour cela traiter la cognition comme une émergence dans l’interaction avec l’environnement. Cela implique la conception d’une nouvelle génération de systèmes informatiques qui vont privilégier une cognition située, distribuée, émergente (prolifération d’agents intelligents et auto-­apprentissage). Un système d’apprentissage est en général composé d’un modèle paramétrique, d’une façon d’interagir avec l’environnement, d’une « fonction de coût » à minimiser, et d’un algorithme destiné à adapter le modèle, en utilisant les données issues de l’environnement, avec l’objectif d’optimiser la fonction de coût.

Les réseaux de neurones artificiels fonctionnent sur ce modèle et peuvent être considérés comme le moteur de l’apprentissage machine. Les techniques de deep learning utilisent des réseaux de neurones dotés de plusieurs couches intermédiaires qui permettent de subdiviser le travail de catégorisation. Chaque couche intermédiaire du réseau de neurones traite un sous-­problème plus simple et fournit le résultat à la couche suivante. Appliquée à la reconnaissance d’images, cette architecture permet de s’affranchir d’une phase d’analyse préparatoire des images avant de les fournir au réseau. Dans un contexte de deep learning, on laisse aux couches du réseau le soin de découvrir les caractéristiques déterminantes d’un objet dans une image. Ce fonctionnement se rapproche de celui du cerveau humain. Après avoir fourni une grande quantité d’images pour son entraînement, le réseau de neurones se règle lui-même pour apprendre à reconnaître les images suivantes. Cette autonomie dans l’apprentissage ouvre la voie à de nouvelles capacités utilisées notamment en cybersécurité.

Les grands acteurs de la cybersécurité s’orientent désormais vers l’UBA (User Behavior Analytics), qui fournit une image précise, presque en temps réel, du risque associé au comportement de l’utilisateur. Le développement de produits de cybersécurité embarquant des technologies d’UBA se généralise depuis 2012. Les finalistes de l’édition 2015 de la conférence RSA « Innovation Sandbox » ont présenté des solutions de smart-security UBA particulièrement efficaces. Qu’il s’agisse de HP, de SentinelOne ou de Fortscale, ces finalistes ont dévoilé en 2015 leurs produits combinant le machine learning et les technologies classiques de supervision pour détecter les comportements anormaux. Une solution utilisant l’UBA apprend, sans prérequis de modèle, à partir de « l’historique de vie » d’un système puis catégorise et sépare les comportements « anormaux » de ceux qui sont conformes aux standards de sécurité. L’UBA est ainsi en mesure de produire des alertes sur des événements susceptibles de créer un contexte de vulnérabilité.

Le fonctionnement de l’UBA repose sur l’apprentissage statistique. Celui-ci utilise les données massives qui demeuraient jusqu’à présent sous-­employées ou seulement partiellement utilisées comme les bases de logs des systèmes connectés. Les systèmes s’appuyant sur l’UBA exploitent massivement les rapports d’activité, les fichiers de logs et le SIEM (Security Information Management System) en tant que base d’apprentissage. Ils définissent des motifs typiques correspondant statistiquement à des comportements à risque. Les solutions UBA contiennent souvent plusieurs moteurs de détection d’anomalies, complémentaires, qui collaborent pour couvrir un large spectre de menaces. On y trouve en général un moteur de détection de signal faible, un moteur de corrélation métier issu de l’expertise d’ingénieurs en cybersécurité complétés par une base de connaissances globale régulièrement mise à jour à partir des retours d’expériences clients. Ces moteurs travaillent sur une base (Big Data) souvent externalisée qui contient les données d’entrées utilisées ensuite lors de la phase d’apprentissage. Les technologies d’UBA fournissent ainsi une approche optimale dans la détection de menaces inédites et d’attaques furtives, donc complexes. À telle enseigne que le président de la NSA déclarait dès 2012 : « L’analyse comportementale est la solution la plus plausible contre les APT [menaces persistantes avancées] ».

Vers une automatisation de la cybersécurité-cyberdéfense

Qu’il s’agisse de robotique militaire, de systèmes d’armes semi-­autonomes ou de plates-formes d’aide à la décision destinées au commandement, les domaines d’application de l’IA dans un contexte militaire se diversifient à grande vitesse. Les progrès réalisés en IA permettent de plus en plus souvent de surpasser les capacités des meilleurs experts humains. C’est désormais le cas en cybersécurité, avec une tendance forte à l’automatisation des processus. Ainsi, les trois avancées technologiques qui suivent témoignent d’une évolution vers une cyberdéfense « robotisée ».

Les « Bug-Hunting Bots » – CGC consacrés à la cyberdéfense

Lancé par la DARPA dans le cadre du Cyber Grand Challenge (CGC) 2016 (5), ce programme concerne la détection automatisée des bugs et des vulnérabilités présents dans les programmes informatiques. Son objectif est de robotiser et d’industrialiser la cybersécurité. La phase finale du CGC s’est déroulée les 6 et 7 août 2016, à Las Vegas. Il a opposé sept systèmes robotisés développés durant trois ans par sept équipes du concours. Les sept solutions retenues ont été mises en compétition dans la détection automatique de vulnérabilités logicielles et réseaux présentes dans les systèmes adverses et dans la protection de son propre réseau. Conçu avant tout comme un démonstrateur, le tournoi CGC a prouvé qu’il était désormais possible de créer des agents logiciels capables de scanner de façon automatique des codes adaptés puis de détecter certaines de leurs vulnérabilités. La compétition a eu lieu dans un environnement numérique spécifique dans lequel se sont affrontés quinze supercalculateurs détecteurs de vulnérabilités informatiques devant un comité d’arbitrage qui a finalement désigné l’équipe ForAllSecure comme gagnante du CGC.

La DARPA souhaite désormais développer des agents logiciels « chasseurs de bugs » ouvrant ainsi la voie à une cybersécurité automatisée, industrialisée, exploitant massivement les techniques de l’intelligence artificielle. Les démonstrateurs finalistes du CGC doivent évoluer à très court terme vers la production d’agents « Bug-­Hunting Bots » qui seront déployés sur l’ensemble des réseaux sensibles. Ces futurs agents autonomes pourront être utilisés autant en mode défensif qu’en version offensive afin de détecter certaines des vulnérabilités d’un système adverse. Cette évolution vers une cyberdéfense « robotisée » se trouve toutefois limitée par un résultat mathématique lié au problème de l’arrêt (Turing) qui prouve qu’il n’existe pas d’analyseur universel capable de décider sans jamais se tromper, pour tout programme, si ce programme est sûr ou non. Cette limite théorique permet d’affirmer que la cybersécurité absolue n’existe pas… Cela dit, une telle borne n’interdit pas le développement de systèmes de détections dont la performance pourrait atteindre 90 ou 95 % de l’ensemble des vulnérabilités.

Les réseaux de neurones en cryptographie

Dans notre boutique

ut venenatis, Aenean eget odio Curabitur felis
Votre panier