Cyber-renseignement : vers une lutte d’intelligences artificielles

Après trois décennies de progrès informatiques, le cyber-renseignement occupe une position centrale dans l’écosystème du renseignement. L’augmentation exponentielle du volume des données numériques produites quotidiennement contribue à renforcer cette prédominance dans la recherche d’informations ouvertes et privées. Comme le montre cet article, l’intelligence artificielle s’apprête désormais à bouleverser les techniques d’intrusions furtives dans les systèmes et la collecte des données.

En 2020, l’humanité aura produit volontairement ou non plus de 40 zettaoctets de données numériques, soit 40 x 1021 octets. En une seule minute de l’année 2016, 150 millions de mails ont été envoyés, 350 000 nouveaux tweets publiés, 530 000 photos échangées et 2,4 millions de requêtes formulées sur Google (1). Sur ce déluge de données s’élabore une économie de la connaissance qui transforme le monde, grâce notamment aux progrès fulgurants de l’intelligence artificielle (IA).

La donnée numérique, considérée comme une ressource en croissance exponentielle, crée de la valeur lorsqu’elle est correctement exploitée. Les enjeux économiques, géopolitiques et stratégiques liés à la maitrise de cette donnée mobilisent désormais deux savoir-faire technologiques centraux : d’une part, la capacité de collecte et de stockage des données, et, d’autre part, la capacité d’automatisation de l’interprétation des données collectées. En apportant des solutions fonctionnelles performantes, l’intelligence artificielle permet aujourd’hui de renforcer ces deux capacités, notamment dans les tâches de catégorisation et d’analyse de très grands volumes de données.

Or le cyber-renseignement repose, rappelons-le, sur l’acquisition d’information à partir de la collecte de données numériques ouvertes ou non. Il va connaitre d’importantes mutations dictées par les progrès de l’IA et par la course technologique mondiale qui s’engage entre les différentes structures de renseignement étatiques et privées. La tendance générale à l’automatisation et à l’autonomisation des systèmes risque ainsi de conduire à de puissants duels algorithmiques opposant les IA offensives aux IA défensives.

L’IA dans la collecte et l’exploitation de données numériques

soit produite par un opérateur humain, par un système ou par un objet connecté, la donnée numérique est en général stockée avant et durant son traitement sur un support informatique « physique » (disques d’un serveur localisé ou dans le cloud, carte mémoire, clé USB…). Cette donnée est dite ouverte lorsqu’elle est rendue publique par celui qui l’a créée, ou divulguée par celui qui l’a captée, légalement ou non. Une donnée fermée (ou privée), au contraire, n’a pas vocation à être rendue publique et doit rester inaccessible à ceux qui n’en sont pas les destinataires légitimes.

L’acquisition d’une donnée ouverte s’effectue sans effort algorithmique particulier, mais peut en revanche demander une infrastructure de grande ampleur si le volume est important (Big Data) ou si la collecte se veut exhaustive et en « temps réel ». Dans le cadre d’une collecte massive à l’échelle d’un État ou d’un géant de l’Internet, l’infrastructure de collecte et de stockage repose sur un important réseau de data centers interconnectés, alimentés par des centrales électriques de proximité. Le leader mondial Google possèderait ainsi un parc de près d’un million de serveurs répartis dans une quarantaine de data centers dont une vingtaine implantés aux États-Unis, le reste étant situé en Asie et Europe. C’est également le cas pour les grandes agences gouvernementales comme la National Security Agency (NSA) et la Central Intelligence Agency (CIA) américaines ou le Government Communications Headquarters (GCHQ) britannique, qui disposent d’importantes capacités de collecte et de stockage au sein de data centers de haute performance. Ces derniers sont dédiés à la sécurité nationale, à la surveillance de masse et au renseignement. Parallèlement, les agences de renseignement américaines ont établi des accords avec les géants industriels de l’Internet pour l’acquisition de données ciblées intervenant par exemple dans la lutte contre le terrorisme.

Une fois les données collectées et stockées, intervient la phase d’exploitation via des algorithmes adaptés aux volumes traités. Le framework* opensource Hadoop-MapReduce permet par exemple de créer des applications distribuées* et scalables* pour le stockage et le traitement de très grands volumes de données. Ainsi, l’ensemble des technologies du Big Data peut être mobilisé pour structurer ces données et les « faire parler ». L’IA intervient dans la phase d’analyse, en particulier lorsqu’il s’agit de catégoriser de manière automatique une grande quantité de données. Typiquement, l’apprentissage machine (ou machine learning) supervisé ou non supervisé, devient très pertinent pour mettre en place une reconnaissance automatique d’objets ou de contexte dans une image. Le système, composé en général d’un ou plusieurs réseau(x) de neurones artificiels, commence par être « éduqué » sur des jeux de données d’exemples dont on connait les sorties souhaitées. Cette phase d’apprentissage permet au réseau de neurones artificiels de régler ses paramètres pour devenir très performant sur les futures données à traiter, de manière autonome. L’apprentissage profond (deep learning) a connu ainsi de grands succès depuis cinq ans, notamment dans la reconnaissance faciale ou biométrique. Les progrès de l’analyse sémantique de textes rendent possibles des tris « intelligents » sur de gros volumes de mails en dépassant la simple catégorisation par mots clés. L’IA est logiquement omniprésente dans ce type de traitement.

Par ailleurs, un service de renseignement peut accéder par deux méthodes aux données numériques privées et protégées d’un individu. La première consiste à passer par un accord avec l’opérateur internet ou avec les grands fournisseurs de service en ligne que la cible utilise. Cette méthode a été employée et « industrialisée » dans le programme PRISM de la NSA, ainsi que cela a été dévoilé à la suite des révélations d’Edward Snowden en 2013 (2), rendant ainsi possibles une collecte et une cybersurveillance de masse. Une autre méthode consiste à s’introduire dans l’ordinateur ou le système informatique utilisé par la cible afin d’y installer un programme furtif (spyware) permettant de prendre le contrôle de certaines fonctionnalités de la machine et/ou d’en exfiltrer les données utiles.

L’intrusion dans un système et l’exfiltration de données privées

L’intrusion/exfiltration de données au moyen d’un spyware nécessite une préparation importante qui commence souvent par une phase d’ingénierie sociale. Durant cette phase initiale, l’attaquant analyse les défenses informatiques de la machine ciblée, mais également les habitudes numériques et la projection algorithmique* ouverte de son utilisateur. Le malware doit être suffisamment furtif pour ne pas être détecté par les antivirus et pare-feux de la cible. L’attaquant le camoufle souvent dans la pièce jointe d’un mail ou derrière un lien html malveillant. Le niveau de complexité des spywares efficaces est par nature très élevé, puisque ce programme malveillant ne doit pas être répertorié dans la base de signatures régulièrement mise à jour des antivirus commerciaux. Cette phase initiale, préparant toute cyberopération, relève du duel algorithmique qui oppose le système de défense de la cible au niveau de furtivité de la charge virale déployée par l’attaquant. La construction d’un spyware hautement furtif de prise de contrôle et d’exfiltration de données reste très complexe et nécessite une équipe structurée de développeurs, d’ingénieurs systèmes et réseau ayant une excellente expertise en cybersécurité. Les différentes rétro-analyses des célèbres spywares Stuxnet (2010), Flame (2012), Careto (2014), Equation (2015) ou Babar (2015) ont mis en lumière une sophistication et une maitrise algorithmique de haut niveau excluant de fait l’éventualité d’un développement par une cellule de hacking classique – c’est-à-dire relevant de la cyberdélinquance et n’œuvrant pas pour un service de renseignement. Ils émergent nécessairement de structures beaucoup plus sophistiquées.

Le déploiement d’un malware dans le système ciblé exploite ce que l’on nomme pudiquement le « facteur humain », mais que l’on peut résumer par la crédulité, le défaut d’attention ou de concentration et parfois la négligence humaine. Il s’agit pour l’attaquant d’inciter un utilisateur à cliquer sur un lien malveillant déclenchant l’exécution du vecteur d’intrusion du spyware et son installation sur la machine ciblée. Pour y parvenir, l’attaquant peut usurper l’identité d’un interlocuteur ou d’un site de confiance et reproduire un faux environnement numérique imitant un site officiel inspirant confiance à la cible. La qualité de la fausse donnée construite pour l’attaque est alors déterminante pour son succès. D’une manière générale, les structures de données fictives destinées à tromper l’utilisateur deviennent centrales dans l’élaboration des opérations de cyber-renseignement. C’est pourquoi les fausses architectures numériques se complexifient, comme cela a été constaté avec l’opération Newscaster-NewsOnAir.

Premier affrontement d’IA : entretien des structures de données fictives versus détection de celles-ci

« Newscaster-NewsOnAir » (3), attribuée à une unité de hackers iranienne, est une opération de cyberespionnage qui a démontré toute la puissance des fausses données pour tromper des cibles. S’inscrivant dans la durée, entre 2012 et 2014, cette cyberopération a ciblé plus de 2000 personnes à haut niveau de responsabilité aux États-Unis, en Europe et en Israël. Parmi les victimes de cette agression figurent des officiers supérieurs de l’US Army, des ingénieurs d’industries d’armement, des membres du Congrès, des chefs d’entreprises. Newscaster a été à la fois longue, structurée, adaptative et furtive. La première phase de l’opération s’est appuyée sur la construction d’un faux site web d’information intitulé NewsOnAir, implanté sur des serveurs américains sous contrôle de l’attaquant et supervisé par une rédaction d’agence de presse totalement fictive. Un noyau d’une quinzaine de profils fictifs de journalistes américains affectés à la rédaction du site a été déployé sur l’ensemble des grands réseaux sociaux (Facebook, Twitter, LinkedIn). Cette rédaction virtuelle et fictive a ensuite noué des contacts privilégiés avec ses lecteurs, puis a prospecté en direction de ses futures cibles pour leur proposer de participer à la rédaction d’articles sur le site. Au fil des mois et des échanges, la confiance s’est installée entre les journalistes fictifs et les contributeurs ciblés. Lorsqu’une cible envoyait un article à la rédaction de NewsOnAir pour publication sur le site, l’échange de fichiers était utilisé par les attaquants pour injecter des spywares (logiciels destinés à collecter de manière furtive les données présentes sur un ordinateur) sur les machines des cibles. Durant plus d’un an, des données sensibles ou classifiées ont été collectées et exfiltrées par les superviseurs de Newscaster, dans la plus stricte discrétion, jusqu’à ce que la présence des spywares finisse par être détectée par les systèmes d’antivirus.

Dans notre boutique

leo. ut id et, Donec sit libero.
Votre panier